GPT“不合法”?从诞生那一刻也许就注定了如此
在过去一年,GPT快速风靡世界,大语言模型的技术进步可谓是一日千里,从GPT3,到3.5,到GPT4只用了两年多时间。
而最近一条新闻再次让GPT上了热搜,纽约时报对OpenAI和微软正式提起诉讼,指控其未经授权就使用纽约时报内容训练人工智能模型。索赔金额,达到了数十亿美元。
GPT的诞生本身,是否就是“不合法”的?
纽约时报指控OpenAI和微软未经许可,就使用纽约时报的数百万篇文章来训练GPT模型,创建包括ChatGPT和Copilot之类的AI产品。
并且,要求销毁“所有包含纽约时报作品的GPT或其他大语言模型和训练集”。
纽约时报的指控其实非常本质,大多数人往往只把GPT的核心代码看作是人类知识的结晶,或者法律上所说的“知识产权”,但却忽略了让GPT成长起来,甚至能够诞生的必要条件——海量的训练数据。
这些海量的文字图像训练数据是公开的,但并不代表它们没有知识产权的保护,比如纽约时报的内容,你可以在互联网上阅读,但你想要“商用”,就会触碰到版权的屏障。而利用这些包含“版权”的内容训练出来的GPT,它的合法性也因此被质疑。
通俗点说,比如我们在土地上建立了雄伟华丽的建筑,尽管建筑看起来辉煌灿烂,是人类知识和劳动的结晶,但我们不能忽略土地的作用,土地的三通一平,整理规划也是人类劳动的集合。如果“土地”被随意取用,那土地上的“建筑”是否由建造者保有全部的产权?
也许,GTP从诞生那一刻,它的“合法性”就必然会被质疑。
另外,关于合法性的探讨其实也反应出人们对于GPT这样大语言模型的一些担忧。
尤其是在使用端,这一两年来更是众说纷纭。虽然暂时没有统一的法规来规范GPT的使用,但针对科研领域的应用,很多大学和研究机构其实提出了一些使用规范和共识。
比如在2023年初ChatGPT刚开始风靡的时候,哈佛大学曾考虑禁止学生使用。但随着ChatGPT等生成式AI的飞速发展和应用的深入,哈佛大学认为,一味禁止无法改变现实,应该顺应技术潮流,并以安全的方式将ChatGPT整合到教育中以提升教学效率和质量。
类似的,像香港科技大学、牛津大学、耶鲁大学等一票名校也纷纷做出类似表态,适当对新技术进行了妥协——与现有大学政策和学术道德不相违背的情况下有限制地使用。
这些共识的本质,是对“滥用”GPT的担忧,而这种担忧不无道理。
GPT到底是“灵丹妙药”还是一颗“毒丸”?
在最初的“万众欢呼”和“狂飙突进”之后,其实包括小e和我们熟悉的一些专家也一直在思考和探讨这样一个问题——
对于我们每个人,或者针对科研人这个小群体来说,GPT的出现到底给我们带来了什么?是解决很多难题的“灵丹妙药”,还是一颗“毒丸”?
任何一项新技术新工具的出现往往都会带来好坏参半的影响,区别只在于是好处多些还是坏处多些。
很多人没有提到一个点——GPT这类大语言模型技术最显著的特点是低门槛。
尽管它只是人工智能技术的一些新进展,但GPT可以让普通人通过自然语言与计算机沟通,并且生成内容,让GPT的使用几乎没有门槛。
要知道,GPT出现之前,人工智能技术还是少部分专家和科学家的自留地,想要应用人工智能技术,不仅要理解相应的技术,还需要熟练掌握相应的编程语言,但现在,统统不需要了。
这导致的最大的问题在于GPT带来的影响被无限放大,新技术的利好和便利迅速被无数人共享,问题也不可避免地迅速显现。
不恰当地使用GPT这样的大语言模型技术,给创作者和普通人都带来了很严峻的挑战。
创作者是一个广义的说法,不仅包括所有从事文字、语言、艺术的工作者,“创作”科研成果的科研人员也同样属于创作者的范畴。
没错,虽然GPT大家见的最多的是生成文本信息,但是像Midjourney这样的工具在生成图像、插画等方面的功力,要是光看出图时间,能打100个插画师!而且,人家出图的质量也不差。
另外,音乐、视频、动画等等都因为GPT的出现卷出了天际。
至于科研,原本被认为是人类智慧的结晶,是不容“呆萌”但机器亵渎的。
但是,大家已经看到了,GPT已经“不甘于”只当一个小辅助,而是想要担纲成为主角。在GPT4刚出来的时候,就有人用它来写科研论文,甚至还成为了科研论文的“作者”。因为这个事,Nature和Science分别都发表了相关文章。明确了GPT作为科研论文作者的可行性和限制。
至于对于所有普通人带来的危害,看起来是隐性的,但影响深远。
GPT的广泛使用对于大众来说,有点像商业领域“毒丸”计划,通过大量增发新股,导致收购难度增加,而之所以说是“毒丸”,是因为这种增发新股的举措让公司本身也会被影响,导致投资价值变低,可以说是一种不太有利于公司本身的无奈举措。
而GPT大幅增加了整个互联网中的信息总量,和“毒丸”类似,这些信息往往是低价值和低质量的。
海量低质量信息充斥互联网,导致我们每个人想要获取有价值信息的难度大幅度增加。
如果原先寻找信息是在池塘里,现在则是把同样多的鱼放到大海中,鱼的数量没变(优质创作者的创作量没有显著变化),但“水”多了太多。
最近我自己的感受就很明显,以前搜索一些东西,只需要简单翻看几个排名在前面的搜索结果,现在嘛,不仅有大量雷同的内容,而且很多内容都言之无物,看起来好像有很多文字,仔细读完发现逻辑混乱,内容价值也不高。
如何在海量低质量信息中搜寻出有价值的信息,这对我们每个普通人都是一个巨大的挑战。
对于科研,监管、妥善使用可能是最好的答案
对于科研人员,GPT所带来的巨大的生产力提升可以帮助科研人员把精力更多地集中在创造性的工作当中,为一些琐碎的工作提供了低成本的解决方案。
比如GPT辅助论文阅读,对论文进行语言润色和调整,甚至通过GPT来搜索、整理、归纳一些资料,你把GPT当作一个科研助手也没问题。
所以,不能因为GPT带来的坏处就因噎废食,但也不能为了追求效率和易用性而影响科研创新本身。
也许,最好的办法就是像那些国内外知名大学一样,加强监管,妥善使用吧。
但是,在GPT激流勇进的当下,我们也要知道,GPT目前的能力还达不到真正科研人的水平。
——够用,但还不够“专业”。
就拿英文翻译来说,如果你真的全靠GPT那不得不说“心有点大”,专业词汇使用不准,表达一般还能忍受的话,原文意思歪曲也是偶有发生的情况哦。这在平时可能无所谓,但对于每一句话都要力求严谨的科研论文来说可以算是致命伤。之前有小伙伴试着自己写出中文论文,然后用GPT翻译再润色,捣鼓了半天后还是老老实实回去自己写英文了。
另外,像论文润色,已经有不少小伙伴上了GPT帮忙润色,虽然润色效果看起来不错,但为了保证科研论文的严谨和准确,尤其是千万避免发生润色后删改了原意这样的情况,我个人还是倾向于人工智能和人工结合起来,人工智能可以做大面上润色修改的工作,但一定要“人”来仔细检查和校验。
最后,意得辑一直为科研人提供各类论文服务,包括但不限于论文润色、论文翻译、发表指导,如果你有这方面需要,那么不妨让我们的专家为你提供专业的论文服务,让你的学术发表过程更加顺利和流畅。