科研人科研事

AI润色效果几何，这里有四款工具的综合测评

全职科研工作者，专注混合式研究（质性+量化）、跨学科理论+实证研究、国学爱好者

2024年03月25日 540 views

ChatGPT于一年前问世，AI话题热度至今未退。有人叹谓新兴科技，也有人关心技术和自身有什么关系。在Nature近日发布的一项样本为1659人的调查中，有超过半数受访者认为目前AI在科研中的可施展之处在于为非英语母语者作文章润色及翻译。

而在ChatGPT之前，市面上不乏以人工智能驱动的翻译、润色工具。作为学术出版从业者，我们及用户最关心的问题不外乎：AI润色质量如何；能否取代人；哪款工具最好用。

本文带着祛魅的目的对四款AI工具作了测评，希望能解答以上问题。愿你看过之后善用科技，不因未知而仰望，也无谓傲慢贬损。鉴于出版界目前对AI生成的文字持保守态度，许多期刊、基金、协学会不接受以机器撰写内容投稿，我们仅将测评范围划定在语言润色功能内。

统计标准定义

本测评以一段约600字的研究型论文为样本，分别经四款AI工具润色语言，另外引入人工润色结果作为对照。

将人工润色纳入对比，一来是模拟科研作者先用AI润色再自行校对的过程；再则是出于学术道德考量，表明学术文章的署名作者可以借助工具完善内容，却也应明确对工具作业结果负责的立场。

*样本文章为中文母语者撰写，英语是其第二语言。测评前作者已知情同意，原文可见参考文献。

本测评以人工编辑润色结果为标准，判断AI工具的语言编辑效果，评估指标如下：

改对：即工具修改结果与人工编辑改动一致。

改错：即工具修改结果与人工编辑改动不同，且含语法错误。

未改：即工具未识别出人工编辑作出的改动。

改进：即工具识别出人工编辑遗漏的错误。

无明显对错：即工具修改结果与人工编辑改动尽管不同，但语法正确，仅涉及语言风格、措辞等变化。

编辑效果之改了多少

在深入至“AI能改到什么程度”问题之前，不妨先看看改写量。

Grammarly未识别出的错误最多，不过但凡有改动都校正准确；
Paperpal识别出了所有问题，改对数最多；
QuillBot遗漏了超过半数的错误，在29处改动中仍有1处改错；
ChatGPT的改动总数最多，但改错率也最高。有超过一半的改动无明显对错，这是因为ChatGPT对文章的改写程度高，至于是好是坏下文还会展开。

Default Alt text

*测评工具均为免费版，分别为Grammarly Free、Paperpal Free、QuillBot Free、ChatGPT 3.5。

编辑质量之改动优劣

错在哪里

AI工具的润色或者说改写逻辑，其一是替换同义词。换得好能令行文正式、用词不单一。但对作者判断是否替换得当的要求也更高，在没有学科知识结构支撑的情况下，换词很可能让术语走样。

由同义词替换引发术语出错也是此次测评中最常见的问题，分为两类。

1.改变术语意思

ChatGPT在编辑中，将learning改为acquisition（图3）。不过从data learning到data acquisition，定义的内容已经变了。

Default Alt text

图3-润色改变术语意指

图4中也有类似例子，ChatGPT将原文中的parallel mechanism用同义词作了替换，parallel和concurrent都有同时发生的意思。但在计算机领域中，并行“parallel mechanism”是并发“concurrent mechanism”的子集，两者表达的精准度有别。

Default Alt text

图4-润色改变术语精确度

2.祛技术性

在QuillBot的返稿中，计算机术语时间步长time step被改为step，偏移了学术语境。

Default Alt text

图5-润色祛除术语专业性

基础语法编辑效果对比

1.单复数

英语中有集合名词，以单数形式出现，根据语境其单复数性质会有不同。比如people从不加-s，但所指绝不止一人。

以下例句中的vector就被当作实际意义为复数的集合名词写了下来：

Afterwards, the feature map with channel-attention is split into a series of the vector containing feature information along the time dimension.

vector在计算机领域指存放数据或数据结构的序列，可译为序组，是可数名词。所以句中的vector理应改为vectors。此处或许是原文作者笔误，因其样本文章中多次出现vectors一词，都用对了单复数。

测评中，ChatGPT、Paperpal、QuillBot对此错误都校正准确。Grammarly对单复数未作改动，既没能判断单句中的词性词意，对上下文用词一致性的把握也欠火候。

Default Alt text

图6-对单复数编辑正确的工具

Default Alt text

图7-对单复数编辑错误的工具

2.冠词

当非母语者的笔触落在冠词上，往往伴随着犹疑。不该添冠词的地方加多了，会显得唐突；而把应有的冠词略掉，句子的韵律生被抽走一拍，可读性受阻。更重要的是冠词有其功能性，影响着表意。

样本例句：

Due to the presence of parallel mechanism in decoder, the inputs after the current time will be set to zero in order to facilitate the calculation.

这句话说的是：由于解码器的并行机制，输入计法是如何设置的。前半句中少了两个冠词，实际应为“Due to the presence of a parallel mechanism in the decoder...”。

decoder特指研究中的解码器，有点名意味，宜用the修饰。而parallel mechanism则泛指并行机制这一运行逻辑，结合语境前面用a修饰更合理。

这两处错误Grammarly、Paperpal、QuillBot都修改正确；ChatGPT识别出句子少了两个冠词，但其中一处校正有误，将a parallel mechanism前的冠词写作the。

Default Alt text

图8-对冠词编辑正确的工具

Default Alt text

图9-对冠词编辑错误的工具

3.从句用that还是which

拿不准定语从句用that还是用which是个顽疾，许多人初中英语课染病后始终治不好。

拿以下样本选句为例：

As shown in Fig. 3, the input of the proposed channel-attention-based CNN is a 2D data map which involves senser measurements in multiple time steps.

*此处“senser”是原稿中的拼写错误。

定语“which involves senser measurements in multiple time steps”，意为含多个时间步长的传感器测量值，修饰2D data map并定义其内容，属限定定语从句。

如按严格的语法应用，此处应该用that而非which，但现代英语已不做硬区分。用that最好，用which也不算错。

尽管如此，Grammarly、Paperpal、QuillBot都严谨地替换为that，ChatGPT按照其热衷改写的特性，用动词ing做后置定语，也无可指摘。

Default Alt text

4.主谓一致

主谓一致性语法难点有二，识别主语及判断其是否可数。

取样文章中有如下句子：

Although the size of input and output is seemingly the same, the meanings behind them are totally different.

input/output可同时做可数名词与不可数名词。结合语境，句中指机器学习中的输入输出序列，为可数名词。the size of input and output乍看是单数，但结合下文中的the meanings behind them则不难理解，作者的意思是the size of the input and the size of the output，属复数。

Grammarly和QuillBot没有识别出后文的隐藏线索，而ChatGPT和Paperpal则在这句的编辑中展示了对语法和语境的两重理解。

Default Alt text

图11-对主谓一致编辑正确的工具

Default Alt text

图12-对主谓一致编辑错误的工具

综合评语

ChatGPT

ChatGPT得到的编辑指令是“edit and proofread the text into academic language”。编辑结果在修改语法之余做了大量改写，可以看作是同类工具grammar check + paraphrase两种功能的组合。文字流畅、贴近母语者水准；擅用同义词替换逻辑，把简单词汇转写为“大词”。后者对人工校对的要求高，替换是否有碍准确性，或用词是否过于艰深令表达效果失色，都需要专业判断。此外，编辑结果无法追踪修改痕迹，需借助第三方软件对比编辑前后文本，操作起来略有不便。

Default Alt text

Grammarly

改得比较浅，校正停留在基础语法上。尽管免费版支持设置书面/口语模式及调节受众理解力（图14），但在改稿中没有体现，专业用词替换或措辞调整的情况均为零。

Default Alt text

Paperpal

与人工编辑的润色结果非常接近，纠错和校正的综合效果好。测评仅启用了语言编辑功能，不涉及改写，返稿结果在专业上忠于原文，对学科术语有一定敬意，语言表达则更偏正式。比如将afterwards、after that改为subsequently；make clear改为clarify。其他三款工具除ChatGPT都没能向前迈这一步。

Default Alt text

Paperpal支持逐句查看扣分点，视图类似Word的追踪效果。句首自动归纳问题性质，如重新措辞、主谓一致、大小写等。但如能更详细地注释语法规则，给用户判断是与非一些参考会更理想。

QuillBot

语言编辑效果中规中矩，识别问题和改错准确性在Grammarly之上。QuillBot的语法释疑相对完善，即对改动之处给出的语法说明在其他三者之上。

Default Alt text

图16-三款工具的语法问题分析界面

QuillBot允许用户上传文档，平台会在读取文档后将内容自动转写成文本开始编辑。遗憾的是，这一功能没能如我预期保护文档格式。样本文章含多处特殊字体或符号， QuillBot都未能识别，只用空格占位。需要说明的是，Grammarly及Paperpal也没识别出特殊字符，ChatGPT则用[Variable Name]统一指代，但它们均不支持上传文档，对格式完整的预期本身也低

参考文献

https://www.nature.com/articles/d41586-023-02980-0

https://www.science.org/content/page/science-journals-editorial-policies#image-and-text-integrity

https://www.sciencedirect.com/science/article/abs/pii/S0951832022000102

https://www.diffchecker.com/text-compare/

https://chat.openai.com/

https://app.grammarly.com/

https://edit.paperpal.com/

https://quillbot.com/grammar-check

∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵

Paperpal由意得辑母公司开科思研发，汇集逾二十一年的发表支持经验，是一款意图提升研究者英语写作体验的AI工具, 集语言编辑、文本改写与生成、投稿检查三类主要功能。可令各类学术体裁生色，适用于期刊投稿、学位论文、基金标书、会议讲演稿等多种内容的编辑与改写。已获诸多顶尖大学与主流出版社背书，使用者覆盖130个国家，累积好评逾60万则。