来自堪萨斯大学的科学家们周三发表了一篇论文,详细介绍了他们所说的一种算法,该算法可以检测出ChatGPT参与下的学术写作,准确率超过99%。随着人工智能聊天机器人的内容开始充斥世界,最大的担忧之一是可靠地发现机器人和真正的人类之间的文字差异。
已经有一些人尝试建立ChatGPT检测器,有几十家公司正在竞争建立人工智能检测技术。但到目前为止,没有一个方案能很好地发挥作用,即使是由开罚ChatGPT的公司OpenAI打造的方案。现有的工具效果很差,基本上没有用处。
论文中描述的ChatGPT发现者只是为了在特定情况下工作而建立的,但其报告的成功似乎很有希望。在构建过程中,研究人员说他们已经发现了人工智能写作的蛛丝马迹。
这篇经过同行评议并发表在《细胞报告-物理科学》上的论文,描述了一种能嗅出人工智能撰写的学术研究文章的技术。该研究选择了一组由人类作者撰写的64篇科学研究文章,涉及不同的学科--从生物学到物理学。他们将这些数据输入ChatGPT,并利用它产生了一个128篇人工智能文章的数据集,其中总共有1276段价值不菲的聊天机器人产生的语句。科学家们使用这些假的段落来建立他们的ChatGPT检测算法。然后他们把一个新的数据集放在一起,用30篇真正的文章和60篇ChatGPT写的文章来测试他们的算法,总共有1210段。
研究人员称,他们的算法100%地检测到了由ChatGPT编写的整篇文章。在段落层面上,其准确性较低,但仍然令人印象深刻:该算法发现了92%的人工智能生成段落。
研究人员希望其他人能够利用他们的工作,根据他们自己的利基和目的定制检测软件。该论文的作者、堪萨斯大学的化学教授Heather Desaire在接受EurekAlert采访时说:"我们努力创造一种可获得的方法,以便在很少的指导下,甚至高中生也能为不同类型的写作建立一个人工智能检测器。有必要解决人工智能写作的问题,人们不需要计算机科学学位就能在这个领域做出贡献。"
该论文说,ChatGPT的工作有一些明显的迹象。首先,人类作家写的段落更长,使用的词汇量更大,包括更多的标点符号,并倾向于用"然而"、"但是"和"虽然"等词来限定他们的陈述。ChatGPT在引用数字和提及其他科学家等方面也不太具体。
对于希望惩罚作弊的高中老师来说,堪萨斯大学研究人员建立的模型并不能马上拿来用。该算法是为学术写作而建立的,特别是在科学杂志上看到的那种学术写作。这对导师和管理人员来说是个耻辱,他们在过去六个月里对ChatGPT促成的抄袭行为感到恐慌。然而,理论上可以使用同样的技术来建立一个检测其他类型写作的模型。
当你考虑到一个事实,即作者可以很容易地对一段聊天机器人的写作进行一些小调整,使其更难被发现,整个方案的有效性就会崩溃。尽管如此,研究人员仍将这项工作描述为"概念证明",并表示他们可以通过更大的数据集开发出更强大、也许更准确的工具。
尽管这些结果可能很有希望,但科技公司和人工智能推动者表示,像ChatGPT这样的工具还处于起步阶段。如果人工智能继续以我们在过去几年中看到的迅猛速度发展,像这样的检测方法是否会站得住脚,现在还无法说。大型语言模型越是接近于复制有血有肉的人类写作的杂音,就越难识别出机器人语言的痕迹。
阅读文献:
https://www.cell.com/cell-reports-physical-science/fulltext/S2666-3864(23)00200-X