如何识别AI生成的文本

互联网上越来越多地充斥着人工智能软件编写的文本。我们需要新的工具来检测它。

梅利萨·海基拉存档页面

2022年12月19日

斯蒂芬妮·阿内特/MITTR

这句话是AI-or写的，是吗？OpenAI的新聊天机器人ChatGPT向我们提出了一个问题：我们如何知道我们在网上阅读的内容是由人还是机器写的？

从那以后已释放11月下旬，ChatGPT已被超过100万人使用。它让人工智能社区着迷，很明显，互联网上越来越多地充斥着人工智能生成的文本。人们用它来编笑话，写儿童故事，写更好的电子邮件。

ChatGPT是OpenAI的其大型语言模型GPT-3的派生它能为人们提出的问题提供非常人性化的答案。这些大型语言模型的魔力和危险在于正确性的错觉。他们造出的句子看起来很正确——他们按照正确的顺序使用正确的单词。但人工智能并不知道它的任何含义。这些模型通过预测句子中最可能出现的下一个单词来工作。他们不知道某件事是对的还是错的，他们自信地表示信息为真，即使事实并非如此。

在一个已经两极分化、充满政治忧虑的网络世界中，这些人工智能工具可能会进一步扭曲我们消费的信息。如果它们在现实产品中被推出到现实世界中，后果可能是毁灭性的。

AI初创公司Hugging Face的政策主管艾琳·索拉曼（Irene Solaiman）表示：“我们迫切需要区分人工和人工智能文字的方法，以应对潜在的技术滥用。”她曾是OpenAI和研究AI输出检测用于发布GPT-3的前身GPT-2

新工具对于执行对人工智能生成的文本和代码的禁令也至关重要，比如最近的一个宣布Stack Overflow是一个程序员可以寻求帮助的网站。ChatGPT可以自信地反复给出软件问题的答案，但这并不是万无一失的。错误的代码可能会导致错误和损坏的软件，这是昂贵的，可能会造成混乱。

Stack Overflow的一位发言人表示，该公司的版主正在“通过多种工具（包括启发式和检测模型）检查数千份提交的社区成员报告”，但不会详细说明。

事实上，这是非常困难的，而且禁令几乎不可能执行。

今天的检测工具包

有各种方式研究人员试图检测人工智能生成的文本。一种常见的方法是使用软件分析文本的不同特征，例如，它的阅读流利程度，某些单词出现的频率，或者标点符号或句子长度是否有模式。

“如果你有足够的文本，一个非常简单的提示就是‘the’这个词出现的次数太多了，”谷歌大脑（Google Brain）高级研究科学家达芙妮·伊波利托（Daphne Ippolito）表示。谷歌大脑是谷歌公司的深度学习研究部门。

由于大型语言模型的工作原理是预测句子中的下一个单词，因此它们更可能使用“the”、“it”或“is”等常见单词，而不是不稳定的罕见单词。Ippolito和谷歌的一组研究人员表示，这正是自动检测系统擅长识别的文本类型建立在2019年发表的研究中。

但Ippolito的研究也显示了一些有趣的东西：人类参与者倾向于认为这种“干净”的文本看起来更好，错误更少，因此它一定是由人写的。

事实上，人类书写的文本充斥着错字，并且变化莫测，融合了不同的风格和俚语，而“语言模型很少会出现错字。它们更擅长生成完美的文本，”Ippolito说。

她补充道：“文本中的一个拼写错误实际上是一个很好的迹象，表明它是人类写的。”。

大型语言模型本身也可以用于检测AI生成的文本。不列颠哥伦比亚大学（University of British Columbia）加拿大自然语言处理和机器学习研究主席穆罕默德·阿卜杜勒·马吉德（Muhammad Abdul-Mageed）表示，实现这一点最成功的方法之一是根据人类写的一些文本和机器创建的其他文本重新训练模型，以便学会区分这两者研究检测.

与此同时，德克萨斯大学计算机科学家斯科特·阿隆森（Scott Aaronson）借调到OpenAI担任研究员一年开发水印对于由GPT-3等模型生成的较长文本片段，他在博客中写道：“在单词选择中，这是一个不易察觉的秘密信号，稍后你可以用它来证明，是的，这来自GPT。”。

OpenAI的一位发言人证实，该公司正在研究水印，并表示其政策规定，用户应“以任何人都无法合理忽略或误解的方式”清楚地指示AI生成的文本

但这些技术修复都有很大的警告。他们中的大多数都没有机会对抗最新一代的人工智能语言模型，因为它们是建立在GPT-2或其他早期模型之上的。当有大量文本可用时，这些检测工具中的许多工作效果最好；在某些具体用例中，如聊天机器人或电子邮件助理，它们的效率会更低，因为它们依赖于较短的对话，并且提供的分析数据更少。Abdul-Mageed说，使用大型语言模型进行检测还需要强大的计算机，以及对人工智能模型本身的访问，而这是科技公司所不允许的。

索拉曼说，模型越大越强大，就越难建立人工智能模型来检测哪些文本是由人写的，哪些不是。

她说：“现在令人担忧的是，ChatGPT的输出确实令人印象深刻。检测模型无法跟上。你一直在追赶。”。

训练人眼

索拉曼说，检测人工智能写入的文本没有灵丹妙药。她说：“检测模型不是检测合成文本的答案，就像安全过滤器不是消除偏见的答案一样。”。

为了有机会解决这个问题，我们需要改进技术修复，提高人类与人工智能交互的透明度，人们需要学会发现人工智能书面句子的迹象。

Ippolito说：“如果有一个Chrome或任何你正在使用的网络浏览器的插件，它会让你知道你的网页上是否有任何文本是机器生成的，那真的很好。”。

已经有一些帮助了。哈佛大学和IBM的研究人员开发了一种称为巨型语言模型测试室（GLTR），它通过突出显示可能由计算机程序生成的段落来支持人类。

但人工智能已经在愚弄我们了。康奈尔大学的研究人员建立人们发现GPT-2生成的虚假新闻文章在66%的情况下是可信的。

另一项研究建立未经训练的人只能在与随机概率一致的水平上正确识别GPT-3生成的文本。

Ippolito说，好消息是，人们可以接受培训，以便更好地识别人工智能生成的文本。她建立了一个游戏为了测试一台电脑在玩家意识到自己不是人类之前能生成多少句子，发现随着时间的推移，人们会逐渐变得更好。

她说：“如果你看了大量的生成性文本，并试图找出其中没有意义的地方，你就能更好地完成这项任务。”。一种方法是找出一些令人难以置信的说法，比如人工智能说煮一杯咖啡需要60分钟。

ChatGPT的前身GPT-3自2020年才问世。OpenAI表示，ChatGPT只是一个演示，但开发类似功能强大的模型并将其推广到产品中，例如用于客户服务或医疗保健的聊天机器人，只是时间问题。这就是问题的症结所在：这个领域的发展速度意味着发现人工智能生成文本的所有方法都会很快过时。这是一场军备竞赛，而现在，我们正在输球。