如何避免：我们未能用ChatGPT分析人工智能的公共话语

通过奈亚拉·贝利奥和尼古拉斯·凯泽·布里尔

我们想收集报纸如何报道人工智能的数据。在OpenAI的警报声中，我们认为使用大型语言模型是进行大规模文本分析的最佳方式。唉，我们失败了。但LLM可能不应受到指责。

2024年2月6日

#聊天室

福托·冯活动挂牌自动变速器取消展开（Unsplash）

尼古拉斯·凯泽·布里尔

新闻主管（休育儿假）

kayser-bril公司@algorithmwatch.org

近年来，许多欧洲媒体都在兜售大科技创造了一种末日人工智能（AI）的故事，它将永远超越甚至终结人类。由于没有任何确凿证据支持他们的说法，他们重复了硅谷科技公司首席执行官的言论。

这个故事的主要情节是人工通用智能（AGI）的出现，当计算机系统变得有感知能力，在人类做的所有事情上都超越人类时。科技公司离创建这样一个模型还差得很远，机器和动物是可比的这一想法也有争议。但这并不能阻止每一位记者写关于AGI的文章。

这种趋势的例子比比皆是。ChatGPT将于2022年发布这可能是AI向公众描述的一个转折点。也是在这一年，一位谷歌工程师声称与一个大型语言模型（LLM）进行了交互据称已经清醒(它没有). 然后，一家汽车制造商的首席执行官（也是经常说谎的人）说，他的汽车有一个想法，许多新闻媒体都很乐意成为头条新闻最近，ChatGPT背后的OpenAI公司陷入了董事会阴谋的泥潭。偶数地区新闻媒体以肥皂剧的风格讲述这件事，并补充道次要情节令人担忧的新AGI功能模型。

尽管不是全部的新闻媒体参与了这场人工智能炒作，欧洲媒体对自动化系统的报道存在问题。它有多大？批判性的声音有空吗？报纸报道自动化系统出错的案例吗？有些报纸比其他报纸好吗？自ChatGPT进入现场以来，覆盖范围发生了很大变化吗？这些是我们想要找到答案的问题。

这项研究是补充我们的研究员在算法责任报告方面所做的工作他研究了个人对抗自动化系统的案例。我们想知道为什么他们的战斗没有在黄金时段得到新闻报道。

混乱的数据

一些学者已经研究过这个问题。马克西姆·克雷佩尔和多米尼克·卡登已分析2015年至2019年，英语媒体对人工智能的报道。安妮·贝伦和朱莉娅·维尔科夫斯卡是在法国做的2000-2019年期间。

我们想在两个方面走得更远。首先，通过提供一个欧洲视角，因为一个欧盟国家的算法相关丑闻很少在邻国成为头条新闻（而来自英国或美国的故事在欧洲大陆被广泛报道）。其次，我们希望在2023年底之前纳入覆盖范围，以评估ChatGPT对公共话语的影响。

我们建立了一个包含2013-2023年期间“人工智能”或“算法”的文章数据集。为了做到这一点，我们为访问LexisNexis（一个报纸文章数据库）支付了高昂的费用。这就是我们最大的错误。这项服务的使用速度非常慢，只需花费数小时的工作就可以下载语料库。我们获得的数据质量很差。这些文件是docx格式的，元数据与实际的文章正文混合在一起。在某些情况下，LexisNexis的刮刀有缺陷，我们获得的文章与我们的搜索无关。我们需要整理出许多重复的内容（同一篇文章多次出现）。

按照我们的意愿培训GPT

我们没有退缩，继续努力。我们选择了九家欧洲媒体，分别以英语、西班牙语和法语出版，并下载了2013年至2023年的所有文章，这些文章占了30000多篇报道。

在统计学专家Boris Reuderink的帮助下，我们希望使用大型语言模型ChatGPT（3.5版本）对数据进行分类。这似乎没有太多要求。我们的目标是将文章按组自动分类：一方面提到人工智能的成熟能力和相关风险，另一方面又对AGI的未来风险幸灾乐祸。

为了帮助训练模型，我们随机选择了150篇文章并手动标记。

一旦我们开始，我们发现这两个类别并没有完全涵盖媒体用来讨论人工智能的角度。我们添加了一些似乎与我们的研究问题相关的新类别：关于人工智能行业的文章，关于人工智能相关立法框架的文章，有关人工智能对工作的影响的文章，以及那些将自动化系统拟人化的人。通过这些标签，我们希望找出，例如，赋予人工智能系统人性化的质量是否与对该行业更加不加批判的态度有关。

它持续的时候很有趣

尽管我们尽可能明确地定义我们的类别，但手动标记很困难。一些文章结合了对AI威胁的矛盾方法。例如，他们在解释这不太可能发生之前，提到了人工智能进化给人类带来的悲观结果。尽管如此，我们改进了定义，消除了标签上的差异。

但即使在我们继续前进的过程中，ChatGPT仍然不确定地贴上标签。从统计角度来看，考虑到手头的培训数据，OpenAI的LLM表现正确。但从我们记者的角度来看，准确性仍然很差。更重要的是，我们无法确定为什么要使用某些标签（我们对ChatGPT进行编程，以突出显示文章中最突出的句子，但这没有多大帮助）。

添加更多类别意味着LLM在原来的两个类别上犯了更多错误。没有监督就让模型对物品进行分类不是一种选择，我们仍然不确定我们的标签定义是否足够清晰。

除了这些方法学问题之外，ChatGPT API非常缓慢，并且经常停滞，因此无法在大量文章上测试任何新方法。

最终，结果几乎无法使用。自动生成的标签相当准确，但远不及我们得出结论所需的准确度。

吸取的教训

问题不在于LLM本身。他们根据我们手工标注的培训数据对我们提供的文章进行分类。然而，与任何机器学习系统一样，这种方法需要手动标记数据。在开始调查时，投入所需的时间是非常不现实的，因为记者希望迅速从数据中获得见解。

即使ChatGPT并没有像它所能做到的那样发生灾难性的失败，记者们是否可以使用它对大型语料库进行数据分析还不清楚。也许坚持单词计数和同现矩阵就足够了。或者，我们应该把文章分成几个句子的简短部分，这样对人类和机器来说更容易理解。

无论如何，我们希望我们的经验能够帮助其他人完善他们的方法，更好地选择他们的工具。

奈亚拉·贝利奥（她/她）

新闻主管

西班牙语、英语

战争@algorithmwatch.org

Naiara Bellio的11篇文章

Naiara Bellio涵盖了隐私、自动决策系统和数字权利等主题。在加入AlgorithmWatch之前，她负责协调马尔蒂塔埃斯该基金会致力于解决与人们数字生活相关的虚假信息问题，并领导有关监视和数据保护的国际研究。她还在马德里和阿根廷的Agencia EFE工作elDiario.es公司她与Fair Trials和AlgoRace等组织合作，研究政府对算法系统的使用。