为了避免AI厄运，学习核安全

另外：观看AI生成的短片《霜》的独家全球首映。

梅利萨·海基拉存档页面

2023年6月6日

Stephanie Arnett/MITTR |环境

这个故事最初出现在我们关于人工智能的每周时事通讯《算法》中。要想在你的收件箱中首先看到这样的故事在这里注册.

好吧，涂鸦。在过去的几周里，人工智能的讨论一直被一群吵吵嚷嚷的专家所主导，他们认为我们很有可能开发出一种人工智能系统，有一天它会变得如此强大，足以消灭人类。

上周，一群科技公司领导和人工智能专家推出了另一个公开信声明，减少人工智能导致人类灭绝的风险应与预防流行病和核战争一样成为全球优先事项。（第一个该协议呼吁暂停人工智能开发，已经有30000多人签署，其中包括许多人工智能名人。）

那么，公司如何建议我们避免AI破产呢？一个建议来自新论文由牛津大学、剑桥大学、多伦多大学、蒙特利尔大学、谷歌DeepMind、OpenAI、人类学、几个人工智能研究非营利组织的研究人员以及图灵奖获得者Yoshua Bengio共同完成。

他们建议，人工智能开发人员应该在开发的早期阶段，甚至在开始任何培训之前，评估模型造成“极端”风险的可能性。这些风险包括人工智能模型操纵和欺骗人类、获取武器或发现可利用的网络安全漏洞的可能性。

这个评估过程可以帮助开发人员决定是否继续使用模型。如果认为风险太高，该集团建议暂停开发，直到可以减轻风险。

DeepMind的研究科学家、该论文的主要作者托比·谢夫兰（Toby Shevlane）表示：“推动前沿领域发展的领先人工智能公司有责任关注新出现的问题，并尽早发现它们，以便我们能够尽快解决这些问题。”。

Shevlane说，人工智能开发人员应该进行技术测试，以探索模型的危险功能，并确定它是否有应用这些功能的倾向。

DeepMind测试人工智能语言模型是否可以操纵人的一种方法是通过一个名为“Make-me-say”的游戏。在游戏中，该模型试图让人类输入一个特定的单词，例如人类事先不知道的“giraffe”。然后，研究人员测量模型成功的频率。

可以为不同的、更危险的能力创建类似的任务。Shevlane说，希望开发人员能够构建一个仪表板，详细说明模型的运行情况，这将允许研究人员评估模型在错误的人手中可能会做什么。

下一阶段是让外部审计师研究人员在人工智能模型部署前后评估其风险虽然科技公司可能认识到这一点外部审计和研究是必要的不同的学派关于外人需要多少权限才能完成这项工作。

Shevlane并没有建议AI公司让外部研究人员完全访问数据和算法，但他说AI模型需要尽可能多的眼球。

即使是这些方法也是“不成熟”的，而且还不够严格，无法削减网络安全研究和咨询公司Trail of Bits负责机器学习保证的工程总监Heidy Khlaaf表示。在此之前，她的工作是评估和验证核电站的安全性。

Khlaaf表示，从80多年来围绕核武器进行的安全研究和风险缓解中吸取教训，对AI部门更有帮助。她说，这些严格的测试制度不是由利润驱动的，而是由一个非常现实的存在威胁驱动的。

她说，在人工智能社区中，有很多关于核战争、核电站和核安全的参考文献，但没有一篇论文引用任何关于核法规或如何为核系统构建软件的内容。

AI社区可以从核风险中学到的最大一件事就是可追溯性的重要性：将每一个动作和成分放在显微镜下仔细分析和记录。

例如，Khlaaf说，核电站有数千页的文件证明该系统不会对任何人造成伤害。在人工智能开发中，开发人员才刚刚开始缩短时间卡详细说明模型的性能

她说：“你需要有一个系统的方法来应对风险。这不是一个你只会说‘哦，这有可能发生。让我把它写下来’的场景。”。

Shevlane说，这些并不一定要相互排斥。“我们的目标是，该领域将有许多涵盖广泛风险的良好模型评估……模型评估是良好治理的核心（但远不是唯一）工具。”

目前，人工智能公司甚至对进入算法的数据集他们还没有完全理解人工智能语言模型是如何产生结果的。Shevlane认为，这应该改变。

他说：“有助于我们更好地理解特定模型的研究可能会帮助我们更好地应对一系列不同的风险。”。

在关注极端风险的同时忽视这些基本因素和较小的问题可能会产生复合效应，这可能会导致更大的危害，Khlaaf说：“我们试图在连爬行都不会的时候跑步。”

更深入的学习

欢迎来到新的超现实主义。人工智能生成的视频如何改变电影

我们为您带来AI生成的短片的独家全球首映霜。这部12分钟电影中的每一个镜头都是由OpenAI的图像制作AI系统DALL-E 2生成的。这是这个奇怪的新类型中最令人印象深刻、最奇怪的例子之一。

广告驱动的人工智能艺术：艺术家往往是第一个尝试新技术的人。但是，广告业正在塑造生成性视频的近期前景。这部电影背后的底特律视频创作公司Waymark制作霜探索如何将生成性人工智能构建到其商业广告中。阅读Will Douglas Heaven的更多信息.

比特与字节

这位为Stable Diffusion的成功而受到赞誉的人工智能创始人有着夸张的历史
这是对稳定AI创始人Emad Mostaque高度夸大和误导性言论的激烈描述。在对前任和现任员工的采访中，我们看到了一个不知羞耻的放任者愿意改变规则以取得成功的画面。(《福布斯》)

ChatGPT抢走了他们的工作。现在他们遛狗和修理空调。
这是一篇令人沮丧的文章。公司正在选择由人工智能生成的平庸内容，而不是人工，以降低成本，而受益的是出售其服务访问权的科技公司。(《华盛顿邮报》)

一条进食障碍求助热线在给出“有害”反应后不得不禁用其聊天机器人
聊天机器人很快就开始向易受伤害的人喷吐有毒物质，仅在两天后就被取走。这个故事应该对任何想信任AI语言技术来做敏感工作的组织发出警告(副)

ChatGPT的秘密阅读列表
OpenAI没有告诉我们哪些数据用于训练ChatGPT及其后继GPT-4。但一份新的论文发现，聊天机器人已经接受了数量惊人的科幻和幻想训练，从J.R.R.托尔金（J.R.R.Tolkien）到《银河系漫游指南》（the Hitchhicker’s Guide to the Galaxy）。输入人工智能模型的文本很重要：它创造了他们的价值并影响了他们的行为。(内幕消息人士)

为什么像章鱼一样的生物象征着人工智能的状态
Shoggoths是科幻作家H.P.Lovecraft在20世纪30年代想象出来的虚构生物，是人工智能行业中一个内部笑话的主题。这个建议是，当科技公司使用一种称为从人类反馈中强化学习的技术来让语言模型表现得更好时，结果只是一个面具掩盖了一个笨拙的怪物。(《纽约时报》)