2021年5月31日，变化世界可持续语言表达的立场声明

以下是NoDaLiDa研讨会提交的立场声明面向不断变化的世界的可持续语言表达2021年5月31日。我们已经尝试将它们与三个研讨会主题（社会、技术和法律挑战）相匹配，但这并不总是那么容易，所以如果一个声明出现在错误的地方，不要惊慌。

克里斯蒂娜·特纳德和比约恩·韦斯特林：瑞典无障碍媒体机构的语言模型
玛丽娜·桑蒂尼（Marina Santini）、伊芙琳娜·雷恩（Evelina Rennes）、丹尼尔·霍尔默（Daniel Holmer）和阿恩·约翰逊（Arne Jönsson）：人在回路中：文本复杂性在哪里？
Nikolai Ilinykh和Simon Dobnik：以BERT为例：论有效NLP的基础性、多模态和体现的必要性
Jenny Kunz：数据透明性和语言表示的可解释性
莱利·卡普肖（Riley Capshaw）、伊娃·布洛姆奎斯特（Eva Blomqvist）、玛丽娜·桑蒂尼（Marina Santini）和马詹·阿里勒扎伊（Marjan Alirezaie）：BERT像大锤一样轻柔：太有力还是太钝？取决于基准

瑞典无障碍媒体机构的语言模型

Christina Tönnander和Björn Westling（瑞典无障碍媒体机构/Myndigheten för tillgängliga medier，MTM）

瑞典无障碍媒体机构（MTM）是一个政府机构，其任务是为视力受损或阅读困难的人提供无障碍格式的文本，例如有声读物（带有人声或合成语音）或布莱叶盲文。我们根据瑞典版权法中的一个例外进行操作，该法律规定MTM可以为其目标群体复制可访问格式的图书版本。

MTM对TTS的使用不同于大多数其他合成语音用户/制作人。虽然其他参与者的主要关注点是提供用户可以将文本转换为语音的服务，但MTM将合成有声读物作为一种产品，以现成的包装交付给用户。MTM改编的大多数文本都受到瑞典版权法的保护，根据该法律，MTM有义务在不更改内容的情况下转换书籍。

使用语言模型

MTM使用文本到语音合成（TTS）每年生产100多份日报和1000本有声读物，每年生产约600本盲文书籍。在合成有声读物的制作中，使用了一系列不同的语言模型或其他语言模型/表示，例如部分语言标记、复合分解和生成、图形-语音转换、发音词典、频率列表和文本-语音转换。语言表示也涉及其他领域，例如用于检测OCR错误的工具以及文本到布莱叶盲文转换中的连字号。

众所周知，合成语音中含有错误，有时单词发音错误，无法识别。如上所述，我们需要在不更改内容的情况下渲染书籍，这意味着我们需要立即更正检测到的错误。使用黑盒通常不是一个选项。相反，我们尝试与此类服务的供应商合作，以获得至少最必要的信息（例如单词发音的覆盖范围），以便能够控制系统，例如使用SSML（语音合成标记语言）。可以想象，我们可以使用更多的第三方模型，但由于缺乏关于他们能做什么和不能做什么的信息，有时我们除了使用自己的模型之外别无选择。

提供语言模型

最后，可以提到的是，MTM拥有大量可用于训练模型的数据，例如超过10万本有声读物、属于这些读物的文本以及大型发音词典。我们目前正在研究在不违反版权法或GDPR（语音是个人信息）的情况下，我们可以共享什么样的数据，但即使我们可以，MTM也不能被置于由机构负责这些数据的情况，我们也没有能力在如何下载或使用模型方面扮演支持角色。在这些问题上，我们正在与国家研究基础设施Sprákbanken Tal合作。

人在回路中：文本复杂性在哪里？

玛丽娜·桑蒂尼（RISE Sweden）、伊芙琳娜·雷恩（Evelina Rennes）、丹尼尔·霍尔默（Daniel Holmer）和阿恩·约翰逊（Arne Jönsson）（林雪平大学）

在本立场声明中，我们希望对以下方面的讨论作出贡献：如何评估模型的质量和覆盖范围在这种情况下，我们用语言表达了语言特征可解释性的需要和分析文本变化的需要。这些需求是由深入了解人类交流的复杂模式的必要性引发的。可以说，对这些通信模式的功能和语言解释有助于保持人类需求的循环，从而降低强大但非人性化的人工智能的神话。

这个迫切需要打开基于人工智能的机器的“黑匣子”变得引人注目。最近的研究集中于如何理解和推广深度学习模型，并探索了如何“探索”这些模型以了解它们是如何学习的。BERTology科学正在积极努力地挖掘BERT复杂的时钟系统。然而，仍有许多有待挖掘的地方：“BERTolology显然取得了长足的进步，但公平地说，关于BERT如何工作，我们仍然有更多的问题，而不是答案”。因此，不足为奇的是，正在创建附加工具来检查预训练语言模型，以期对“在下游任务和特定领域数据的背景下解释预训练模型”有所了解。

这里我们没有提出任何新的工具，但我们尝试以文本简化/文本复杂性为例来阐述和举例说明这个问题。当我们比较标准文本和易于阅读的文本（例如lättsvenska或简单英语）时，我们想知道：文本的复杂性在哪里？我们能把它钉住吗？根据简单英语维基百科（Simple English Wikipedia），“简单英语与英语相似，但它只使用基本单词。我们建议文章只使用英语中1000个最常见和最基本的单词。他们也应该只使用简单语法和简短句子。”对简化文本的这种描述并没有提供多少语言学方面的见解：简单语法？最先进的NLP文本简化模型也缺少语言方面的见解，因为这些模型基本上是单语神经机器翻译系统，它采用标准文本并将其“翻译”为简化类型的（子）语言。我们无法从语言上理解什么是简化的以及为什么要简化。我们只是完成了任务（这当然很好）。我们确信，标准文本和易于阅读的文本在许多方面存在差异，我们能够使用BERT创建区分这两种文本的分类器。但是，如何对语言特征进行重新处理，以从标准文本生成简化文本？使用传统的统计方法，如Biber的MDA（基于因子分析），我们可以了解语言特征在不同文本类型中是如何协同出现和相互作用的，以及原因。由于预训练语言模型比传统统计模型（如因子分析）更强大，我们希望看到更多关于“显示图层“这样我们就可以理解语言特征的不同共现是如何导致特定文本的构成的，比如简化文本和标准文本。有可能更新这个标志性的例子吗？”

国王-男人+女人=女王

形式化，例如：

α（同位语+名词）+β（可读性+动词）−γ（代词+形容词）=科学写作

以BERT为例：论有效NLP的基础性、多模态和体现的必要性

Nikolai Ilinykh和Simon Dobnik（哥德堡大学，CLASP）

最近有人认为，“理解”语言取决于其表示是否基于语言所指的非语言领域，例如数据库（Bender，Koller 2020；Merrill，Goldberg，Schwartz，Smith 2021）。大量人类知识被编码在文本中，NLP已经证明非常成功地运用这些信息，并在一定程度上利用这些信息进行推理。然而，在人类行为中使用语言，因此，NLP的目的不仅仅是文本任务。通过接地，我们可以将NLP研究与需要交流的应用程序连接起来，例如回答有关地图的问题。最终，我们希望构建与我们共存的实体化代理，无论是在现实世界中，还是与特定应用程序（如汽车导航系统）相连，这些应用程序可以看到、移动、交互并与人类进行有意义的对话。我们认为，有效的NLP研究必须超越单模文本领域，以满足现实世界的需求，同时保持与为文本领域设计的现有模型的联系。因此，我们如何从具体化的角度实现基于文本的模型？我们相信，这样的模型将极大地扩展NLP的应用到新领域（或改进现有领域），从而对环境和人类社会产生积极的科学影响，例如，当（如果）发生另一场流行病时，建立机构以物理和信息方式帮助老年人。

我们讨论的第一点是，我们如何训练基于基础的体系结构以及我们使用的环境？我们的代理可以在虚拟模型世界或自然环境中进行操作。由于构建特定任务的真实世界场景的复杂性，大多数现有研究都集中在对虚拟代理建模上。然而，培训虚拟代理意味着我们需要解决几个问题，这些问题在现实世界中通常不会出现：如果我们使用视觉，我们想在2D或3D世界中构建代理吗？此外，有时必须根据环境和背景知识（例如隐喻）推断和理解单词的含义。那么，我们如何为我们的代理人提供关于世界事物状态的常识？代理人不能只从文本中学习这类知识；因此，我们必须为agent提供对其他知识源的访问，并将其与文本知识联系起来。我们如何将知识从虚拟领域转移到现实世界？

另一个问题与我们的特定任务模型的可解释性和可解释性有关。为了了解这些代理在何处以及如何获取知识，我们需要决定对其行为的解释粒度。代理的任务应该受到多大的限制，以便系统仍然通常有用？一种方法是进行相对简单的多模态任务（例如，视觉问答）。然而，我们在构建人类语言和非语言行为模型方面有所欠缺，这些行为可能发生在更“自然”和更少限制的环境中（例如，视觉对话：包裹在单一话语中的流畅对话）。我们通常建模的所有任务是如何结合在一起的？

总之，我们希望我们关于将NLP应用于固定代理的几个问题的立场声明鼓励更多NLP研究人员设计模型，并彻底了解这些模型在“野外”发布时的可解释性和适用性。

数据透明性和语言表示的可解释性

Jenny Kunz（林雪平大学）

透明度是建立信任的基本标准。开源软件通常被认为更值得信赖，因为它可以验证软件的确切运行方式。用户可以检查有意和无意的后门以及其他有害行为。

虽然语言表示的开发人员经常发布源代码和模型，但他们几乎无法完全控制模型的行为。

即使对他们自己来说，也很难检测到攻击，尤其是在数据级别。不仅可以修改（或“毒化”）已经创建的数据，而且对于常见的爬网数据，可以修改网页，或者让社交媒体平台充斥攻击者希望模型包含的内容，例如政治宣传或营销目的。

通过常见的度量和NLP任务，这种攻击是不可见的。它们不太可能影响模型经常评估的GLUE或SuperGLUE分数，也不容易被探测，因为开发人员需要知道到底要探测什么。即使在发现不需要的行为时，也很难将其归因于攻击，而不是训练数据的一般属性：当数据从社交媒体网站上抓取时，可以预期会包含各种视图。一定数量的巨魔为政治团体或政权做产品广告或传播宣传是很常见的，甚至真实的用户也提倡这种观点。然而，人为增加此类帖子的数量可能会使数据和模型产生有害的偏差。

对于模型的用户来说，验证模型训练的准确数据通常是不可行的。模型参数的准确再现需要以相同的顺序访问完全相同的数据，以及非常准确的预处理和训练策略、初始化和其他随机组件。在目前的模型下，复制还需要大量的资金和计算资源，更不用说时间和技能了。

在处理预先训练的语言表示时，信任与数据透明性的关系比与发布源代码的关系更大。使用了哪些数据，由谁负责？在用数据集训练模型之前，数据集是否已经过验证和记录？如果对数据进行爬网，是否采取措施消除不必要的偏见，如果是，具体是什么？

数据透明性问题与神经网络模型的内部工作仍然不透明这一事实有关，并且在可预见的将来也会如此。语言表征的解释越来越受欢迎，但其方法仍然是探索性的。只有众所周知的不希望有的偏见才可能通过使用特定的提示来探测事后的偏见。我认为，只要这仍然正确，并且用户没有可行的选项来检查模型中的有害内容，数据采集、选择和处理过程就应该严格记录，并与代码一样公开。

BERT像大锤一样轻柔：太有力还是太钝？这取决于基准

莱利·卡普肖（Riley Capshaw）、伊娃·布洛姆奎斯特（林雪平大学）、玛丽娜·桑蒂尼（RISE Sweden）和马尔詹·阿利雷扎伊（奥雷布罗大学）

在本立场声明中，我们希望对以下方面的讨论作出贡献：如何评估模型的质量和覆盖范围.

我们认为，BERT作为上下文化和分类的单步管道的突出地位突出了基准与模型同步发展的必要性。最近的许多工作都吹捧BERT在解决自然语言任务方面的原始能力，因此我们使用了一个带有线性分类器的12层无缓存BERT管道作为快速脏模型，在SemEval 2010 Task 8数据集上取得了很好的成绩，用于名词之间的关系分类。我们最初预计BERT的训练会产生足够大的偏差，从而影响下游任务，因为众所周知，有偏见的训练语料库会导致有偏见的语言模型（LM）。性别偏见是最常见的例子，性别角色被编入语言模型。为了处理这种训练数据偏差，我们从计算机视觉领域的工作中获得了灵感。Tang等人（2020年）使用基于反事实分析的因果推理形式，缓解了人类对场景图生成任务标签的报告偏见。他们通过“消隐”检测到的对象来提取上下文图像对预测任务的总直接影响，直观地问“如果这些对象不在这里怎么办？”如果系统仍然预测相同的标签，那么原始预测可能是由某种形式的偏误引起的。我们的目标是消除BERT预培训期间所学偏见的任何影响，因此我们分析了总影响（TE）。然而，在几个实验配置中，我们没有发现使用TE分析的明显效果。一种令人失望的可能性是，由于BERT的复杂性，它可能无法进行因果分析。另一个原因是BERT是如此强大（或直截了当？），它可以在其输入中发现意料之外的趋势，使得任何人为的对其预测的因果分析都毫无用处。我们几乎得出结论，我们所期望的精细实验更像是试图用自动大锤雕刻杰作雕塑。然后，我们发现了BERT通过利用基准的意外特征愚弄人类的相关工作。当我们使用BERT预测基准句子中随机词的关系时，它大约一半的时间猜测与对应标记实体相同的标签。由于该任务有19个基本平衡的标签，我们期望的一致性要少得多。这一发现在所有管道配置中重复出现；BERT将基准测试视为序列分类任务！我们的最终结论是，基准是不够的：所有句子只出现一次，只有一对实体，所以这项任务相当于简单地标记每个句子。根据我们的经验，我们强烈主张，当前使用更大、更复杂的LM的趋势必须包括基准的并发演变。作为研究人员，我们需要像任何科学领域一样，努力保持我们的测量工具与被测量的模型一样复杂。

可持续的语言表达、立场陈述