DHQ:数字人文季刊
2023
第17卷第3期

摘要

本文对语用语言标记集开发中类别稳健性的质量标准进行了案例研究。我们为德国联邦议院全体会议记录中的话语引用的语言例行程序建立了一些分类任务模型。在这个过程中,我们关注并反思三个基本的质量标准:1。分段,即注释段的大小(例如单词、短语或句子),2。粒度,即内容差异化程度和3。解释深度,即语言知识、共文本知识和语言外、语境敏感知识的包含程度。考虑到类别的机器可学习性,我们的重点是协作注释中类别开发的原则和条件。我们在试点语料库上的实验和测试旨在调查统计指标在多大程度上表明解释性分类是机器可生成的和可靠的。为此,我们分别比较用不同段大小(短语、句子)注释的金标准数据集和不同粒度的类别。我们使用不同的机器学习框架进行实验,以从标记集中自动预测标签。我们采用BERT([Devlin等人2019年])这是一个预训练的神经变换器语言模型,我们对其进行微调和约束以完成标记和分类任务,并将其与作为概率知识认知基线模型的朴素贝叶斯进行比较。这些实验的结果有助于我们分类系统的发展和反思。

1.简介

本研究从语言学的角度研究议会辩论中的话语参照实践。话语引用出现在说话人提及话语中前面的话语的句子中。因此,我们研究口头话语和书面文本的互文参考。这些实践的可视化和自动识别为我们提供了相关的新视角。首先,它们是在后续应用中更详细地揭示和分析互文参考结构的起点。例如,这些分析可以根据主题领域或话语(议会-程序、经济、学术),或者根据参照物的类型(书面文本类型、口头话语),或者参照物与党派关系的关系进行。其次,研究议会中的交往实践对于理解西方议会民主的机制具有根本意义。对不同类型的此类实践进行分析注释和自动识别是进一步研究它们在不同背景下相互作用的重要前提。第三,话语引用的分类实践在方法学上对数字语用语言学很有意思,因为它解决了该领域的一个基本挑战:一方面,语用语言现象可以在语言表面上显示出来,从而也可以自动识别,但另一方面,捕获隐含和推断方面以及包含上下文知识至关重要。这使得解释性分析不可或缺,并且需要通过手动注释来训练算法。[Archer等人,2008年,615]指出了从自动化角度进行注释研究的这一特殊困难。
在语言启发式中,话语参照属于语用学,因为它涉及到语言实践,其功能只能根据语境知识推断出来。乍一看,这似乎并不明显。某些形式的话语引用在语言表面上很容易察觉。例如,考虑显式标记的引语或交际动词(例如承诺). 然而,话语参照也可以隐含地表示出来。配方,例如“由于你的行为[…],你把自己放在了一个不适当的位置[…]”(1)在下面的例子中,要求基于语境知识的解释被确定为话语引用的实践。在这里,解释性的努力将导致将“行为”理解为一种语言行为,而不是身体暴力行为:

1以你的行为[…],你把自己和右边的邻居放在了不合适的位置。(所有示例均由作者翻译)
[Sie haben sich mit Ihrem Verhalten[…]在eine ungute Nähe zu Ihren Nachbarinnen und Nachbarn hier weiter rechts begeben.]

这种语境和解释现象不能简单地通过语料库语言或算法访问语言表面来捕捉,这使得它们很难以自动化的方式进行分析:而语言表面模式(例如,语序、搭配、词频或单词的分布或更大的语言结构)由于上下文知识的缺失,它们的确切含义和语用功能可能无法在这个层次上被机器完全捕获。解决这个问题的一种方法是将解释分类注释和机器学习相结合。迄今为止,将这种方法论方法应用于语篇参考主题是一个迫切需要研究的问题,更重要的是要关注考虑到自动性的类别开发。
虽然话语引用作为我们的语言学研究对象对于理解议会话语的机制本身很重要,但在这里,我们将重点放在类别开发的方法学方面,即在大型数据集中自动检测此类引用。为此,我们进行了一项协作注释研究,并使用Naive Bayes等概率分类器进行了实验[Jurafsky和Martin 2022年]和变压器语言模型,如BERT[Devlin等人2019年]. 作为本研究的一部分,我们从方法上描述并讨论了一个注释类别系统在话语引用对象上的发展及其自动化可能性。
我们从德国联邦议院全体会议记录的语言预处理语料库中获得案例研究的数据集([缪勒和斯特格梅尔2021],参见[米勒2022b]).
这个分类系统结合了演绎分类和归纳分类。第一步,我们为源自语言学理论的话语引用建立了类别。第二步,我们必须调整这些或为我们只在数据探索过程中认识到的形式和案例创建新的类别,特别是对于隐性话语引用的案例,例如“你把自己放在了[…],”和其他。这种方法的中心挑战是尽可能准确地捕捉调查中的现象,同时保持类别内容中粒度和差异的某种平衡。
在下文中,我们首先概述了语用语言学和语言语篇研究中范畴设计的初步工作。我们专注于在类别的正式和上下文裁剪中已知的成功因素。接下来,我们介绍了话语参照的语用现象,并描述了与我们的启发式模型构建相关的属性。随后,我们从假设、过程和结果的角度描述和讨论了我们的数据集和话语参考实践的协同注释。注释过程包括两个阶段:1。我们通过建模二元分类任务(无论是否存在话语引用)来测试分类粒度的方面。2.我们以更精细的方式标记数据,重点关注被引用话语的参与者(作者/说话人)(参与者是否被提及),并额外提取已被识别的短语以指示话语引用。除此之外,我们还使用概率分类器和神经分类器进行了语言实验,以检测话语引用。在这组实验中,我们测试了不同输入数据在分类法(类别数)和片段大小(短语输入与句子输入)方面的影响。通过这样做,我们还研究了形式和意义之间的相互作用。我们分析了它对算法模型和协作手动注释的影响:注释更小的片段大小(更具体地针对所调查的现象),或者包含该现象的整个句子,是否与所讨论类别的内容概念粒度更好地匹配?最后,我们讨论了我们在类别设计问题上的结果,并进行了总结。

2.通过注释捕获话语引用

2.1语用语言注释法中机器学习范畴的开发标准

语用语言学注释文献中讨论了范畴系统发展的许多问题、方面和标准。[Archer等人2008区分与范畴发展相关的五个语用信息层次:形式层、言外层、隐含/推断层、交互层和语境层。一致考虑这些水平差异被视为注释方案设计的重要标准。特别地[Archer等人,2008年强调细分:“细分要求我们不仅要说明要分析的单位,而且要以一种能够使我们衡量一个单位与另一个单位的方式来定义它,这样做可以确保一定程度的一致性。”因此,分段是指根据类别系统的概念选择的语言表面上带注释的单位(例如短语或句子)的大小。这一方面在该领域的其他著作中也被描述为一个重要的质量标准,例如在言语行为注释(c.f[Leech和Weisser 2003]). Teufel还从计算语言学的角度解决了分词问题,她思考了将抽象类别分配给语言单位的困难。她还解决了类别可能重叠的问题,但对可评估性的多重注释持批评态度(参见[Teufel 1999年, 108]). 相反,她选择了具有独占类别和一致分割的选择性注释([Teufel 1999年, 111]; 参见[Weisser 2018年, 213–277]).
这些方面——一致的分割和独特的类别系统——在我们之前关于语用语言注释的研究中同样被证明是至关重要的,也涉及语用注释和机器学习的结合。除了这两个方面之外,我们在先前的研究中还计算出了类别粒度和语境敏感性/解释深度的因素([Becker等人,2020年]; [本德2023]). 给出系统中不同类别粒度的示例:[Becker等人,2020年]我们将语篇参考视为关联标记的一个子范畴,并再次对有向和无向语篇参考进行了更精细的区分,因此在一个范畴中有三个粒度级别。我们开发了一个复杂的注释方案,在不同粒度级别上使用语用语言类别来研究学术文本例程(例如,相关性标记、定义、论证)。我们使用该方案对来自不同学科的文本语料库中的句子进行手动注释,然后训练递归神经网络对文本例程进行分类。实验表明,注释类别足够健壮,可以被模型识别,该模型可以学习表示为向量的句子表面之间的相似性。然而,模型的准确性在很大程度上取决于类别级别的粒度[Becker等人2020, 450–455].
一般来说,语用语言问题提出了操作化和分段现象的挑战,这些现象依赖于语境,而不是局限于一个正式的分段。在许多情况下,话语参照行为可以限定为某些短语。然而,有些情况下——例如某些回指参照——话语参照的指标只能在扩展的共同语篇中完全捕捉到,即周围的句子/话语与聚焦的话语有一定的距离——而不是作为语言外的语境,例如。,社会和情境条件以及知识背景。因此,除了切分一致性方面之外,切分的粒度和cotext窗口的大小也很重要。
粒度和区分性是分割的相关因素,也是类别系统整体鲁棒性的相关因素。粒度决定了注释方案中类别的语义和语用内容。标记集的粒度影响算法的准确性(参见[Becker等人,2020年,455])。这并不意味着类别或标签少的方案总是更好。相反,重要的是通过方案中的操作化尽可能捕捉到某一现象,并使其首先可分析。其次,差异化不足的标记集导致类别过于异构,这反过来限制了机器的可学习性。
注释指南需要考虑这一点。例如,他们需要具体说明可以包括多少交际知识和语境知识,以及解释的深度,以确定话语是否是对交际行为的引用——即使在没有通过相应词汇明确表达的情况下(参见介绍).
为了在注释过程中达成一致,注释者团队必须在将片段分配给类别时,就解释深度达成明确的共识。注释者可以使用的共同文本/上下文越多,他们就越能理解句子的“实际”含义,注释者不同意的风险就越高。因此,有意限制共文本信息,从而限制解释深度可能是有益的。设计为独特(不允许类别重叠)和详尽(涵盖数据中各种现象)的类别已被证明可以优化机器学习[Becker等人,2020年, 430]. 这种稳健性可以通过计算制造商之间的协议来评估[Artstein和Poesio 2008, 555–596]. 上述因素也代表了注释研究中解释性分类的明确性和主观间可理解性的质量标准,即它们决定了分类是否与机器学习兼容,以及人类收件人是否可理解,例如其他注释人或各自研究的接收人。此外,我们将测试的不同算法模型的准确度值代表了验证结果。
总之,我们的类别开发考虑了不同层次上的分段、粒度、区分性和上下文敏感性/解释深度等因素,以及它们与类别系统的机器可学习性在实验中的相互作用。在本研究中,我们利用这些发现并测试这些因素的变化的影响以及它们在各种实验中的影响(对不同算法模型的内部说话人协议和学习成功的影响)。此外,我们测试了训练好的算法模型是否能更好地处理句子分割或短语级分割。

2.2话语引用的语言惯例

我们所说的语篇指称是指语篇中的先前交际行为([米勒2007, 261]; [Feilke 2012年, 19]). 因此,我们正在处理互文性的特殊情况[艾伦2000]. 它们的特点是具体而明确地提及其他沟通,这可以被称为广义的“文本”。它们不仅包括法律、模板、草案和政策文件等文本,还包括口头表达。在所有情况下,从演讲者的角度来看,引用的行为都是过去的。指称可以作为一个完整的命题、动词短语(VP)或名词短语(NP)表达(参见第3.2节)用完全命名的话语主体,用转喻命名的话语主题,或者不命名话语主体。从这个意义上说,话语指称是许多类型的组成部分,例如学术或法律话语。
议会中的沟通实践对于理解西方议会民主的机制至关重要。但是,议会话语中的话语指称也具有语言系统学方面有趣的功能:首先,它们用于引导和协调不同话语中的政治陈述(引文2; 例如,议会程序、经济、学术);其次,它们用于索引机构和情境的联盟或对立(); 第三,它们被用来援引议会行动的法律依据(4; 法律、指令、法规)。在这最后一点的意义上,话语参考有助于回顾议会舞台作为实验室的杰出功能,我们的社会生活的法律框架就是在这个实验室中形成的。

2那些说这句话的人可能会遭到根本性的误判,因为他们不知道或误判这对接受和工业和平来说意味着什么巨大的附加值,而这些附加值是在劳资协议会事先讨论重要决策,然后在公司内共同实施的。
[死亡,死亡之星,反列支敦士登将军einer wesentlichen Fehleinschätzung;登·西·维森·尼奇特·奥德·施泰恩·法尔什·埃因,welchen großen Mehrwert es im Hinblick auf Akzeptanz und Betriebsfrieden bedeutet,wenn wichtige Entscheidungen zuvor im Betriebsrat besprochen und dann gemeinsam im Betrieb umgesetzt werden。]

3在接下来的几周里,合适且仍然可能实现的微创解决方案是开放贡献保证,这也会根据科学的观点带来更多的净收益和更大的安全性。
【Die passende und auch noch mögliche minimalinvactive Lösung in den verbleibende Wochen is eineffnung der Beitrasgarantie,Die auch nach Meinung der Wissenschaft zu mehr Rendite und mehr Sicherheit führt。】

4请先阅读法案,然后再以平民主义的方式进行辩论。
【Lesen Sie doch bitte erst das Gesetz,bevor Sie hier populitistic argumentieren(莱森·西·多奇·比特(Lesen Sie doch bitte))

从这些最初的例子中可以看出,互文参照的重点和具体性差异很大。(2)包含了对具体的、理论上精确确定的话语中先行说话人群体的引用,但仅在非特定情况下引入话语(那些这么说的人). 在(),有一个类似的不具体的引用,它是通过转喻转换引入的(根据科学的观点而不是“根据一些关心这个问题的学者的意见”). 在(4)法律法规是指交际行为的明显结果,根本没有涉及到法规编写过程中涉及的行为体。这种将文本作为独立于作者的实例的引用是议会辩论中常见的修辞程序,因为它具有自主效力。
当然,在其他情况下,话语指的是具体的经验主义者。这些可以是组(参见示例5),或个人(6). 除此之外,还有一些(尽管很少见)案例提到了语篇中的前一个文本,这样文本本身就代替了交际行为中的行动者(7). 这些转喻转换很有趣,因为它们为使用话语参照产生的话语的行动结构赋予了不同的色彩:认知焦点、有效性要求,以及在这种情况下权力从作者转移到文本。从方法上讲,这里有趣的是,这种转喻结构在多大程度上可以自动找到,特别是因为它们很少见。

5毕竟,民主反对派团体的关注是正确的。
【Denn das Anliegen der demokratischen反对党是富有的。】

6女士们,先生们,受过训练的历史学家科尔曾说过:“那些不了解过去的人无法理解现在,也无法塑造未来。”
【Meine Damen und Herren,der gelernte Historiker Kohl hat einmal gesagt:“Wer die Vergangenheit nicht kennt,kann die Gegenwart nicht verstehen und die Zukunft nicht gestalten。”】

7报告证实:市中心正在失去个性,从而失去吸引力。
[贝里希特最佳方案:Die Innenstädte verlieren ihre Individualät und damit Attraktivität.]

我们用以下研究问题举例说明了我们在类别设计方面的方法论考虑和实验:1。在我们的数据集中出现了哪些类型的话语指称,在哪些分布中?2.参与者在话语参照中扮演什么角色?也就是说,话语的说话人和作者是什么时候被明确命名的,而在转喻推力中,文本本身是什么时候移动到演员的位置上的(如证据所示7)?

3.数据集和注释工作流程

3.1数据集

为了调查议会话语中的话语引用,我们利用了德国联邦议院的全体会议记录[米勒和斯特梅尔2021]. 话语实验室[米勒2022a]主持一个经过语言处理和元数据丰富的全会纪要语料库,该语料库目前涵盖1949年至2021年5月这段时间,即从1日至19日的所有已完成选举期。该语料库包含约81万篇文本(辩论稿)和约2.6亿个代币。使用当前数据定期扩展[米勒2022b]由德国联邦议院提供(https://www.bundestag.de/services/opendata). 预处理包括标记化、句子分割、引理化、部分话语标记、说话人党派归属标记和质询的单独标记。这样,可以搜索带有和不带质询的演讲,甚至可以单独搜索质询。基本单位(<文本>)语料库的一部分是议会演讲。它被演讲者的文本分类<sp>和质问<z>。文本属性是演讲者的分数、年份、月份、演讲者、会话、立法期间、文本ID和星期几。语料库通过IMS语料库工作台进行管理[埃弗特和哈迪2011]. 为了进行分类实验,我们从2021年5月5日至7日的全体会议记录中随机抽取了6000个句子作为样本。我们在这个过程中排除了检查。样本在时间和参与者之间都是同质的:因为我们的研究是关于类别形成的方法学实验,所以应该控制参数的变化。在样本设计中,我们排除了历时变化和演员群体变化引起的变化。我们包括各种类型的话语引用,因为我们的数据集涵盖了功能、主题和人际差异。

3.2协同标注

我们对话语参照的实验性注释研究的第一部分侧重于协同人工注释。我们认为协作注释不仅意味着几个注释器分配类别,而且意味着类别和指南是在一个团队中开发的(参见[本德和米勒2020]; [本德2020]). 第三章中描述的话语参考的理解需要语言专业知识——至少在不太明确的情况下是这样的。因此,我们不能简单地假设日常的语言直觉是足够的,但必须制定标准和准则,并使注释者可以使用它们,或者至少在一定程度上训练他们应用准则。当然,如果可能的话,最好让所有注释者也参与类别的开发。在这里描述的研究中,我们已经能够做到这一点,至少部分做到了。为此,我们在团队中讨论了分类的理论概念,并在此基础上首次建立了将类别分配给细分的标准。
注释的基本单位是句子。这是因为语言行为通常在句子中表现出来。在这项研究中,通过提取单个句子并以随机顺序提供给注释者,有意缩小了共文本信息的范围。在这个小文本窗口内,即使是在对先前话语的明确归因方面,也不是所有的话语引用都可以完全解决,但话语引用的指标可以通过上下文知识/语言知识在单个句子水平上检测到(没有进一步的小文本)。在这方面,也可以为算法模型分隔和量化的单位句子在这里被优先考虑,例如,作为较大的协同文本窗口的自由选择文本部分。批注中不允许类别重叠。语言系统中的下一个较小的单位是短语,在本例中用于提取与分类相关的指标。话语引用的明显标志是带有交际动词的短语和名词短语,它们介绍引用话语的来源(即作者、说话人)。在试点注释过程中,在合作数据分析中确定了其他对上下文敏感的指标。例如,议会话语中的话语参考也使用动作动词与文本或话语的名义提及相结合(例如,“我们发起辩论的草案”)。
在演绎确定相关类别后,进行试验注释。分类系统以数据驱动的方式进行了归纳性修改,团队成员讨论了疑点案例。当分配文本段时,需要对方案进行溯源性区分或重新配置([皮尔斯1903]称之为“percept”)到类别(“percipuum,”[皮尔斯1903])在注释过程中,定性归纳法是失败的。然而,在我们的注释过程中,我们理解这种新的结构或配置并不是纯粹个人见解的结果,而是所有注释者都可能参与的协商类别的合作-分散过程。
另一个使这种协作式话语协商过程更加复杂的目标是将语言分析视角与计算语言专业知识相结合,以更好地预测不同的机器学习算法可以捕获的内容。例如,我们决定不注释逐字引语和间接引语,因为我们想主要根据显示引用正在发生的指标来训练算法模型,而不是将重点放在引用的内容上。毕竟,语言惯例的形成发生在引用的层次上,而引用的内容可以无限变化。由于我们的目标是在学科启发式和机器学习的交叉点上讨论类别设计问题,因此我们开发了一个注释工作流,允许我们在形式和内容方面对不同复杂性的类别进行机器学习实验。
我们决定了不同级别的注释复杂性,并为其开发了相应的类别:
注释步骤 复杂性级别 类别 细分市场 分类决策 每个实例的可能段数
1 1 话语参照 句子 是/否 1
2a个 2 提及引用话语的来源(作者/说话人) 句子 显性/转喻/无 1
第2页 话语参考 短语 是/否 n个
表1
手动注释–工作流。
表1给出了不同的注释步骤,这些步骤是根据复杂性的增加而设计的:步骤1是一个具有两个标签的二进制分类任务。在步骤2中,我们同时运行了两个注释任务。首先,在句子层面上,对文本和口头话语的作者/说话人的主题化类型进行了分类:显性/转喻/无。其次,在已经被归类为话语参考的句子中,确定了与分类决策相关的短语(参见表2). 这一步需要准确注释代表相关参与者、行动和产品的短语。尽管步骤2b是二元分类任务,但分类所需的决策甚至更复杂,因为可以为每个实例注释任何数量的分段,并且预先假定来自步骤2a的三项分类。
第一个注释阶段包括一个二元分类任务,需要区分有和没有话语参考的句子。根据这一标准,语料库样本中的所有6000个句子都进行了双重注释(句子作为片段)。两人一组在Excel电子表格中分别对3000个句子进行注释。句子是按随机顺序排列的,以避免可能的协同文本/上下文影响。在双重注释后,根据科恩的kappa计算出了编者间协议[科恩1960]. 在第一轮测试中,各组的一致性得分不同。在第1组中,2919个句子中的2566个句子被注释为一致(88%,科恩kappa:72.87),在第2组中,2883个句子中有2408个句子被标注为一致(83.5%,科恩kappa:57.44)。两组之间的kappa得分差异与以下事实有关:在第2组中,由于在注释过程中后期明显出现的误解,较少见的标签(“+话语引用”)在一致性中分配的频率较低(487例)。这对使用科恩卡帕(Cohen’s kappa)计算协议统计数据产生了不成比例的巨大影响。这是因为,与高频标签相比,计算出频率越低的标签以随机概率否决注释的概率越低。Cohen的kappa旨在计算来自不同注释器的注释的随机更正匹配。这样,它表示了随机期望的一致性和观察到的一致性之间的比率,假设注释器也可以以一定的概率(参见[Greve和Wentura 1997年, 111]; [Zinsmeister等人,2008年,765f])。
然而,平均一致性得分是可以接受的(科恩kappa:65.02)。文献中对Kappa评分的评估有所不同。[Greve和Wentura 1997年]将kappa得分75分以上归类为优秀,将61分至75分归类为良好。在最近的NLP工作中,甚至更低的值也被认为是好的(例如[Ravenscroft等人,2016年]; 参见[Becker等人,2020年, 442]). 基于对kappa值的评估以及注释之间任何其他一致性的高度,第一阶段的结果被接受为第二阶段的基础。也就是说,所有分配了不同类别的案例都会被过滤掉。然后,这些案件由独立的注释人根据指南的标准作出决定。6000句话中有1935句(32.25%)被确定为话语参考,这表明了这种做法在议会话语中的重要性。
在第二个注释阶段,这1935个句子根据一个更精细的方案进行注释:分类任务是区分参与者(作者/演讲者)的话语参考被引用话语的名称是从那些文本成为转喻转换中的行动者的话语和那些没有命名行动者的话语中明确命名的(参见表2).
标签 说明 例子
1 演员明确提到。 12年前,总理和当时的首相宣布了“7%”的目标。
【Die Kanzlerin hat gemeinsam mit den damaligen Ministerpräsidentinnen und Ministerpäsidenten vor zwölf Jahren das Ziel“7 Prozent”ausgerufen】
2 对演员的借代提及。 我们的《基本法》要求我们在德国创造平等的生活条件。
[在德国,Grundgesetz verpflichtet un zur Schaffung gleichwertiger Lebensbedingungen。]
没有提到演员。 通过了建议的决议。
[死亡是愤怒的。]
表2
第二轮批注的标记集。
因此,我们测量出了非常好的一致性(科恩kappa:84.35)。在整理注释并制定黄金标准后,721句(37.26%)被分配到第3类,1155句(59.69%)被分配给第1类,59句(3.05%)被分配至第2类。
在同一步骤中,我们提取了注释者认为对分类至关重要的短语,即话语引用。例如,这些短语包括代表交际行为或文本或话语参与者的名词短语(NP)(没有在介词短语中嵌入介词等短语的词头)或相关动词短语(VP)(包括表示交际行为的动词,如示例所示),没有补语和状语。表3给出了短语提取的示例。
分类句子 提取对分类至关重要的短语 短语类型 引用的
对我来说,今天有三个很好的理由拒绝AfD的这项提议:第一个理由是同事莫瓦萨特已经提到的范围很小;我不需要再多说了。
【Für mich gibt es drei gute Gründe,diesen Antrag der AfD heute abzulehnen:过去是Kollegen Movassat erwähnte schiere dünne Umfang;dazu brauche ich mehr viel zu sagen。】
AfD的这一提议
[diesen Antrag der AfD]
NP公司 文本
同事莫瓦萨特
[Kollege Movassat]
NP公司 演员
提到
[erwähnte]
副总裁 言语
表3
从归类为“话语参考”的句子中手动提取短语
短语“拒绝”[abzulehnen]和“我不需要说”【brauche ich nicht…zu sagen】没有被提取出来,因为它们代表了未来可能的话语行为,而不是之前的行为。
此提取旨在找出注释器在检测话语引用时所查看的内容。在机器学习中,“注意机制”被用来试图模仿人类的认知注意。提取相关短语将用于测试此原则是否能够以这种方式得到支持。可以观察到的效果将在下一章中反映出来。

4.自动分类/机器学习

在本节中,我们描述了我们如何构建和应用不同的机器学习算法来检测和分类政治辩论中的话语参考。本研究的目的是评估计算模型(如传统分类算法和深度学习技术)检测文本中话语参考并对其进行分类的能力。

4.1任务描述

如前所述,我们针对不同标签的机器学习能力开发了分类方案,并特别关注因素分割、粒度、显著性和上下文敏感性。按照注释的两个阶段,如上所述,我们设计了两个任务来探索计算模型学习类别系统的能力:
  • 任务1:检测话语参考。在第一个注释阶段,我们的注释者必须区分有话语参照的句子和没有话语参照的语句。对于计算建模,可以将其作为二进制分类任务;在句子层面上检测文本中的话语指称的任务:给定一个句子,任务是预测这个句子是否包含话语指称。我们使用给定的6000个句子中的每一个作为输入,并让模型预测其中每个句子的两个标签中的一个话语参照(1) 和无话语参考(0).
  • 任务2:对话语指称的类型进行分类。第二个任务是将话语指称分为三类:明确提到演员,转喻提到演员没有提到演员(请参见表4). 我们使用注释黄金版本中注释为话语参考的所有实例来训练和测试我们的模型(n=1935)。我们对三种不同的输入格式进行了实验:为模型提供(a)完整句子作为输入,(b)仅将标记为与话语引用相关的短语作为输入,以及(c)通过连接句子和短语,并用分隔符分隔,将完整句子和标记短语都作为输入。
然后我们对模型进行培训和评估三种设置.在第一次设置中A类,这三个类别都被考虑在内。在第二个设置B中,最不常见的类别转喻被排除在外。这背后的想法是,大多数机器学习方法都会受到不平衡数据集的影响,尤其是由太少示例表示的次要类。带设置B类因此,我们可以测试小班转喻的小规模对我们的结果有多大影响。在第三种设置中C类最后,我们将第1类和第2类(均为演员命名类别)与第3类(未提及演员)进行对比。通过这种方式,我们可以揭示我们的模型是否能够区分专注于参与者的实例和让参与者隐式的实例。

4.2型号说明

为了研究机器学习技术可以在多大程度上学习上述类别系统,我们测试了两种不同的监督机器学习方法的能力:(I)Naive Bayes,一种传统的分类算法,作为我们的基线模型,并与(II)BERT进行了比较,一种先进的变压器语言模型,在各种NLP任务中取得了巨大成功。这两种模型都用于检测(任务1)和分类(任务2)文本中的话语参考。
基线模型——朴素贝叶斯。Naive Bayes是一种概率分类器,它对特征的交互进行假设[Jurafsky和Martin 2022年, 59]. 文本被视为“一袋单词,也就是说,一组无序的单词,它们的位置被忽略,只保留它们在文档中的频率。”[Jurafsky和Martin 2022年]这意味着,首先计算类别中单词的出现次数(“bagof-words”)。然后,对于每个单词,可以计算它出现在每个类别中的概率。对于每个新观察,都会根据每个类别计算概率值。这意味着,首先假设句子属于第1类。然后将类别1被分类的总概率与每个单词出现在类别1中的概率相加。在下一步中,假设新观测值属于类别2,则执行相同的计算。计算每个类别的这些值后,将对这些值进行相互比较。值最高的类别是分类器的预测。
对于我们的方法,我们使用Python包scikit-learn中实现的多项式朴素贝叶斯模型[Pedregosa等人,2011年]. 我们将90%的数据用于培训,10%用于测试。
变压器语言模型–BERT。预训练语言模型的应用,如BERT[Devlin等人2019年]、GPT[Radford等人2019年]或XLNet[Yang等人,2020年]最近取得了巨大的成功,并对各种下游NLP任务进行了改进。通过对大型文本语料库的预训练,这些模型存储了大量潜在的语言知识([Peters等人,2018年]; [Orbach和Goldberg 2020]). 经过预培训后,可以使用一个小的标记数据集和一组最少的新参数,对模型在特定任务上进行微调。
语言模型已成功应用于各种语言分类任务,如情感分类[Schmidt等人,2021年]、情绪分析[殷昌2020]、和关系分类[Becker等人,2021年]. 受这些见解的启发,我们利用了大规模预先训练的语言模型中包含的潜在知识,并探索如何为我们的两项分类任务——检测具有话语参考的句子和分类不同类型的话语参考——对它们进行微调。
不同模型的初步实验表明,变压器语言模型BERT[Devlin等人2019年]它在谷歌图书语料库和维基百科(总计33亿字)上进行了预先训练,在我们的两项任务中表现最佳。为了高效计算和鲁棒性,我们使用了BERT的提取版本DistilBERT[Sanh等人2019年],用于我们的实验。DistilBERT使用所谓的知识蒸馏技术,将一个称为教师(此处:BERT)的大模型压缩为一个称之为学生(此处:DistilBERT)的小模型。训练学生通过匹配输出分布来再现教师的行为。因此,DistilBERT比原始BERT快60%,需要更少的计算能力,同时几乎保持其全部性能。
DistilBERT及其老师BERT使用Transformer,这是一种多人注意机制,可以学习文本中单词之间的关系。与其他从左到右处理文本序列的语言模型不同,DistilBERT应用双向训练,这意味着在训练过程中,它一次读取整个单词序列。更具体地说,在培训过程中,模型会提供一些缺少单词的句子。然后,该模型的任务是根据给定的上下文预测缺失(屏蔽)的单词。通过学习预测缺少的单词,该模型在训练阶段学习语言的结构和语义,从而加深对语言上下文的理解。
在我们的实验中,我们使用了来自HuggingFace Transformers的预处理DistilBERT模型[Wolf等人,2020年]并根据标记的训练数据微调训练模块。我们将70%的数据用于培训,将15%的数据用于验证和测试。我们在验证集上优化模型参数和配置,并报告测试集的结果。我们的两个分类任务的最优超参数显示在表4。作为输出层,我们使用softmax。此函数使我们能够将模型最后一层的输出向量解释为概率,方法是将它们映射到0到1之间的值,所有值加起来都是1。
任务1 任务2
培训学时数 4 4
批量大小 16 4
学习率 5e-5号机组 5e-5号机组
表4
DistilBERT的超参数设置。

4.3结果

对于这两个任务,在分别评估两个模型时,我们将预测标签与注释的黄金版本进行比较。我们在测试集上报告结果,并使用评估指标Precision、Recall和F1(我们将所有分数报告为微分数,这意味着它们根据标签分布进行加权)。
输入 预处理 可采收水平 一层楼
朴素的贝叶斯 句子 80.98 79.84 80.30
迪蒂尔伯特 句子 93.17 93.15 93.16
表5
任务1的结果:话语参照和非话语参照之间的二元分类。
表5显示我们第一个任务的结果,即给定一个句子,预测这个句子是否包含话语参考。我们发现,这两种模型——朴素贝叶斯和DistilBERT——都显著优于大多数基线(标签0,无话语引用为64.48%)。DistilBERT比我们的基线模型Naive Bayes强13个百分点(F1分数),这与我们的期望相符,即DistilBERT通过在大型语料库上进行预训练而存储的潜在语言知识可以成功地用于检测政治辩论中的语篇参考。
输入 预处理 可采收水平 一层楼
朴素的贝叶斯 句子 80.55 80.86 78.81
短语 82.04 82.34 80.34
已发送+短语 83.06 83.03 81.45
迪蒂尔伯特 句子 92.44 92.44 92.41
短语 97.08 96.79 96.90
已发送+短语 96.13 95.88 95.98
表6
任务2的结果,设置A:对话语指称类型进行分类,分为三类:“演员明确提及”、“演员转喻提及”和“没有演员提及”
表6-8显示了我们第二项任务的结果,即将话语参考分为不同的类别。设置A的结果,其中我们区分了三个类别明确提到演员,转喻提到演员没有提到演员如所示表3两种模型均优于大多数基准(标签为59.69%明确提到的参与者)显著。对于这两个模型,我们发现为模型提供相关短语,而不是完整句子,或者在完整句子之外提供短语,可以提高模型的性能。Naive Bayes模型的最佳结果是通过将句子与相关短语组合作为模型的输入来获得的,而DistilBERT在仅提供相关短语时学习效果最好。这表明,模型并不总是能够完全检测出句子的哪些部分与话语参考类型的分类相关,并且当将这些信息作为输入提供时,可以从中受益。
当比较每个模型的最佳输入格式的分数时,我们再次发现DistilBERT显著优于Naive Bayes(F1分数为15.5个百分点),再次证明了预训练语言模型相对于知识认知分类模型的优越性。
输入 预处理 可采收水平 一层楼
朴素的贝叶斯 句子 79.13 79.30 79.20
短语 87.30 87.19 87.23
已发送+短语 84.63 83.95 84.14
迪蒂尔伯特 句子 92.80 92.82 92.79
短语 98.48 98.47 98.47
已发送+短语 98.01 98 97.99
表7
任务2的结果,设置B:对话语指称的类型进行分类,分为两类:“演员明确提到”和“没有演员提到”
表7显示任务2、设置B的结果,其中排除了最不频繁分配的类别转喻并且只区分这两个类的实例明确提到的参与者没有提到演员。我们发现,当排除小班时,朴素贝叶斯模型显著改进转喻(如果提供了标记短语,F1得分为6个百分点),而与设置A相比,DistilBERT仅提高了1.5个百分点(如果提供标记短语,则F1得分)。我们再次发现,为这两个模型提供相关短语而不是完整句子可以提高模型的性能,这尤其适用于朴素贝叶斯。
输入 预处理 可采收水平 一层楼
朴素的贝叶斯 句子 80.73 80.73 80.73
短语 80.93 81.71 81.14
已发送+短语 82.84 81.88 82.25
迪蒂尔伯特 句子 92.56 92.55 92.50
短语 97.83 97.82 97.82
已发送+短语 97.37 97.37 97.36
表8
任务2的结果,设置C:对话语指称的类型进行分类,分为两类:“显式提及演员+转喻提及演员”和“未提及演员”
表8最后,我们显示了任务2设置C的结果,其中我们包含了类别明确提到的参与者使用类别演员的转喻在主要类别下演员命名参考并二进制区分类别演员命名参考没有提到演员。虽然DistilBERT的结果与设置B中的结果几乎相同,但我们发现Naive Bayes的性能急剧下降(-5个百分点,当提供短语作为输入时,F1得分)。这表明模型与类别有冲突演员的转喻–即使该类别被归入另一个类别的标签下。
总之,我们的结果表明,这两种模型都能够在政治辩论中检测和分类话语参考。经过训练的知识丰富模型DistilBERT在所有任务和设置上都显著优于知识认知模型Naive Bayes。此外,我们还发现,为模型提供相关短语而不是完整句子或在完整句子之外提供相关短语可以提高模型的性能,这表明模型可以受益于在句子中明确暗示与不同类型的话语参考分类相关的部分。这进一步表明,句子中那些与区分不同类型话语标记无关的部分不仅对分类没有用处,甚至降低了模型的性能。

5.结果分析

在本节中,我们将对性能最佳的模型DistilBERT的预测、性能和误差进行更深入的分析。
图1显示了任务1的错误矩阵,其中DistilBERT的F1成绩为93.16分(参见。表5). 我们发现,模型预测了话语参考,但根据gold数据,相应实例不包含话语参考(误报,n=37),反之亦然(误报(n=29))的情况几乎是平衡的。
虽然对29个假阴性的人工分析并没有导致对语言模式的任何观察,这可能会导致模型做出错误的预测,但对37个假阳性的分析表明,在许多情况下,DistilBERT预测了那些提到演员的例子的语篇参考,但不在语篇参考功能中,如示例8和9:

8谈到宗教宪法和法律史,我可以理解,冯·诺茨先生并不是唯一一个迫不及待参加本次辩论的人。
【Wenn es zu vorgerückter Stunde um Religationsverfassungsrecht und Rechtsgeschitte geht kann ich verstehen dass Herr von Notz nicht der Einzige ist der es gar nicht abwarten kann in diese Debatte einutretreen】

9联邦州公路股份有限公司审查了案件事实。
【Sachverhalt联邦汽车有限公司】

在这两个示例中,演员都被命名为(冯·诺茨先生;德国联邦高速公路股份有限公司)这导致了这样一个假设,即该模型将显式提及参与者解释为话语引用的指标。
显示有四个象限的混淆矩阵的图。
图1
任务1中DistilBERT的混淆矩阵。
图2-4显示了Task 2不同设置的错误矩阵。由于DistilBERT在任务2上的性能在所有三种设置中都非常高,因此我们只发现很少的错误。对错误分类实例的系统手动分析揭示了三个主要错误来源:
一系列显示混淆矩阵的三个图表,每个矩阵有九个象限。
图2
任务2设置A中DistilBERT的混淆矩阵。
一系列显示混淆矩阵的三个图表,每个矩阵有四个象限。
图3
任务2设置B中DistilBERT的混淆矩阵。
一系列显示混淆矩阵的三个图表,每个矩阵有四个象限。
图4
任务2设置C时DistilBERT的混淆矩阵。

错误类型1:模型混淆了标签actor和转喻(设置A)

设置A时的一个常见错误是类别明确提到的参与者和类别演员的转喻被模型搞糊涂了。(10)显示了一个仅提及演员m的示例依托词地根据注释指南,但被DistilBERT(使用所有三个输入选项)误分类为明确提到演员。

10我国《基本法》第12条也保护占领自由。
【Unser Grundgesetz schützt在Artikel 12 auch die Berufsfreiheit中。】

此类错误的原因可能是类的大小太小对演员的转喻提及,因为它只占金本位制注释的3.05%。在下面的讨论中,我们还将反思这两个类的区别。这种错误类型确认了我们对设置B和C的选择,其中转喻要么被排除(B),要么与频繁类别一起归入明确提到的参与者在主要类别下演员命名参考(C) ●●●●。

错误类型2:在没有参与者的情况下预测了参与者

与第一类错误类似,模型将实例错误分类为属于显式提到的参与者类,而根据黄金标准,没有提到参与者。一种解释可能是提及了不属于话语参考的参与者(例如。,“联邦议院”“美国总统唐纳德·特朗普”英寸(11)),或代词的使用(我们英寸(12)). 这种假设得到了以下事实的支持:这种错误大多发生在句子构建输入时。当向模型提供短语(示例中下划线)时,该短语通常不包含命名实体/代词,模型会做出正确的预测。

11建议联邦议院采取这个警告牢记于心,也是为了不冒被认定为种族主义政策的风险声称优越反对中国,比如美国前总统唐纳德·特朗普(Donald Trump)提出的那样。
[Der Bundestag wäre gut beraten,sich联邦议院迪塞·马农zu Herzen zu nehmen,auch,um nicht Gefahr zu laufen,麻省理工学院政治学院UE berlegenheitsanspruchs公司gegenüber China,wie sie der vormalige US-副总统Donald Trump nach vorne stellte,identifiert zu werden。]

12不幸的是,我们越来越多地看到数字世界的负面影响虚假信息和仇恨言论.
[Leider sehen wir麻省理工学院Desinformation und Hassrede公司vermehrt auch negative Aspekte unser digitalen Welt.]

错误类型3:只有在为模型提供短语时才能识别转喻

最后,我们还发现了一些模型只预测类别的情况演员的转喻正确地说,当提供短语而不是完整句子时,下面给出了一个示例(13). 这个错误再次强调了将模型提示给特定短语的重要性,以便检测和分类话语引用,方法是只向模型提供手动标记为与作为输入的话语引用相关的短语,如上所述。

13平均而言,女性每天在家庭和抚养孩子方面的工作比她们的伴侣多1.5小时-这是以前的调查告诉我们的-作为回报,他们可以减少工作时间。
【Frauen leisten im Schnittáglich 1,5 Stunden mehr Arbeit im Haushall und bei der Kindererziehung als ihre合伙人–das sagen uns die bisherigen Erhebungen(圣人之死)–und im Gegenzug können sie weniger arbeiten gehen.]

6.讨论

首先,应该强调的是,结果可以被认为是非常令人鼓舞的:非常高的F1值表明类别系统的稳健性以及注释的高质量和同质性。不出所料,机器学习实验的结果表明,预训练BERT模型优于Naive Bayes模型。这可以追溯到这样一个事实:虽然传统统计模型(如Naive Bayes模型)仅基于标记的训练数据进行训练,但BERT是基于大量数据进行预训练的,然后对标记的培训数据进行微调,这使其成为一个知识丰富的模型。这与各种其他NLP任务中的观察结果一致,例如情感分析、文本分类或摘要,其中BERT(以及其他大型语言模型,如XLNet或GPT)通常优于传统统计模型(参见[González Carvajal和Garrido Merchán 2020年]).
在我们的实验中,特别是在较少见且较难的转喻参与者类别中,预训练模型BERT表现良好,而这种更精细的区分给未训练的Naive Bayes模型带来了困难。除了这种内容分类粒度之外,这两个模型都受益于更高粒度的分割。短语准确的注释比只使用句子分割的注释产生更好的结果。因此,将一种人类“注意机制”引入注释的尝试被证明是成功的。
关于类别发展,我们观察到关注形式和意义之间的相互作用——类别的片段大小和概念粒度之间的相互影响是多么重要:,精确指示类别实例的定制段提高了预训练BERT模型检测甚至细粒度概念类别的性能。与较大且标准化的分段“句子”相比,该模型还可以基于定制的提取短语学习高性能的差异化类别系统。更高的形式精度减轻了涉及人类语言理解的多维和高度复杂的推理过程的模型。相反,当根据句子作为输入进行分类时,该模型原则上必须模仿人类语言理解的全部复杂性。
在此背景下,我们对注释工作流的过程和结果进行了回顾:对于+/-话语引用,获得了最低的注释者间一致性值,粒度最小,乍一看,是最简单的区别。
由于这项可能简单的二元分类任务是在句子的分段层次上执行的,因此分类需要全面的语言、上下文和领域知识。即使指南中尽可能准确地描述了这些指标,但在大多数情况下,形式-功能相关性的高度变异仍然需要进行务实的考虑。只有在日常学术生活实践中获得的专业知识的基础上,才能正确地做到这一点。因此,学生解说员之间产生了不确定性和误解,这不能仅通过指导方针加以澄清,而是通过培训和联合实践加以澄清。因此,声明性事实知识不足以完成这种分类任务;程序专家知识是必需的。

7.结论

以话语引用的语言惯例为重点,我们分两步对德国联邦议院全体会议纪要的一个子语料库进行了合作注释:首先,我们执行了二元分类任务(+/-话语引用)。其次,我们根据三项标记集(显式/转喻/无)对演员进行分类。此外,我们还提取了一些短语来表示话语参考。然后,我们使用概率分类器和神经分类器在我们的注释数据集上进行机器学习实验,作为训练数据。在这些实验中,我们测试了不同类型的输入数据在分类法(类别数)和段大小(短语输入与句子输入)方面的效果。我们的研究表明,当提供根据我们的分类系统注释的数据时,预训练的神经变压器语言模型BERT取得了令人印象深刻的学习结果。
已经证明,在语言表面进行更精细的分割(即手动选择相关短语)可以提高模型性能。这表明,如果根据语言表面上的指标对语用语言现象进行精细操作是可能的,那么就可以实现高机器可学习性——甚至对于更精细的以及与上下文和背景知识相关的类别也是如此。总之,我们的结果表明,不同类型的语篇参考语的识别和分类可以用神经、知识丰富的模型自动建模。
正如我们的研究表明的那样,在全体辩论中,这些话语参照实践发挥着重要作用,并且经常被应用。然而,我们相信我们的方法论发现可以推广到其他文本类型以及其他复杂的语言类别。作为对我们分类系统开发过程的总结和反映,可以总结出,算法模型的性能和人类注释者之间的一致性都受到细分的细化和规范的积极影响。这样做的一个先决条件是对调查中的现象进行更精确的操作,即在语言表面上制定更具体的指标,这些指标可以在短语一级捕获。与此同时,概念类别的粒度也有所增加。在这里,有必要根据调查对象,以及机器和人类分类的可学习性,找到适当的平衡。研究中人类学习过程的一个重要部分发生在指南中相继进行更精确的操作、解释和描述,以及注释者之间伴随的元分解过程中。因此,通过更强的可操作性和明确的解释标准,最初不明确的解释深度范围逐渐得到解决。我们认为这一点是成功的核心因素,也是协同类别开发和注释以实现自动化的关键。

引用的作品

艾伦2000Allen,G.(2000年)互文性劳特利奇。网址:https://doi.org/10.4324/9780203131039.
Archer等人,2008年Archer,D.、J.Culpeper和M.Davies(2008)《语用注释》,in语料库语言学:国际手册第613-641页。
Artstein和Poesio 2008Artstein,R.和M.Poesio(2008)“计算语言学的代码间协议”计算语言学第34(4)页,第555-596页。网址:https://doi.org/10.1162/coli.07-034-R2.
Becker等人,2020年Becker,M.,M.Bender和M.üller(2020)“学术话语中启发式文本实践的分类:语用学的深度学习方法”国际语料库语言学杂志第25(4)页,第426–460页。网址:https://doi.org/10.1075/ijcl.19097.bec.
Becker等人,2021年Becker,M.等人(2021年),《CO-NNECT:揭示常识知识路径作为文本中隐含知识的显性化的框架》第十四届国际计算语义学会议(IWCS)论文集.IWCS 2021荷兰格罗宁根(在线):计算语言学协会,第21-32页。网址:https://aclantology.org/2021.iwcs-1.3(访问时间:2023年7月24日)。
本德2020Bender,M.(2020),“数字磁盘语言注释方法”数字磁盘。Theorien–Methoden–Fallstudien公司第2组,Heft 1/2020:1-35。DOI(操作界面):https://doi.org/10.25521/diskuse-digital.2020.140.
本德2023Bender,M.(2023)《语用学诠释与男性化勒恩》,S.Meier-Vieracker等人(编辑)数字实用主义柏林,海德堡:施普林格(Digitale Linguistik),第267-286页。网址:https://doi.org/10.1007/978-3-662-65373-9_12.
本德和米勒2020Bender,M.和M.Müller(2020),《启发式文本实践》德国语言学家Zeitschrift für Germanistische Linguistik48 (1)/2020: 1-46. DOI(操作界面):https://doi.org/10.1515/zgl-2020-0001.
科恩1960Cohen,J.(1960年)“名义尺度的一致系数”教育和心理测量第20章,第37–46节。https://doi.org/10.1177/001316446002000104.
Devlin等人2019年Devlin,J.等人(2019),《BERT:语言理解的深层双向变形金刚的预训练》计算语言学协会北美分会2019年会议记录:人类语言技术,第1卷(长篇和短篇论文).NAACL-HLT 2019年明尼苏达州明尼阿波利斯:计算语言学协会,第4171–4186页。网址:https://doi.org/10.18653/v1/N19-1423.
埃弗特和哈迪2011Evert,S.和A.Hardie(2011)《二十一世纪语料库工作台:更新新千年的查询架构》2011年语料库语言学会议记录.语料库语言学2011,伯明翰大学,GBR。网址:https://eprints.lancs.ac.uk/id/eprint/62721/(访问时间:2023年7月24日)。
Feilke 2012年Feilke,H.(2012年),“是sind Textroutinen?Zur Theory und Methodik des Forschungsfeldes”,载于H.Feilke和K.Lehnen(编辑)Schreib-und Textroutinen公司。理论,Erwerb und didaktisch-mediale Modellierung。美国美因河畔法兰克福,第1-31页。网址:https://www.academia.edu/77763867/Helmuth_Feilke_Was_sind_Textroutine_Zur_Theorie_und_Methodik_des_Forschungsfeldes(赫尔穆斯·费尔德)(访问时间:2023年7月24日)。
González-Carvajal和Garrido-Merchán 2020年González-Carvajal,S.和E.C.Garrido-Merchán(2020)“BERT与传统机器学习文本分类的比较”https://doi.org/10.48550/ARXIV.2005.13012.
Greve和Wentura 1997年Greve,W.和D.Wentura(1997)Wissenschaftliche Beobashtung:eine Einführung。【科学观察导论】.PVU/贝尔茨。
哈迪2009Hardie,A.(2009)“CQPweb-在语料库分析工具中结合了功能、灵活性和可用性,”国际语料库语言学杂志, 17. 网址:https://doi.org/10.1075/ijcl.17.3.04har.
Jurafsky和Martin 2022年Jurafsky,D.和J.H.Martin(2022年)语音和语言处理。自然语言处理、计算语言学和语音识别导论.III版。草稿。斯坦福大学。网址:https://web.stanford.edu/~jurafsky/slp3/(访问时间:2023年7月24日)。
Leech和Weisser 2003Leech,G.和M.Weisser(2003),《任务导向对话的通用言语行为注释》,T.McEnery等人(编辑)语料库语言学2003年会议记录.语料库语言学2003英国兰开斯特大学(语言技术论文计算机语料库研究大学中心16(1)),第441-446页。网址:https://www.semanticscholar.org/paper/Generic-speech-act-annotation-for-task-oriented-Leech-Weiser/5869397d550d8440fcd4724083a4b09375703e3b(访问时间:2023年7月24日)。
吕德林和基特2009Lüdeling,A.和M.Kytö(编辑)(2009年)语料库语言学:国际手册穆顿·德·格鲁伊特(Mouton de Gruyter)。网址:https://doi.org/10.1515/9783110213881.2.
米勒2007Müller,M.(2007)Geschichte-Kunst-民族:Die sprachiche Konstituierung einer'deutschen'Kunstgeschichte-aus diskursanalysicher Sicht纽约,柏林:De Gruyter。网址:https://doi.org/10.1515/9783110969436.
米勒2022aMüller,M.(2022a)“德国联邦议院话语实验室”Korpra Deutsch als Fremdsprache公司第2(1)页,第123–127页。网址:https://doi.org/10.48694/KORDAF-3492.
米勒2022bMüller,M.(2022b)“话语实验室——eine Forschungsplattform für die digitale Diskursalysis”德国普通股第69页,第152-159页。网址:https://doi.org/10.14220/mdge.2022.69.2.152网址.
缪勒和斯特格梅尔2021Müller,M.和J.Stegmeier(2021年),“德国联邦议院公共事务委员会(Korpus der Plenarprotokolle des deutschen Bundestags.Legislateurperiode 1-19。CQPWeb-版本。”达姆施塔特:话语实验室。网址:https://discusselab.de/cqpweb/.
Orbach和Goldberg 2020Orbach,E.和Goldberg,Y.(2020)“事实2故事:通过关键事实控制文本生成”第28届国际计算语言学会议论文集第2329-2345页,西班牙巴塞罗那(在线)。国际计算语言学委员会。
Pedregosa等人,2011年Pedregosa,F.等人(2011),“科学基础学习:Python中的机器学习”机器学习研究杂志,第12页(空),第2825–2830页。
Peters等人,2018年Peters,M.等人(2018)“深层语境化词语表征”计算语言学协会北美分会2018年会议记录:人类语言技术,第1卷(长篇论文),第2227-2237页,路易斯安那州新奥尔良。计算语言学协会。
皮尔斯1903皮尔斯(1903)高露洁棕榄7.677.
Radford等人2019年Radford,A.等人(2019年)语言模型是无监督的多任务学习者。联机资源:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsuproved_multitask_learners.pdf.
Ravenscroft等人,2016年Ravenscroft,J.等人(2016),《科学文章中的多标签注释——多标签癌症风险评估语料库》国际语言资源与评估会议记录.国际语言资源与评价会议计算语言学协会,第4115-4123页。网址:https://www.semanticscholar.org/paper/Multi-label-Annotation-in-Scientific-Articles-The-Ravenscroft-Oellrich/fe678e1311cc3ebf9b9a90428c3033269f19fe66(访问时间:2023年7月24日)。
Sanh等人2019年Sanh,V.等人(2019),“DistilBERT,BERT的蒸馏版本:更小、更快、更便宜、更轻”,in。第五届能效机器学习和认知计算研讨会。与2019年第33届神经信息处理系统会议联合,arXiv,第1-8页。网址:https://doi.org/10.48550/ARXIV.1910.01108.
Schmidt等人,2021年Schmidt,T.、K.Dennerlein和C.Wolff(2021),“基于转换的语言模型预设于历史和当代语言的德国戏剧中的情感分类”第五届SIGHUM文化遗产、社会科学、人文和文学计算语言学联合研讨会会议记录.LaTeCHCLfL 2021年多米尼加共和国卡纳角(在线):计算语言学协会,第67-79页。网址:https://doi.org/10.18653/v1/2021.latechclfl-1.8.
Teufel 1999年Teufel,S.(1999)论证性分区:从科学文本中提取信息爱丁堡大学。网址:https://www.cl.cam.ac.uk/~sht25/论文/t1.pdf.
Weisser 2018年Weisser,M.(2018)如何对语用标注数据进行语料库语用,语料库语言学研究84.费城阿姆斯特丹:约翰·本杰明斯出版公司。网址:https://benjamins.com/catalog/scl.84(访问时间:2023年7月24日)。
Wolf等人,2020年Wolf,T.等人(2020)《变形金刚:最先进的自然语言处理》2020年自然语言处理实证方法会议记录:系统演示,第38-45页,在线。计算语言学协会。
Yang等人2020Yang,Z.等人(2020)XLNet:语言理解的广义自回归预训练。联机资源:https://arxiv.org/abs/1906.08237.
殷昌2020Yin,D.,T.Meng和K.-W.Chang(2020),《情感:基于可转换转换的合成情感语义架构》,in计算语言学协会第58届年会会议记录.ACL 2020在线:计算语言学协会,第3695–3706页。网址:https://doi.org/10.18653/v1/2020.acl-main.341.
Zinsmeister等人,2008年Zinsmeister,H.等人(2008),《语言学注释语料库:质量保证、可重用性和可持续性》,in语料库语言学(HSK,29)。网址:https://www.semanticscholar.org/paper/Linguistically-Nannotated-Corpora-%3A-质量和Zinsmeister-Witt/6d0570ac67ec0a231a249a81d96b4a50c045a0f4(访问时间:2023年7月24日)。