第25届计算自然语言学习会议记录

阿里安娜·比萨扎,奥姆里·阿本德 (编辑)


选集ID:
2021.控制-1
月份:
十一月
年份:
2021
地址:
在线的
地点:
CoNLL公司
SIG公司:
SIGNLL公司
出版商:
计算语言学协会
网址:
https://aclantology.org/2021.coll-1网址
内政部:
Bib导出格式:
BibTeX公司 MODS XML 尾注

pdf格式围兜
第25届计算自然语言学习会议记录
阿里安娜·比萨扎|奥姆里·阿本德

pdf格式围兜
“这是我们的错!”:通过解释性协作对话系统深入了解用户的理解和交互
凯萨琳娜·维茨|林赛·范德林|Ngoc Thang Vu村|伊丽莎白·安德烈

人工智能协作是人工智能的一个长期目标,是指人类和人工智能为共同目标共同努力的伙伴关系。协作对话允许人机团队交流并利用双方的优势。要设计协作对话系统,了解用户对其人工智能对话伙伴形成的心理模型很重要,然而,用户如何感知这些系统还没有完全理解。在本研究中,我们设计了一个新颖、协作、基于通信的益智游戏和解释对话系统。我们从117次对话和事后调查中创建了一个公共语料库,并用它来分析用户形成的心理模型。关键的收获包括:即使用户没有参与游戏,他们也认为AI-dialog合作伙伴聪明可爱,这意味着他们将其视为独立于游戏的合作伙伴。用户往往高估系统的能力,并投射出人性化的属性,从而导致沟通错误,这进一步支持了这一点。我们的结论是,在用户和人工智能系统之间创建共享的心理模型对于实现成功的对话非常重要。我们认为,我们对心理模型和错误沟通、游戏和语料库的见解为设计协作对话系统提供了有用的工具。

pdf格式围兜
通过视觉感知镜头的依赖性归纳
苏瑞思|什鲁蒂·里奇瓦尼|郝朱|何俊贤|王新余|约纳坦·比斯克|格雷厄姆·纽比格

以前大多数语法归纳的工作都集中于纯粹从文本中学习短语或依存结构。然而,由于文本本身提供的信号有限,最近引入的基于视觉的语法模型利用了多模态信息,从而提高了选区语法归纳的性能。然而,与依赖文法相比,选区文法没有提供一种直接的方式来整合视觉信息,而不强制执行特定于语言的启发式。在本文中,我们提出了一种无监督语法归纳模型,该模型利用单词的具体性和基于结构视觉的启发式来联合学习选区结构和依赖结构语法。我们的实验发现,具体性是学习依赖语法的有力指标,与纯文本训练的最先进模型相比,直接依恋分数(DAS)提高了50%以上。接下来,我们提出了我们的模型的扩展,该模型在选区和依赖分析中利用单词具体性和可视语义角色标签。我们的实验表明,即使语法规模较小,该扩展在选区分析方面也优于当前最先进的基于视觉的模型。

pdf格式围兜
视频质量保证-MHUG公司:研究视觉问答中多模态神经注意的注视数据集
埃克塔·索德|费边·科格尔|弗洛里安·斯特罗姆|普拉吉特·达尔|安德烈亚斯·布林

我们提出了VQA-MHUG,这是一个新的49人参与的数据集,使用高速眼球跟踪器收集视觉问答(VQA)过程中的图像和问题的多模式人类凝视。我们使用我们的数据集分析五种最先进的VQA模型学习到的人类和神经注意策略之间的相似性:具有网格或区域特征的模块化协同注意网络(MCAN)、Pythia、双线性注意网络(BAN)和多模分解双线性池网络(MFB)。虽然之前的工作侧重于研究图像形态,但我们的分析首次表明,对于所有模型而言,与人类对文本的关注程度相关更高是VQA性能的重要预测因素。这一发现指出了提高VQA性能的潜力,同时要求进一步研究神经文本注意机制及其与视觉和语言任务架构的集成,包括但也可能超越VQA。

pdf格式围兜
“它看起来像一个讨厌的女人”:基于文本的会话代理对情感语言的感知和伦理思考
林赛·范德林|吉安娜·韦伯|迈克尔·诺伊曼|德克·瓦特|萨里娜·梅耶|Ngoc Thang Vu村

先前的研究发现,与平淡、无感情的信息交流相比,任务型会话代理以移情的方式提供信息时,用户对其的感知更积极。然而,在人机交互领域,用户对对话系统响应语言风格的感知和道德考虑相对较少受到关注。为了弥补这一差距,我们通过一项基于场景的用户研究探讨了这些道德含义。127名参与者与情感型、任务型会话代理的三种变体中的一种进行交互,每种变体以不同的语言风格提供响应。互动后,参与者填写了一份调查问卷,了解他们在实验期间的感受以及对聊天机器人各个方面的感知。基于对回答的统计和定性分析,我们发现语言风格在类人参与者如何感知对话主体以及如何讨人喜欢方面起着重要作用。语言风格也对用户如何感知人称代词“I”和“You”的使用以及他们如何将性别投射到聊天机器人上产生直接影响。最后,我们确定并讨论道德含义。我们特别关注哪些因素/定型观念影响了参与者对性别的印象,以及更人性化的聊天机器人带来了什么样的权衡。

pdf格式围兜
克里奥尔语的语言模型
希瑟四旬斋|伊曼纽尔·布利亚雷洛|Miryam de Lhoneux公司|陈秋|安德斯·索加德

克里奥尔语,如尼日利亚洋泾浜英语和海地克里奥尔语,在NLP文献中来源不足,基本上被忽视。克里奥尔语通常是由一种外语与多种当地语言融合而成的,其语法和词汇特征是一个复杂的过程。虽然克里奥尔语总体上是稳定的,但在某些人口统计学或某些语言情况下,某些特征的突出性可能会更强。本文的主要贡献是:收集了海地克里奥尔语、尼日利亚洋泾浜英语和新加坡口语的现有语料库和发布模型。我们在内部和外部任务上评估这些模型。受上述文献的启发,我们将标准语言模型与分布健壮模型进行了比较,发现标准语言模型优于分布健壮的模型,这有些令人惊讶。我们研究了这是过度参数化还是相对分布稳定性的影响,发现在没有过度参数化的情况下,差异仍然存在,漂移是有限的,这证实了克里奥尔语言的相对稳定性。

pdf格式围兜
预处理变压器是否像人类一样推断出目的性?
赵一云|Jian Gang Ngui公司|露西·霍尔-哈特利|史蒂文·贝萨德

基于预训练变换器的语言模型在许多NLP任务中实现了最先进的性能,但模型在预训练过程中获得的知识是否与人类的语言知识相似是一个悬而未决的问题。我们向人类和经过预处理的变形金刚提供事件描述,并测量他们对telic解释(事件具有自然端点)或atelic解释(事件没有自然端点)的偏好。为了测量这些偏好并确定影响它们的因素,我们设计了一个英语测试和一个新词测试,其中包括各种倾向于某些解释的语言线索(名词短语数量、结果结构、语境信息、时间单位)。我们发现,人类对telicity解释的选择受到理论动机线索的可靠影响,变形金刚模型(BERT和RoBERTa)受到一些(尽管不是全部)线索的影响,变型金刚模型通常比人类更依赖时间单位。

pdf格式围兜
语境化词语表征的低维线性几何
埃文·埃尔南德斯|雅各布·安德烈亚斯

黑盒探测模型可以可靠地从预处理的单词表示中提取诸如时态、数字和句法角色等语言特征。然而,对这些特征在表示中的编码方式仍知之甚少。我们对ELMO和BERT中上下文化单词表示的线性几何进行了系统研究。我们证明了各种语言特征(包括结构化依赖关系)都编码在低维子空间中。然后,我们对这个几何图形进行了改进,表明编码一般语言类别的子空间和更具体的子空间之间存在层次关系,并且低维特征编码是分布的,而不是与单个神经元对齐的。最后,我们证明了这些线性子空间与模型行为有因果关系,可以用于对BERT的输出分布进行细粒度操作。

pdf格式围兜
概括到G公司基于递归神经网络的erman复数名词类
Verna Dankers公司|安娜·兰格迪克|凯特·麦考迪|阿迪娜·威廉姆斯|Dieuwke Hupkes公司

长期以来,屈折形态学一直是关于语言泛化和神经网络模型作为语言认知模型的可行性的更广泛问题的有用测试场。在这里,根据这一传统,我们探索了递归神经网络是如何获得复杂的德国复数系统的,并反思了它们的策略与该系统的人类泛化和基于规则的模型相比如何。我们进行了包括行为实验、诊断分类、表征分析和因果干预在内的分析,表明模型所依赖的特征也是基于规则的德国复数模型中的关键预测因素。然而,这些模型也显示了捷径学习,这对于寻找更合理的认知概括行为至关重要。

pdf格式围兜
语言模型可以在没有根基的情况下编码感知结构吗?色彩案例研究
穆斯塔法·阿卜杜|阿图尔·库尔米泽夫|丹尼尔·赫什科维奇|斯特拉·弗兰克|埃利·帕夫利克|安德斯·索加德

预先训练的语言模型被证明可以编码关系信息,例如知识库中实体或概念之间的关系(巴黎、首都、法国)。然而,这种类型的简单关系通常可以通过启发式恢复,模型隐含反映基于世界的拓扑结构(例如感知结构)的程度未知。为了探讨这个问题,我们对颜色进行了一次彻底的案例研究。也就是说,我们使用了CIELAB中表示的单色词和色片的数据集,这是一个具有感知意义的距离度量的颜色空间。使用两种方法来评估此空间中颜色的结构对齐情况,并使用文本衍生颜色项表示,我们发现了显著的对应关系。通过分析颜色光谱中排列的差异,我们发现平均而言,较暖的颜色比较冷的颜色更适合感知颜色空间,这表明与最近关于颜色命名有效沟通的研究结果存在有趣的联系。进一步的分析表明,排列上的差异在一定程度上是由搭配和句法用法上的差异所介导的,这对颜色感知、用法和上下文之间的关系提出了疑问。

pdf格式围兜
具有细粒度意图的移情对话生成
谢玉波|珍珠蒲

同理心对话生成旨在在之前的对话转向后产生连贯的反应,更重要的是,表现出关心和帮助的愿望。现有模型要么依赖预定义的情感标签来指导响应生成,要么使用确定性规则来决定响应的情感。随着高级语言模型的出现,可以直接从数据集中学习微妙的交互,前提是情感类别提供了足够的细微差别,并且包含了其他非情感但情绪调节意图。在本文中,我们描述了如何将32种情绪类别和8种额外的情绪调节意图结合起来,以完成移情反应生成任务。为了便于培训,我们还策划了一个来自电影字幕的大规模情感对话数据集。通过精心设计的众包实验,我们评估并展示了与基线相比,我们的模型是如何产生更具同理心的对话的。

pdf格式围兜
使用可视的词向量和L(左)安卡斯特感觉运动标准
凯西·肯宁顿

尽管人类在高度互动和多模式的环境中学习第一语言,但语言模型只在文本上进行训练,在这种环境中,第一组习得的单词在很大程度上是具体的,表示物理实体和具体状态。为了利用这些缺失的经验丰富语言模型,我们利用了两个信息来源:(1)兰开斯特感官规范,该规范为40000多个英语单词在体现的几个维度上提供评级(平均值和标准偏差),它捕获了11种不同感官模式下的体验程度,以及(2)基于BERT词汇表图像训练的二元分类器系数的向量。我们对ELECTRA模型进行了预训练,并使用这两个信息源对RoBERTa模型进行了微调,然后使用建立的GLUE基准和Visual Dialog基准进行评估。我们发现,使用Lancaster范数和图像向量丰富语言模型可以提高这两个任务的结果,对在语言学习环境中捕获整体语言意义的健壮语言模型有一些启示。

pdf格式围兜
通过多任务训练学习零炮多方位视觉接地单词嵌入
哈桑·沙赫穆罕默德|亨德里克·P·A·伦施|R.Harald Baayen先生

语言基础旨在将语言(如词语)的符号表示与外界丰富的感性知识联系起来。一般的方法是将文本和视觉信息嵌入到一个公共空间中,即受明确关系限制的固定空间。我们认为,由于具体单词和抽象单词在大脑中的处理方式不同,这种方法在获取感知信息的过程中牺牲了从文本统计中获得的抽象知识。本文的重点是通过隐式地为单词嵌入提供基础来解决这个问题。我们的方法不是将两个映射学习到一个联合空间中,而是通过隐式对齐来集成模式。这是通过多任务训练学习文本空间和固定空间之间的可逆映射来实现的。内在和外在评价表明,我们的视觉基础方法对抽象和具体单词都非常有益。我们的嵌入与人类的判断相关,并且在广泛的基准上使用预处理单词嵌入,其性能优于以前的工作。我们的固定嵌入在这里是公开的。

pdf格式围兜
语言有助于视觉模型中的泛化吗?
本杰明·德维尔|巴文·乔克西|罗曼·比拉夫斯基|鲁芬·范鲁伦

在多模式数据集上训练的视觉模型可以受益于大型图像选项数据集的广泛可用性。最近发现一种模型(CLIP)在零快照和转移学习环境中具有良好的泛化能力。这可能意味着语言或“语义基础”赋予视觉特征空间额外的泛化能力。在这里,我们从无监督聚类、少快照学习、转移学习和对抗鲁棒性方面系统地评估了各种多模式体系结构和可视化模型。在每种情况下,与标准的监督视觉训练相比,多模态训练没有产生额外的泛化能力。我们的结论是,语义基础仍然需要改进视觉模型。

pdf格式围兜
了解跨域的引导式图像字幕性能
埃德温·G.Ng|Bo Pang先生|皮尤什·夏尔马|拉杜·索里科特

图像字幕模型通常缺乏考虑用户兴趣的能力,通常默认为全局描述,以平衡可读性、信息性和信息过载。我们提出了一个基于Transformer的模型,通过将其作为模型的指导文本,该模型能够生成针对图像中特定对象、概念或动作的标题。此外,我们还评估了这些指导性字幕在概念性字幕上的质量,概念性字幕包含3.3M个图像级字幕,而视觉基因组包含3.6M个对象级字幕。相反,我们发现,经过概念性字幕训练的模型生成的引导性字幕对域外数据的概括效果更好。我们的人性化评估结果表明,尝试在野外引导图像字幕需要访问大型的、无限制的域训练数据集,并且风格多样性的增加(即使不增加唯一标记的数量)是提高性能的关键因素。

pdf格式围兜
反事实干预揭示了相关条款陈述对协议预测的因果关系
肖利·拉夫盖尔|格鲁莎·普拉萨德|塔尔·林岑|约夫·戈德堡

当语言模型处理句法复杂的句子时,它们是否以与语言语法一致的方式使用句法表示?我们建议使用AlterRep,一种基于干预的方法来解决这个问题。对于给定句子的任何语言特征,AlterRep通过改变特征的编码方式生成反事实表示,同时保留原始表示的所有其他方面。通过测量当这些反事实表征被替换为原始表征时,模型单词预测行为的变化,我们可以得出有关语言特征对模型行为的因果影响的结论。我们将这种方法应用于研究不同大小的BERT模型如何处理关系子句。我们发现BERT变体在单词预测过程中使用RC边界信息的方式符合英语语法规则;这种RC边界信息在很大程度上概括了不同的RC类型,表明BERT将RC表示为一个抽象的语言类别。

pdf格式围兜
谁在第一频道确定闭域上语言模型的学习和表示能力探讨
大卫·德米特|道格·唐尼

今天的自然语言处理系统的能力通常是使用精心策划的问题和答案的大型数据集进行评估的。虽然这些是进展的关键基准,但由于人为分布和不完整的知识,它们也存在弱点。人工分布产生的工件可能夸大了语言模型的性能,而不完整的知识限制了细粒度分析。在这项工作中,我们介绍了一种基于SimPlified Language Activity Traces(SPLAT)的补充基准测试方法。SPLAT是一些封闭域中活动的语言编码的语料库(我们在本工作中研究国际象棋和棒球比赛的痕迹)。SPLAT数据集使用自然上升的分布,允许大规模生成问答对,并提供其封闭领域的完整知识。我们表明,三种不同体系结构的语言模型只能使用类似动词的活动编码来回答有关世界状态的问题。我们的方法可以扩展到新的语言模型和附加的问题回答任务。

pdf格式围兜
结合真实错误模式和语言知识进行语法错误纠正的数据增强
夏丽|何君毅

数据增强的目的是使用噪声方案用干净的文本扩展训练数据,以提高语法错误纠正(GEC)的性能。在实践中,人工标注的训练数据中存在大量真实的错误模式。我们认为,可以将这些真实的错误模式引入到干净的文本中,以有效地生成更真实、更高质量的合成数据,这是以前的研究没有充分探讨的。此外,我们还发现,可以将语言知识纳入数据增强中,以生成更具代表性和多样性的合成数据。本文提出了一种新的数据增强方法,该方法充分考虑了GEC任务的实际错误模式和语言知识。我们在公共数据集上进行了大量实验,实验结果表明,我们的方法在外部未标记干净文本数据少得多的情况下,优于几个强基线,突出了它在缺乏大规模标记训练数据的GEC任务中的非凡有效性。

pdf格式围兜
同意与反对:人类对机器翻译输出评价中说话人之间的分歧分析
马贾·波波维奇

这项工作描述了对人工评估机器翻译输出时说话人之间分歧的分析。在不同质量标准的指导下,多个注释员对分析文本中的错误进行了标记:充分性、理解性,以及未指定的充分性和流利性的一般混合。我们的结果表明,不同的标准会导致不同的分歧,并表明明确的质量标准定义可以改善投资者之间的协议。此外,我们的结果表明,对于某些不限于一两个单词(如单词歧义或性别),而是跨越几个单词甚至整个短语(如否定句或关系从句)的语言现象,分歧不一定代表“错误”或“噪音”但这是评估过程中固有的。%这些分歧是由于错误认知的差异和/或文本没有单一的正确翻译,因此可能有多种解决方案。另一方面,对于其他一些现象(如省略或动词形式),可以通过向评估者提供更精确和详细的指示来轻松改进一致性。

pdf格式围兜
用最小对探索否定意识的多语言基准
马雷克·哈特曼|Miryam de Lhoneux公司|丹尼尔·赫什科维奇|约瓦·凯门切奇耶娃|卢卡斯·尼尔森|陈秋|安德斯·索加德

否定是人类认知和语言中最基本的概念之一,设计了几种自然语言推理探针来研究预处理语言模型对否定的检测和推理能力。然而,现有的探测数据集仅限于英语,并且不能在不存在否定或存在否定的情况下对性能进行受控探测。作为回应,我们提供了一个多语言(英语、保加利亚语、德语、法语和汉语)NLI示例的基准集合,这些示例经过手动检查和重新编写,语法正确且标记正确。我们使用这个基准来探究多语种语言模型的否定意识,发现使用否定线索正确预测示例的模型在没有否定线索的情况下往往无法正确预测其反例,即使这些线索与语义推理无关。

pdf格式围兜
基于抽象语法树的可解释自然语言到Bash翻译
Shikhar Bharadwaj公司|谢里什·谢瓦德

用于程序综合的自然语言处理已经得到了广泛的研究。在这项工作中,我们将重点放在从自然语言调用生成Bash命令以及解释上。我们利用Bash抽象语法树和手册页面提出了一种新的基于转换器的解决方案。我们的方法将树结构信息合并到转换器架构中,并通过用户调用和手动页面文本之间的对齐矩阵为其预测提供解释。我们的方法在自然语言上下文到命令任务中的性能与最先进的性能相当,并且比微调的T5和Seq2Seq模型性能更好。

pdf格式围兜
在暴露程度增加的情况下,习得的构式语法在不同语域中趋同
乔纳森·邓恩|哈里什·塔亚尔·马达布西

本文测量了在对来自不同寄存器的数据进行训练时,暴露程度增加对学习的构造语法是否收敛到共享表示的影响。语域影响结构的频率,有些结构在正式用法中很常见,但在非正式用法中并不常见。我们预计,暴露于不同寄存器的语法归纳算法将获得不同的结构。暴露的增加在多大程度上导致寄存器特定语法的趋同?本文中的实验模拟了12种语言(一半是日耳曼语,一半是罗曼斯语)的语言学习,语料库代表了三种语域(推特、维基百科、网络)。这些模拟随着暴露量的增加而重复,从10万到200万单词,以测量暴露对语法收敛的影响。结果表明,增加暴露确实会导致所有语言的语法趋同。此外,在不断增加的风险敞口中,登记-通用结构的共享核心保持不变。

pdf格式围兜
存在拼写错误时的标记化修复
汉娜·巴斯特|马蒂亚斯·赫特尔|穆斯塔法·穆罕默德

我们考虑以下标记化修复问题:给定一个自然语言文本,其中包含任何缺失或虚假空格的组合,请更正这些错误。拼写错误可能存在,但纠正它们不是问题的一部分。例如,给定:“Tispa per is about token izaonrep air”,计算“Tis paper is about-tokenization rep-air”。我们确定了高质量标记化修复的三个关键要素,这三个要素都是以前工作中缺失的:具有双向组件的深层语言模型,针对拼写错误的文本训练模型,以及利用现有的空间信息。我们的方法还改进了现有的拼写检查器,不仅修复了更多的标记化错误,还修复了更多拼写错误:一旦明确了哪些字符构成单词,他们就更容易找到正确的单词。我们提供了六个基准测试,涵盖了三个用例(OCR错误、PDF文本提取、人为错误)以及部分正确的空间信息和所有缺少空间的情况。我们根据现有最佳方法和非平凡基准评估我们的方法。我们在以下方面提供了完全的再现性https://ad.informatik.uni-freiburg.de/publications网站.

pdf格式围兜
一个用于联合分词的粗到细标记框架,销售时点情报系统标记和成分分析
杨厚|周侯泉|李振华|于章|张敏(音)|王哲峰|怀宝兴|尼古拉斯·靖远

联合分词(WS)、词性标注(POS)和成分分析最直接的方法是将单词级树转换为字符级树,但这会带来两个严重的挑战。首先,较大的标签集(例如≥600)和较长的输入都会增加计算成本。其次,很难排除包含冲突生产规则的非法树木,这对于可靠的模型评估很重要。如果POS标记(如VV)位于输出树中短语标记(如VP)的上方,则确定单词边界变得相当复杂。为了应对这两个挑战,本文提出了一个用于联合WS-POS-PAR的两阶段粗到细标记框架。在粗标记阶段,联合模型输出一个括号树,其中每个节点对应于四个标签中的一个(即短语、子短语、单词、子单词)。通过约束CKY解码保证树是合法的。在精细标记阶段,模型将每个粗标签扩展为最终标签(例如VP、VP*、VV、VV*)。在Chinese Penn Treebank 5.1和7.0上的实验表明,在w/o和w/BERT设置下,我们的联合模型始终优于流水线方法,并实现了最新的性能。

pdf格式围兜
了解内容质量指标衡量摘要信息质量的程度
丹尼尔·多伊奇|丹罗斯

基于参考的指标,如ROUGE或BERTScore,通过将摘要与参考进行比较来评估摘要的内容质量。理想情况下,这种比较应该通过计算摘要的共同信息量来衡量摘要的信息质量。在这项工作中,我们分析了ROUGE和BERTScore用于比较总结的标记对齐,并认为它们的分数在很大程度上不能解释为测量信息重叠。相反,它们是对摘要讨论相同主题的程度的更好估计。此外,我们还提供了证据,证明该结果适用于许多其他摘要评估指标。这一结果的结果是,最常用的摘要评估指标与社区的研究目标不一致,即生成具有高质量信息的摘要。然而,我们得出的结论是,最近提出的一个度量指标QAEval(使用问题回答对摘要进行评分)似乎比当前的评估更好地捕捉信息质量,这突出了未来研究的方向。

pdf格式围兜
摘要-源提案级对齐:任务、数据集和监督基线
奥里·恩斯特|奥里·夏皮拉|拉马坎斯·帕苏努鲁|迈克尔·利皮奥什金|雅各布·戈德伯格|莫希特·班萨尔|伊多·达根

将参考摘要中的句子与其源文档中的对应句子对齐显示为一项有用的辅助摘要任务,特别是用于生成用于显著性检测的训练数据。尽管评估了其效用,但对齐步骤大多是使用启发式无监督方法进行的,通常是基于ROUGE的,从未进行过独立优化或评估。在本文中,我们建议将摘要源对齐建立为一个显式任务,同时引入两个主要创新点:(1)将其应用于更精确的命题跨度级别,以及(2)将其作为一个监督分类任务进行处理。为此,我们创建了一个新的用于命题级对齐的训练数据集,该数据集是从可用的摘要评估数据中自动导出的。此外,我们众包开发和测试数据集,实现模型开发和适当评估。利用这些数据,我们提出了一个有监督的命题对齐基线模型,与无监督方法相比,该模型显示了更好的对齐质量。

pdf格式围兜
隐喻短语生成探索
凯文·斯托|尼尔斯·贝克|艾丽娜·古列维奇

隐喻生成是一项艰巨的任务,随着深度预处理模型的出现,隐喻生成已经取得了巨大的进步。这里我们关注的是隐喻释义生成的具体任务,在这个任务中,我们提供一个直译句子,并生成一个释义输入的隐喻句子。我们将天真、“自由”的生成模型与那些利用对生成过程的控制形式的模型进行了比较,并基于概念隐喻理论添加了额外的信息。我们评估了两种生成成对训练数据的方法,然后将其用于训练T5模型以进行自由和受控生成。我们使用众包对结果进行评估,结果表明,自由模型倾向于产生更流畅的释义,而受控模型更善于产生新颖的隐喻。然后,我们分析了评估指标,表明不同的指标对于捕捉隐喻释义的不同方面是必要的。我们发布我们的数据和模型,以及带注释的结果,以促进更好的评估指标的开发。

pdf格式围兜
使用对比学习在语言模型嵌入中引入关系结构
克里斯托斯·西奥多罗普洛斯|詹姆斯·亨德森|安德烈·卡塔林·科曼|玛丽·弗朗辛·莫恩斯

尽管语言模型文本嵌入已经彻底改变了NLP研究,但它们捕获高级语义信息(例如文本中实体之间的关系)的能力有限。在本文中,我们提出了一种新的对比学习框架,该框架训练句子嵌入以在图结构中编码关系。给定一个句子(非结构化文本)及其图形,我们使用对比学习将关系相关结构强加于通过CharacterBERT(El Boukkouri et al.,2020)模型获得的句子的标记级表示。所得到的关系软件句子嵌入仅使用简单的KNN分类器就关系提取任务取得了最新的结果,从而证明了所提方法的成功。tSNE分析的额外可视化显示了与基线相比所学习的表示空间的有效性。此外,我们还表明,我们可以再次使用对比学习目标学习不同的命名实体识别空间,并演示了如何在实体关系任务中成功地组合这两个表示空间。

pdf格式围兜
:自然发生预设语料库E类英语
艾丽西娅·帕里什|塞巴斯蒂安·舒斯特|亚历克斯·沃斯塔特|奥马尔·阿加|李秀文(Soo-Hwan Lee)|赵卓业|塞缪尔·鲍曼|塔尔·林岑

理解语言不仅需要掌握公开的内容,还需要对未说的事情做出推断。这些推论包括预设,这是一种听者通过推理说话人所接受的信息来学习新信息的现象。预设需要对触发它们的词汇和句法属性以及更广泛的会话上下文有复杂的理解。在这项工作中,我们引入英语语料库中的自然发生预设来研究10种不同类型的预设触发语的上下文敏感性,并评估机器学习模型预测人类推理的能力。我们发现,我们调查的大多数触发因素都表现出适度的可变性。我们进一步发现,基于变换器的模型在涉及预设的简单情况下可以做出正确的推断,但它们未能捕捉到少数例外情况,在这些例外情况下,人类的判断揭示了上下文和触发器之间的复杂交互。

pdf格式围兜
从话语连接词角度看预训练语言模型的语用能力
拉坎德·潘迪亚|燕聪|Allyson Ettinger公司

随着预训练语言模型(LM)继续主导NLP,我们理解这些模型中语言能力的深度变得越来越重要。本文以预训练语言学习者的语用能力为目标,重点研究与话语连接词相关的语用学。我们使用自然发生的数据和来自心理语言学的受控输入组合来制定封闭式测试。我们重点测试模型使用语用线索预测话语连接词的能力,模型理解与连接词相关的含义的能力,以及模型在多大程度上显示出人类对连接词时间动态的偏好。我们发现,虽然模型在自然发生的数据上下文中可以很好地预测连接词,但当我们控制上下文以分离高级语用线索时,模型的敏感性要低得多。模型也没有显示出实质上类似人类的时间偏好。总的来说,研究结果表明,目前,主流的预培训范式并没有在我们的模型中产生实质性的语用能力。

pdf格式围兜
从滚动交互中预测文本可读性
西安古丁|叶夫根尼·贝扎克|麦东尼(Tony Mak)|马特·谢里菲

判断文本的可读性有许多重要的应用,例如在进行文本简化或为语言学习者寻找阅读材料时。在本文中,我们提出了一项518名参与者的研究,调查滚动行为与英语文本可读性的关系。我们公开了我们的数据集,并表明:(1)读者与文本的交互方式根据文本级别在统计上存在显著差异,(2)这些度量可以用于预测文本的可读性,以及(3)读者的背景会影响他们的阅读互动以及造成文本困难的因素。

pdf格式围兜
儿童早期语义知识习得中基于感知和基于生产的学习互动模型
米贾·尼古拉斯|阿卜杜拉·福塔西

孩子们以惊人的速度学习母语中的单词和句子的意思,并且从高度模糊的输入中学习。为了解释这种学习,以前的计算建模主要集中于基于感知的机制的研究,如跨情境学习。然而,孩子们不仅仅通过接触输入来学习。他们一开始说话,就在社交互动中实践自己的知识,并从护理者那里获得反馈。在这项工作中,我们提出了一个使用人工神经网络集成基于感知和基于生产的学习的模型,该模型在具有相应描述的大型众源图像语料库上进行训练。我们发现,在包括单词和句子级语义在内的一系列语义任务中,基于产生的学习比基于感知的学习更能提高性能。此外,我们记录了这两种机制之间的协同作用,它们的交替使模型能够收敛到更平衡的语义知识上。这项工作的更广泛影响是强调在社会互动的背景下建模语言学习的重要性,在这种背景下,儿童不仅被理解为被动地吸收输入,而且积极参与语言知识的构建。

pdf格式围兜
支架输入促进递归神经网络语言模型中的原子组织
菲利普·A·休伯纳|乔恩·威利斯

递归神经网络(RNN)语言模型是学习语言数据中任意序列相关性的有力工具。尽管它在表示词汇序列方面取得了巨大成功,但人们对它所获得的词汇表示的质量知之甚少。在这项工作中,我们推测从RNN中提取词汇表示(即静态单词嵌入)很简单,但当训练数据中的词汇项提供冗余语义信息时,编码的语义信息量是有限的。我们将RNN的这种局限性概念化为未能学习原子内部状态,即捕获与单个单词类型相关的信息而不受与之共现的单词提供的冗余信息的影响的状态。利用人工语言语料库,我们验证了训练数据中的冗余会产生非原子内部状态,并提出了一种新的诱导原子内部状态的方法。我们表明,1)我们的方法在受控实验中成功地诱导了原子内部组织,2)在由儿童定向语言组成的更现实的训练条件下,我们的方法的应用提高了下游语义分类任务中词汇表示的性能。

pdf格式围兜
用于语义变化检测的语法分析
安德烈·库图佐夫|利迪娅·皮沃瓦洛娃|马里奥·朱利安内利

语义学、形态学和句法是相互依存的。然而,大多数用于语义变化检测的计算方法都使用分布式单词表示,这些表示主要对语义进行编码。我们研究了另一种方法,语法分析,完全基于单词的形态句法行为的变化。我们证明了它可以用于语义变化检测,甚至优于一些分布式语义方法。我们对我们的语法分析系统所做的预测进行了深入的定性和定量分析,表明它们是可信的和可解释的。

pdf格式围兜
用最简文法解构句法泛化
玛丽娜·埃尔莫拉耶娃

在目前占主导地位的最简主义句法框架(乔姆斯基,19952000)中,在文献中经常会遇到对同一自然语言模式的多种建议。我们从定量的角度研究了评估和比较句法现象分析的可能性,这些语法被实现为最简语法(Stabler,1997)。本文介绍了一种通过检测和消除数据中的句法和语音冗余来进行语言概括的原则方法。作为概念的证明,我们首先提供了一个小的逐步示例,将未分割单词上的朴素语法转换为语素上的语言激发语法,然后讨论英语辅助系统,被动语态,并提出了由原型实现的自动语法优化过程生成的动词。

pdf格式围兜
基于关系感知的双向路径推理在常识性问题回答中的应用
王俊兴|李心怡|珍潭|项昭(音)|肖伟东

常识问答是一项重要的自然语言处理任务,旨在通过常识推理预测问题的正确答案。以前的研究使用大规模语料库(如BERT)上的预训练模型,或对知识图进行推理。然而,这些方法并没有显式地对关系连接实体,这些实体是信息性的,可以用于增强推理。为了解决这个问题,我们提出了一种关系软件推理方法。我们的方法使用关系软件图神经网络从实体和关系中捕获丰富的上下文信息。与使用来自预训练模型的固定关系嵌入的方法相比,我们的模型使用从多个外部知识源构建的多源子图中的上下文信息动态更新关系。然后将增强的关系表示馈送到双向推理模块。在问题序列和连接实体的路径之间应用了双向注意机制,这为我们提供了透明的可解释性。在CommonsenseQA数据集上的实验结果表明,我们的方法在提供清晰的推理路径的同时,显著改进了基线。

pdf格式围兜
指称的可预测性会影响指称形式的选择吗?一种使用屏蔽共指消解的计算方法
劳拉·艾娜|廖锡贤|杰玛·博莱达|马蒂杰斯·韦斯特拉

人们通常认为,说话人意思中比较容易预测的部分往往不太明确,例如使用较短、信息量较小的单词。事实证明,在指称表达领域研究这些动态是困难的,现有的心理语言学和基于身体的研究提供了相互矛盾的结果。我们使用对指称可预测性的新计算估计来检验这样一种假设,即当上下文中关于指称的信息更多时,说话者产生的指称表达信息更少(例如,代词与全名词短语)。我们获得了这些估计值,将现有的英语共指消解系统训练到一个新任务上,即掩蔽共指消去,给我们一个受上下文而非指代表达式制约的参照物的概率分布。与之前的尝试相比,生成的系统保留了标准的共指消解性能,同时对人类衍生的参照可预测性进行了更好的估计。对模型输出和提及形式之间关系的统计分析支持这样的假设,即可预测性影响提及的形式,包括其形态句法类型和长度。

pdf格式围兜
极轴嵌入
岩本郎(Ran Iwamoto)|Ryosuke Kohita公司|川崎秋美

层次关系是许多自然语言处理(NLP)任务的宝贵信息。分布表示已经成为编码单词关系的基本方法,尤其是双曲线空间中的嵌入通过利用其空间特性在表示层次结构方面表现出了出色的性能。然而,大多数机器学习系统并不打算用于如此复杂的非欧几里德几何。为了在常用的欧几里德空间中实现层次表示,我们提出了极嵌入,该方法通过极坐标系学习单词嵌入。利用极坐标的特点,用半径(通用性)和角度(相似性)两个独立变量表示单词的层次结构,并分别对其变量进行优化。极坐标嵌入明确地显示了单词层次结构,并允许我们使用有益的资源,例如单词频率或单词通用性注释来计算半径。我们介绍了一种在极坐标有限范围内学习角度的优化方法,该方法结合了损失函数控制梯度和分布均匀化。在超义数据集上的实验结果表明,我们的方法优于低维欧氏空间中的其他嵌入方法,即使是双曲线嵌入也具有竞争性,双曲线嵌入具有几何优势。

pdf格式围兜
单词联想和C类一次N个et(等)
刘春华|特雷弗·科恩|利亚·弗雷曼

人类利用无数关于世界的共同基本事实,在其环境中高效导航。这种常识性知识很少被明确传达,然而,理解常识性知识在不同范式中的表现方式对于(a)深入理解人类认知和(b)增强自动推理系统非常重要。本文对两种大规模的通用知识资源进行了深入的比较:工程关系数据库ConceptNet和基于众源单词关联的知识图SWOW。我们检查了两个图表之间的结构、重叠和差异,以及这两种资源中情境常识知识的范围。最后,我们通过实证表明,这两种资源都能在常识推理基准上提高下游任务的性能,而不是纯文本基线,这表明通过众包获得的多种语言的大规模单词关联数据可以作为对精心策划的知识图的有价值的补充。

pdf格式围兜
通过密集注释实现跨文档事件标识
阿迪蒂亚·普拉塔帕|刘正中|长谷川敏弘|李林伟|山川由纪夫|张世坤|Teruko Mitamura公司

本文研究了不同文献中文本事件的同一性。虽然之前研究过事件标识的复杂性(Hovy等人,2013),但跨文档事件的情况尚不清楚。以前关于跨文档事件引用的工作有两个主要缺点。首先,它们将注释限制为一组有限的事件类型。其次,他们没有充分处理事件身份的概念。这样的注释设置减少了事件引用池,并防止人们考虑准同一关系的可能性。我们提出了一种用于跨文档事件共引用的密集注释方法,包括丰富的事件提及源和相关文档对之间的密集注释。为此,我们设计了一个新的注释工作流,它具有仔细的质量控制和易于使用的注释界面。除了链接之外,我们还进一步收集重叠的事件上下文,包括时间、地点和参与者,以阐明身份决策和上下文之间的关系。我们提供了一个用于跨文档事件参考的开放存取数据集CDEC-WN,该数据集来自英文维基新闻,并开放了我们的注释工具包,以鼓励对跨文档任务进行进一步研究。

pdf格式围兜
联合处理零代词解析和非零共指解析
陈世松|顾彬彬|尖峰区|李志旭|刘安|雷昭(Lei Zhao)|陈志刚

零代词消解的目的是识别掉的代词并指出它们的回指提及,而非零共指消解的目标是聚集指向同一实体的提及。现有的努力通常会分别处理这两个问题,而不管它们之间有着密切的本质联系。本文研究了通过一种新的端到端神经模型联合求解零代词消解和共指消解的可能性。具体来说,我们设计了一个gap-masked自关注模型,该模型将间隙和标记编码在同一空间中,其中间隙可以根据周围的标记捕获有价值的上下文信息,而标记可以在不受干扰的情况下保持原始的序列信息。此外,我们还提出了两阶段互动机制,以充分利用零代词和提及之间的排他性关系。我们在OntoNotes 5.0中文数据集上进行的实证研究表明,我们的模型在这两项任务上都优于相应的最先进方法。

pdf格式围兜
基于否定实例的端到端否定解决方案评估
伊丽莎维塔·西内娃|斯特凡·格吕内瓦尔德|安娜玛丽·弗里德里希|乔纳斯·库恩

在本文中,我们重新审视了否定消解的任务,它包括线索检测的子任务(例如“not”、“never”)和范围消解。在先前共享任务的背景下,提出了各种评估指标。随后的工作通常使用这些的不同子集,包括变体和自定义实现,这使得系统之间难以进行有意义的比较。从语言学的角度和下游的角度来研究这个问题,我们在这里主张用基于否定实例的方法来评估否定的解决。我们提出的指标对应于对每个实例分数的期望,因此可以直观地解释。为了使研究具有可比性并促进未来的工作,我们提供了一套当前最先进的三个英语语料库否定解决系统的结果,并公开了评估脚本的实现。

pdf格式围兜
从头到尾控制韵律语音合成对比焦点生成案例研究
西迪克·拉蒂夫|金英英(Inyoung Kim)|伊昂·卡拉波德斯库|劳伦特·贝萨西尔

虽然在过去几年中,端到端文本到语音(TTS)取得了重大进展,但这些系统仍然缺乏用户对韵律的直观控制。例如,生成具有精细韵律控制(韵律突出、上下文适当的情感)的语音仍然是一个公开的挑战。在本文中,我们研究是否可以直接从输入文本中控制韵律,以编码与对比焦点相关的信息,对比焦点强调与对话者预设相反的特定单词。为此,我们构建并共享了一个特定的数据集,并表明,如果可以使用控制标记正确地传递这种细粒度韵律特征,则可以训练TTS系统。我们的评估比较了合成话语和自然话语,表明对比焦点的韵律模式(Fo、强度和持续时间的变化)可以准确地学习。例如,这样一个里程碑对于允许智能扬声器根据输出韵律进行编程控制非常重要。

pdf格式围兜
一个具有多方面标签的大规模综合滥用检测数据集R(右)埃迪特
宋和云|秀贤龙|李慧杰|郑朴(Jong Park)

由于网络社区中的用户受到了滥用语言的严重副作用,许多研究人员试图检测社交媒体中的滥用文本,并提供了一些数据集用于此类检测。然而,它们都不包含全面的标签和上下文信息,这对于彻底检测文本中的各种滥用至关重要,因为具有这种细粒度特征的数据集需要大量注释,导致复杂性大大增加。在本文中,我们提出了一个综合滥用检测数据集(CADD),该数据集收集自英语Reddit帖子,具有多方面的标签和上下文。我们的数据集通过大规模众包进行分层注释,以实现高效注释。我们还实证研究了数据集的特征,并对新见解进行了详细分析。我们在数据集上使用强预训练自然语言理解模型的实验结果表明,我们的数据集产生了有意义的性能,确保了其在滥用语言检测中的实用性。

pdf格式围兜
M(M)镜子C类:从预先训练的语言模型中引出上下文中的单词表示
刘谦初|刘芳玉|奈杰尔·科利尔|安娜·科霍恩|伊万·武利奇

最近的工作表明,预处理语言模型(PLM),如BERT和RoBERTa,即使通过简单的自我监督技术也可以转换为有效的句子和单词编码器。受这一工作的启发,在本文中,我们提出了一种完全无监督的方法来改进PLM中的单词-上下文(WiC)表示,该方法通过一个简单高效的以WiC为目标的微调过程来实现:MirrorWiC。该方法仅利用从维基百科中抽取的原始文本,假设没有意义注释数据,并在标准的对比学习设置中学习上下文软件单词表示。我们测试了一系列跨多种语言的标准和全面的WiC基准测试。我们提出的完全无监督的MirrorWiC模型在所有单语、多语言和跨语言设置中都比离线PLM获得了显著的收益。此外,在一些标准WiC基准测试中,MirrorWiC甚至可以与监督模型媲美,这些模型与任务内数据和感知标签进行了微调。

pdf格式围兜
一种低资源多语言关系分类的数据引导方法
阿里吉特·纳格|比迪莎·萨曼塔|阿尼梅斯·穆克吉|尼洛伊·甘古利|苏丹查克拉巴蒂

关系分类(有时称为“提取”)需要可靠的数据集来微调大型语言模型以及进行评估。数据收集对印度语言来说是一项挑战,因为它们在句法和形态上都是多样的,并且不同于英语等资源丰富的语言。尽管最近人们对印度语言的深层生成模型感兴趣,但公共数据集仍然不能很好地支持关系分类。作为回应,我们展示了IndoRE,这是一个包含39K个实体和关系标记的黄金句子的数据集,使用三种印度语言和英语。我们从基于多语言BERT(mBERT)的系统开始,该系统捕获实体跨度位置和类型信息,并提供竞争性单语关系分类。使用该系统,我们探索并比较了语言之间的传输机制。特别是,我们研究了昂贵的黄金实例与翻译和对齐的“白银”实例之间的准确性效率权衡。

pdf格式围兜
快速:一个用于分布式语义评估的精心采样和认知驱动的数据集
斯特凡·埃弗特|加布里埃拉·拉佩萨

当你听到长颈鹿、少女或自由时,第一个想到的单词是什么?这种自由联想包含了有关相应概念的心理表征的大量信息,因此是评估从语料库中提取的语义表征的极有价值的测试平台。在本文中,我们提出了FAST(Free ASociation Tasks),这是一个从两个标准自由联想规范集合(爱丁堡联想词库和南佛罗里达大学自由联想规范)中严格采样的英语自由联想数据集,讨论了两个评估任务,并提供了基线结果。同时,我们讨论了关于正确评估语义表示的必要性的方法论考虑。

pdf格式围兜
的自动错误类型批注A类狂犬病患者
Riadh Belkebir公司|尼扎尔·哈巴什

我们介绍了ARETA,一个用于现代标准阿拉伯语的自动错误类型注释系统。我们设计ARETA是为了解决阿拉伯语的形态丰富性和正字法模糊性。我们以阿拉伯语学习者语料库(ALC)错误标记集为基础,进行了一些修改。ARETA在人工标注的ALC盲测试部分中取得了85.8%的成绩(F1的微平均分数)。我们还通过将ARETA应用于QALB 2014阿拉伯语语法错误更正共享任务中的许多提交文件,展示了ARETA的可用性。结果分析对不同提交文件的优缺点提供了有益的见解,这比共享任务中使用的不透明M2评分指标更有用。ARETA使用大型阿拉伯语形态分析仪,但在其他方面完全没有监督。我们公开ARETA。

pdf格式围兜
交际效率导致的形状偏差
伊娃·波特兰斯|迈克尔·C·弗兰克|丹·朱拉夫斯基|亚历山德罗·索多尼|罗曼·拉罗什

到两岁时,孩子们倾向于认为新词类别是基于物体的形状,而不是它们的颜色或质地;这种假设被称为形状偏差。他们被认为是通过观察其护理者的语言偏向于基于形状的类别来了解这种偏见的。这提出了一个鸡和蛋的问题:如果为了让孩子们学习,语言中必须存在形状偏差,那么它首先是如何在语言中出现的?在本文中,我们认为交际效率既可以解释形状偏见是如何产生的,也可以解释为什么它会在几代人之间持续存在。我们使用神经涌现语言代理对这个过程进行建模,这些代理学习如何交流原始像素化图像。首先,我们表明,形状偏差是由于代理人采用了有效的沟通策略而产生的。第二,我们表明,交际需要带来的压力也有必要使其代代相传;仅仅在代理的输入语言中存在形状偏差是不够的。这些结果表明,除了其他学习策略的操作之外,人类学习者中的形状偏见可能会出现,并被交际压力所维持。

pdf格式围兜
B类阿比BERT(误码率)a: 使用小规模儿童指导语言学习更多语法
菲利普·A·休伯纳|埃利奥·苏莱姆|费舍尔·辛西娅|丹罗斯

基于转换的语言模型已经席卷了NLP世界。然而,他们解决语言习得研究中重要问题的潜力在很大程度上被忽视了。在这项工作中,我们检查了RoBERTa(Liu et al.,2019)的语法知识,当在500万单词的语言习得数据语料库上进行训练时,以模拟1岁至6岁儿童可用的输入。使用行为探测范式,我们发现,一个从不预测未屏蔽标记(我们称之为BabyBERTa)的较小版本的RoBERTabase获得的语法知识与预先定义的RoBErtabase相当,并且使用的参数大约减少了15倍,单词减少了6000倍。我们讨论了从儿童可用的输入中构建更有效的模型和语法可学习性的含义。最后,为了支持这方面的研究,我们发布了新的语法测试套件,该套件与儿童定向输入的小词汇表兼容。

pdf格式围兜
从话语语境看人类信息传播策略
马里奥·朱利安内利|拉奎尔·费尔南德斯

人们认为演讲者会使用合理的信息传输策略来进行有效的沟通(Genzel和Charniak,2002年;Aylett和Turk,2004年;Jaeger和Levy,2007年)。以往分析句子生成中这些策略的工作没有考虑到句子的信息内容是如何随着可用的话语语境而变化的。在本研究中,我们估计了话语语境中的句子信息内容。我们发现,说话人以稳定的速度传递信息——例如,合理地在英语报纸文章中传递信息,但在口语开放领域和书面任务型对话中,这一速度有所下降。我们还观察到,说话人的选择并不是面向信息的局部一致性,这是另一种假设的理性策略。我们建议更忠实的沟通模式应明确包括生产成本和目标导向的奖励。

pdf格式围兜
使用感知同化模型和最新声学模型预测非母语语音感知
朱丽叶·米勒|Ioana Chitoran公司|伊万·邓巴

我们的母语影响我们感知语音的方式,影响我们辨别非母语语音的能力。我们比较了关于母语对语音感知影响的两种观点:感知同化模型,它呼吁将声音在心理上分类为母语音位类别,而丰富、细粒度的语音表示,根据母语的统计数据调整就足够了。我们使用两种最先进的语音模型来实现这一想法,一种是Dirichlet过程高斯混合模型,另一种是最近的wav2vec 2.0模型。我们提供了一个新的、开放的数据集,其中包括法语和英语参与者对六种语言中61个元音的言语感知行为。我们表明,音素同化比细粒度语音模型更能预测整体的辨别行为,以及预测与母语背景差异相关的辨别能力差异。我们还表明,wav2vec 2.0虽然不善于捕捉母语对言语感知的影响,但它是对母语音素同化信息的补充,并提供了一个良好的低水平语音表征模型,支持了在言语感知过程中同时使用范畴感知和细粒度感知的观点。

pdf格式围兜
地区发音差异对儿童拼写的影响及重音自适应拼写检查器的潜在益处
艾玛·奥尼尔|乔·肯尼|安东尼·文崔斯克|朱莉·卡森·伯恩德森

一个不熟悉单词正确拼写的孩子通常会采用“读音”的方法:将单词分解为组成音,然后选择字母来代表识别出的发音。这通常会导致拼写错误,与预期目标的拼写完全不同。最近,人们努力开发基于语音的拼写检查器,以解决儿童拼写错误的更多偏差。然而,很少有人研究拼写纠正工具的潜力,这些工具包含了地区发音差异。如果孩子必须首先识别单词的发音,那么他们的发音就会影响这个过程。我们研究了这一假设,以及将拼写更正工具应用于更具体的语言变体(尤其是爱尔兰口音英语)的可行性和潜在好处。我们使用来自爱尔兰学生的拼写错误数据来调整现有的基于英语语音的拼写检查器,并证明其性能有所提高。这些结果不仅促进了拼写检查器开发过程中对语言多样性的考虑,而且有助于现有文献中关于地域口音在写作能力获得中的作用。