DOI（操作界面）：10.18653/v1/2020.emnlp-main.556
语料库ID:215238527

“你被扎根了！”：预先训练的语言模型中的潜在名称工件

@第{Shwartz2020YouAG条，title={“You Are Grounded！”：预训练语言模型中的潜在名称工件}，author={Vered Shwartz、Rachel Rudinger和Oyvind Tafjord}，期刊＝{ArXiv}，年份={2020年}，体积={abs/2004.03012}，网址={https://api.semanticscholar.org/CorpusID:215238527}}

韦里德·施瓦茨雷切尔·鲁丁格奥文德·塔夫乔德
出版在里面经验…会议… 2020年4月6日
计算机科学、语言学

这项工作侧重于与给定名称表示相关的工件，根据语料库的不同，这些工件可能与特定实体相关，如下一个标记预测所示（例如Donald），并建议对不同语料库进行额外的预训练可能会缓解这种偏见。

[PDF]语义阅读器

43引文

极具影响力的引文

1

34

8

5

本文图表

话题

训练语料库培训前消极情绪下游模型接地语言模型下一个令牌预测

询问这篇论文
贝塔
AI供电

我们的系统试图限制本文中找到的信息。结果质量可能有所不同。了解更多信息关于我们如何产生这些答案。

反馈？

语言生成中的社会偏见：进展与挑战

艾米丽·盛Kai-Wei Chang公司P.纳塔拉扬彭南云

语言学、计算机科学

…协会年会…

2021

本文介绍了一项关于语言生成中社会偏见的调查，重点是数据和技术如何导致偏见，减少偏见的进展，以及解码技术的影响。

[PDF]（PDF格式）

“一种尺寸—所有尺寸”？检查关于“公平”或“良好”NLG系统行为构成要素的期望

李露西苏琳·布洛吉特米拉德·绍库希（Milad Shokouhi）汉娜·M·瓦拉赫亚历山德拉·奥尔特阿努

语言学、计算机科学

2023

五个案例研究扰乱了NLG系统输入中不同类型的身份相关语言特征，发现适应的动机包括社会规范、文化差异、特征特定信息和调节；相反，不变性的动机包括支持规定主义的观点，认为适应对于NLG系统来说是不必要的或太困难的，并且对错误的假设持谨慎态度。

[PDF]（PDF格式）

“我不是种族主义者，但……”：发现大型语言模型内部知识中的偏见

A.萨利纳斯路易斯·佩纳菲尔罗伯特·麦科马克弗雷德·莫斯塔特

计算机科学

arXiv.org网站

2023

本文介绍了一种新颖的、纯粹基于即时性的方法来揭示任意LLM中隐藏的刻板印象，该方法动态生成内部刻板印象的知识表示，从而能够识别编码在LLM内部知识中的偏见。

1

[PDF]（PDF格式）

考察名字对语言模型的因果影响：以社会常识推理为例

苏兰·琼贾娜·迪斯纳H.基利科卢

计算机科学、语言学

信托NLP

2023

建议为了确保模型的健壮性，必须在配置阶段使用更多不同的名字来增加数据集，结果表明名字的频率对模型预测有直接影响，与更频繁的名字相比，不太频繁的名字会产生不同的预测。

[PDF]（PDF格式）

Nichelle和Nancy：人口统计学属性和标记长度对名字偏见的影响

郝哲安雷切尔·鲁丁格

语言学

…协会年会…

2023

通过使用名字替换实验，先前的研究表明，社会常识推理模型倾向于沿着…

1

[PDF]（PDF格式）

降低对话生成文本时对说话人姓名的敏感度

齐佳海丰堂Kenny Q.Zhu（肯尼·朱）

计算机科学

…协会年会…

2023

这项工作建议定量测量模型对说话人姓名的敏感性，并综合评估一些已知的降低说话人名称敏感性的方法，包括其自身的一种新方法。

1

[PDF]（PDF格式）

重温指针网络等体系结构以有效改进下一个单词的分布、总结事实以及其他

Haw-Shiuan Chang公司宗海瑶族阿罗利卡·冈洪宇A.麦卡伦

计算机科学

…协会年会…

2023

通过简化指针网络和加速逐字重传器，提出了几种softmax替代方案，这些方案比最先进的softmax替代方案softmax的混合方案要好得多，效率也更高。

6

[PDF]（PDF格式）

语言模型行为：一项综合调查

泰勒·A·张B.卑尔根

计算机科学、语言学

计算语言学

2023

本文讨论了在特定任务微调之前对英语语言模型行为的250多个最新研究，综合了最新的结果，以突出当前关于大型语言模型功能的已知内容，从而为应用工作和使用语言模型的邻近领域的研究提供了资源。

36

[PDF]（PDF格式）

Counter-GAP：通过性别模糊代词进行反事实偏见评估

谢忠斌视频Kocijan托马斯·卢卡西维茨Oana-Maria-Camburu公司

计算机科学

欧洲分会会议…

2023

结果表明，四种预训练语言模型在不同性别组之间的不一致性显著高于在每个组内的不一致，并且基于名字的反事实数据增强方法比基于匿名的方法更有效地缓解这种偏见。

1

[PDF]（PDF格式）

JASMINE：用于少镜头学习的阿拉伯语GPT模型

El Moatez Billah Nagoudi公司M.Abdul-Maged先生阿卜杜勒·拉希姆·埃尔马达尼Alcides Alcoba Inciarte公司Md.Tawkat Islam Khondaker

计算机科学、语言学

自然…实证方法会议…

2023

这项工作介绍了JASMINE，这是一套强大的阿拉伯语自回归Transformer语言模型，其大小在3亿到67亿个参数之间，在一个大而多样的数据集上进行了预处理，并仔细设计和发布了一个用于自动评估和人工评估的综合基准。

4

[PDF]（PDF格式）

检测非预期模型偏差的扰动灵敏度分析

维诺德库马尔·普拉巴卡兰B.哈钦森玛格丽特·米切尔

计算机科学

自然…实证方法会议…

2019

提出了一个通用的评估框架——扰动敏感性分析，它可以检测与命名实体相关的非预期模型偏差，并且不需要使用新的注释或语料库。

[PDF]（PDF格式）

当保姆的女人：论语言生成中的偏见

艾米丽·盛Kai-Wei Chang公司P.纳塔拉扬彭南云

语言学、社会学

自然…实证方法会议…

2019

引入了对人口统计学的关注度概念，对不同人口统计学的不同关注度被用作NLG中偏见的定义指标，并分析了情绪得分在多大程度上是关注度的相关代理指标。

[PDF]（PDF格式）

用一般阅读策略提高机器阅读理解

孙凯（Kai Sun）黛玉（Dian Yu）董瑜（Dong Yu）克莱尔·卡迪

计算机科学

美国…协会北美分会…

2019

本文提出了三种旨在提高非牵引性机器阅读理解（MRC）的通用策略，并证明了这些策略的有效性以及包含这些策略的微调模型的通用性和通用性。

[PDF]（PDF格式）

神经网络文本退化的奇怪案例

阿里·霍尔兹曼Jan购买李杜麦克斯韦福布斯Yejin Choi（Yejin Choi）

计算机科学、语言学

国际学习会议…

2020

通过从概率分布的动态核心中抽取文本样本，允许多样性，同时有效地截断分布中不太可靠的尾部，生成的文本更好地展示了人类文本的质量，在不牺牲流畅性和连贯性的情况下提高了多样性。

[PDF]（PDF格式）

语言模型是无监督的多任务学习者

亚历克·拉德福德吴建福R.儿童D.栾达里奥·阿莫迪I.Sutskever公司

计算机科学、语言学

2019

研究表明，当语言模型在一个由数百万个网页组成的新数据集（称为WebText）上进行训练时，在没有任何明确监督的情况下开始学习这些任务，这为构建语言处理系统提供了一条有希望的路径，该系统可以从自然发生的演示中学习执行任务。

通过产前训练提高语言理解能力

亚历克·拉德福德Karthik Narasimhan公司

计算机科学、语言学

2018

一般任务不可知模型的性能优于使用为每个任务专门设计的体系结构的区别训练模型，在所研究的12个任务中有9个改进了现有技术。

否定LAMA：鸟不会飞

诺拉·卡斯纳Hinrich Schütze公司

计算机科学、语言学

arXiv.org网站

2019

研究发现，预处理语言模型同样容易产生事实（“鸟会飞”）和否定（“鸟不会飞”）。

23

朝向Gender-Inclusive Coreference解决方案

杨特里斯塔·曹哈尔·达姆

计算机科学、语言学

…协会年会…

2020

通过对英语文本进行的这些研究，可以确认，在不承认和构建认识到性别复杂性的系统的情况下，作者构建的系统会导致许多潜在的危害。

118

[PDF]（PDF格式）

使用统一的文本到文本转换器探索迁移学习的局限性

科林·拉斐尔诺姆·M·沙泽尔彼得·J·刘

计算机科学、语言学

机器学习研究杂志

2020

这项系统研究比较了几十项语言理解任务的预训练目标、体系结构、未标记数据集、迁移方法和其他因素，并在包括摘要、问答、文本分类等的许多基准上取得了最先进的结果。

13,488

[PDF]（PDF格式）

语言模型作为知识库？

F.彼得罗尼蒂姆·罗克塔舍尔 S.里德尔

计算机科学、语言学

自然…实证方法会议…

2019

对一系列最先进的预处理语言模型中已经存在的关系知识（无需微调）进行深入分析后发现，BERT包含的关系知识与传统的NLP方法相比具有竞争力，后者可以访问一些oracle知识。

1,990

[PDF]（PDF格式）