Eric Wallace |语义学者

使用前校准：提高语言模型的少镜头性能

无限映画埃里克·华莱士石峰D.克莱因萨米尔·辛格

计算机科学

机器学习国际会议

2021年2月19日

这项工作首先通过在给定训练提示和无内容测试输入（如“N/a”）时询问其预测来估计模型对每个答案的偏差，然后拟合校准参数，使该输入的预测在所有答案中一致。

arXiv公司

从大型语言模型中提取训练数据

尼古拉斯·卡里尼弗洛里安电车科林·拉斐尔

计算机科学

USENIX安全研讨会

2020年12月14日

本文证明，在这种情况下，对手可以通过查询语言模型执行训练数据提取攻击来恢复单个训练示例，并发现较大的模型比较小的模型更容易受到攻击。

arXiv公司

攻击和分析NLP的通用对抗触发器

埃里克·华莱士石峰尼基尔·坎帕尔马特·加德纳萨米尔·辛格

计算机科学

自然…实证方法会议…

2019年8月20日

反面例子突出了模型的漏洞，对评估和解释很有用。我们定义了通用对抗触发器：触发…

国际计算语言学协会

InCoder：代码填充和合成的生成模型

弗里德Armen Aghajanyan先生 M.刘易斯

计算机科学

国际学习会议…

2022年4月12日

InCoder引入了一个统一的生成模型，该模型可以执行程序合成（通过从左到右的生成）和编辑（通过填充），并能够根据双向上下文条件大大提高这些任务的性能，同时仍然可以在标准程序合成基准上进行比较。

arXiv公司

预紧变压器提高了配电外的稳健性

丹·亨德里克斯刘晓元埃里克·华莱士亚当·齐耶季奇R.克里希南D.歌曲

计算机科学

…协会年会…

2020年4月13日

本文通过构建一个新的具有实际分布偏移的稳健性基准，系统地度量了七个NLP数据集的分布外泛化（OOD），并度量了以前模型的泛化，发现较大的模型不一定更稳健，蒸馏可能有害，而更多样的预处理数据可以增强鲁棒性。

国际计算语言学协会

从扩散模型中提取训练数据

尼古拉斯·卡里尼杰米·海耶斯埃里克·华莱士

计算机科学

USENIX安全研讨会

2023年1月30日

结果表明，与GAN等先前的生成模型相比，扩散模型的私密性要低得多，要减轻这些漏洞可能需要在隐私保护训练方面取得新的进展。

arXiv公司

NLP模型知道数字吗？嵌入中的数字探索

埃里克·华莱士王一忠李素建萨米尔·辛格马特·加德纳

计算机科学、数学

自然…实证方法会议…

2019年9月17日

这项工作研究了DROP数据集上最先进的问答模型的数字推理能力，发现该模型在需要数字推理的问题上表现出色，即它已经捕获了计算能力。

国际计算语言学协会

神经模型的病理学使解释变得困难

石峰埃里克·华莱士阿尔文·格里索姆二世莫希特·伊耶佩德罗·罗德里格斯乔丹·L·博伊德·格雷伯

计算机科学

自然…实证方法会议…

2018年4月20日

这项工作使用输入减少，从输入中反复删除最不重要的单词，以暴露神经模型的病理行为：其余单词对人类来说似乎没有意义，并且不是通过解释方法确定为重要的单词。

国际计算语言学协会

组合问题不需要多跳推理

Sewon最小值埃里克·华莱士萨米尔·辛格马特·加德纳Hannaneh Hajishirzi公司卢克·泽特莫耶

计算机科学、语言学

协会年会…

2019年6月7日

这项工作引入了一个基于单跳BERT的RC模型，该模型实现了67 F1，与最先进的多跳模型相当，并设计了一个评估环境，在该环境中，人类没有被显示出意图的多跳推理的所有必要段落，但仍然可以回答80%以上的问题。

国际计算语言学协会

利用对比集评价模型的局部决策边界

马特·加德纳约夫·阿尔齐 Ben Zhou（本周）

计算机科学

调查结果

2020年4月6日

NLP的一种更严格的注释范式，有助于缩小测试数据中的系统性差距，并建议数据集作者以较小但有意义的方式手动扰动测试实例，（通常）改变黄金标签，创建对比集。

国际计算语言学协会