文件Zbl 07370557-zbMATH Open

安东·巴赫金;邓云田;恶心，山姆;米尔·奥特;马克·阿雷里奥·兰扎托;亚瑟·斯拉姆

基于剩余能量的文本模型。（英语） Zbl 07370557号

J.马赫。学习。物件。 22，第40号论文，41页（2021年）.

摘要：当前的大规模自动回归语言模型显示出令人印象深刻的流畅性，并能生成令人信服的文本。在这项工作中，我们首先要问一个问题：这些模型的生成能否通过统计鉴别器可靠地与真实文本区分开来？我们通过实验发现，当我们可以访问模型的训练数据时，答案是肯定的，即使我们没有访问，也会谨慎地肯定。
这表明，通过将（全局归一化）鉴别器纳入生成过程，可以改进自回归模型。我们使用基于能量的模型框架对此给出了一种形式主义，并表明它确实改进了生成模型的结果，从困惑和人类评价两方面进行了衡量。

MSC公司：

68T05型

人工智能中的学习和自适应系统

关键词：

基于能量的模型;文本生成;负采样;重要性抽样;一般化;真/假歧视

软件：

CTRL键;BERT（误码率）;张紧器2传感器;SeqGAN公司;费尔塞克;亚当;PyTorch公司;新加坡存托凭证;GPT-3级

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	萨曼妮·阿扎迪、凯瑟琳·奥尔森、特雷弗·达雷尔、伊恩·古德费罗和奥古斯塔斯·奥德纳。鉴别器拒绝采样。2019年国际学习代表大会。
[2]	阿列克谢·巴耶夫斯基和迈克尔·奥利。用于神经语言建模的自适应输入表示。2019年国际学习代表大会。URLhttps://openreview.net/forum？id=ByxZX20qFQ。
[3]	Samuel R.Bowman、Luke Vilnis、Oriol Vinyals、Andrew M.Dai、Rafal Jozefowicz和Samy Bengio。从连续空间生成句子。InSIGNLL会议
[4]	Tom B Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、Jared Kaplan、Prafulla Dhariwal、Arvind Neelakantan、Pranav Shyam、Girish Sastry、Amanda Askell等。语言模型的学习者很少。神经信息处理系统，2020年。
[5]	马西莫·卡西娅、卢卡斯·卡西亚、威廉·费德斯、雨果·拉罗谢尔、乔尔·皮诺和劳伦特·查林。语言能力不足。国际学习会议
[6]	Miguel A Carreira Perpinan和Geoffrey E Hinton。关于对比发散学习。在Aistats中，第10卷，第33-40页。Citeser，2005年。
[7]	Yann N Dauphin、Angela Fan、Michael Auli和David Grangier。门限卷积网络的语言建模。第34届国际会议记录
[8]	Cyprien de Masson d'Autume、Shakir Mohamed、Mihaela Rosca和Jack Rae。从头开始培训语言组织。《神经信息处理系统进展》，第4300-431199页。
[9]	雅各布·德夫林（Jacob Devlin）、张明伟（Ming Wei Chang）、肯顿·李（Kenton Lee）和克里斯蒂娜·图塔诺娃（Kristina Toutanova）。BERT：用于语言理解的深层双向变压器的预培训。北美计算语言学协会，2019年。
[10]	杜一伦和伊戈尔·莫达奇。基于能量的模型中的隐式生成和泛化。神经信息处理系统，2019年。
[11]	谢尔盖·埃杜诺夫（Sergey Edunov）、迈尔·奥特（Myle Ott）、迈克尔·奥利（Michael Auli）、大卫·格兰吉尔（David Grangier）和马克·阿雷利奥·兰扎托（Marc’Aurelio Ranzato）。序列到序列学习的经典结构化预测损失。北美分会
[12]	安吉拉·范（Angela Fan）、迈克·刘易斯（Mike Lewis）和亚恩·多芬（Yann Dauphin）。层次神经故事生成。计算语言学协会，2018年。
[13]	Yoav Freund和Robert E.Schapire。在线学习的决策理论推广及其在助推中的应用。计算机与系统科学杂志，55（1）：119-1391997·Zbl 0880.68103号
[14]	高瑞奇（Ruiqi Gao）、杨璐（Yang Lu）、周俊培（Junpei Zhou）、朱松春（Song-Chun Zhu）和吴英年（Ying Nian Wu）。通过多网格建模和采样学习生成卷积。IEEE会议记录
[15]	Sebastian Gehrmann、Hendrik Strobelt和Alexander M.Rush。GLTR：生成文本的统计检测和可视化。计算语言学协会，2019年。
[16]	Ian J.Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu、David Warde-Farley、Sherjil Ozair、Aaron Courville和Yoshua Bengio。生成性对抗网络。InNeural公司
[17]	A.Graves和J.Schmidhuber。基于双向lstm和其他神经网络结构的框架音素分类。神经网络，18（5-6）：602--6102005。
[18]	亚历克斯·格雷夫斯。使用递归神经网络生成序列。arXiv预印本arXiv:1308.08502013。
[19]	阿迪蒂亚·格罗弗（Aditya Grover）、宋嘉铭（Jiaming Song）、阿列克·阿加瓦尔（Alekh Agarwal）、肯尼思·特兰（Kenneth Tran）、阿什什·卡普尔（Ashish Kapoor）、埃里克·霍维茨（Eric Horvitz）和。使用无似然重要性加权的学习生成模型的偏差校正。神经信息处理系统，2019年。
[20]	迈克尔·古特曼和阿波·海瓦里宁。噪声控制估计：非正规统计模型的一种新的估计原理。第十三届国际会议记录·Zbl 1283.62064号
[21]	Tatsunori B Hashimoto、Hugh Zhang和Percy Liang。统一自然语言生成的人类和统计评估。北美计算协会
[22]	何俊贤（Junsian He）、丹尼尔·斯波科尼（Daniel Spokoyny）、格雷厄姆·纽比格（Graham Neubig）和泰勒·伯格-柯克帕特里克（Taylor Berg-Kirkpatrick）。变分自编码器中的滞后推理网络和后崩溃。InInternational国际
[23]	杰弗里·欣顿（Geoffrey E.Hinton）。通过最小化对比差异来培训专家产品。神经计算，14:1771-18002002a·兹比尔1010.68111
[24]	杰弗里·欣顿。通过最小化对比差异来培训专家产品。神经计算，14（8）：1771-18002002b·Zbl 1010.68111号
[25]	Sepp Hochreiter和Jürgen Schmidhuber。长短期记忆。神经计算，9（8）：1735-17801997。
[26]	Ari Holtzman、Jan Buys、Maxwell Forbes和Yejin Choi。神经文字退化的奇怪案例。2020年国际学习代表大会。
[27]	约翰·霍普菲尔德。具有涌现集体计算能力的神经网络和物理系统。美国国家科学院，第79卷，第2554-2558页，1982年·Zbl 1369.92007号
[28]	丹尼尔·霍维茨（Daniel G.Horvitz）和多诺万·汤普森（Donovan J.Thompson）。从有限宇宙中不替换采样的一种推广。《美国统计协会杂志》，1952年·Zbl 0047.38301号
[29]	Daphne Ippolito、Daniel Duckworth、Chris Callison-Burch和Douglas Eck。当人类被愚弄时，自动检测生成的文本是最容易的。第58届会议记录
[30]	Nitish Shirish Keskar、Bryan McCann、Lav R.Varshney、Caiming Xiong和Richard Socher。Ctrl：用于可控生成的条件转换器语言模型。arXiv预打印
[31]	Diederik P Kingma和Jimmy Ba.Adam：一种随机优化方法。在2015年国际学习代表大会上。
[32]	Ryan Kiros、Yukun Zhu、Ruslan Salakhutdinov、Richard S Zemel、Antonio Torralba、Raquel Urtasun和Sanja Fidler。跳过思考向量。神经信息处理系统，2015年。
[33]	Yann LeCun、Sumit Chopra、Raia Hadsell、Marc’Aurelio Ranzato和Fu Jie Huang。基于能量的学习教程。预测结构性产出，2006年。麻省理工学院出版社。
[34]	Peter J Liu、Mohammad Saleh、Etienne Pot、Ben Goodrich、Ryan Sepassi、Lukasz Kaiser和Noam Shazeer。通过总结长序列生成维基百科。InInternational国际
[35]	刘银汉（音）、米勒·奥特（Myle Ott）、纳曼·戈亚尔（Naman Goyal）、杜敬飞（Jingfei Du）、曼达尔·乔希（Mandar Joshi）、陈丹奇（Danqi Chen）、奥马尔·利维（Omer Levy）、迈克·刘易斯（Mike Lewis）、卢克·泽特莫。罗伯塔：一种稳健优化的伯特预训练方法。arXiv预印本arXiv:1907.116922019。
[36]	伊利亚·洛希洛夫和弗兰克·赫特。Sgdr：带热重启的随机梯度下降。arXiv预印arXiv:1608.039832016。
[37]	庄马和迈克尔·柯林斯。条件模型的噪声对比估计和负采样：一致性和统计效率。自然的非经验方法
[38]	斯蒂芬·梅里蒂（Stephen Merity）、熊才明（Caiming Xiong）、詹姆斯·布拉德伯里（James Bradbury）和理查德·索彻（Richard Socher）。指针-哨兵混合模型。2016年国际学习代表大会。
[39]	塞巴斯蒂安·纳格尔。抄送新闻。http://web.archive.org/save/http://commoncrawl.org/2016/10/新闻数据可用/，2016。
[40]	Subhajit Naskar、Amirmohammad Rooshenas、Simeng Sun、Mohit Iyyer和Andrew McCallum。基于能量的重新分类：使用基于能量的模型改进神经机器翻译。arXiv预印本arXiv:2009.132672020。
[41]	Erik Nijkamp、Mitch Hill、Song-Chun Zhu和Ying Nian Wu。向基于能量的模型学习非收敛非持久短期mcmc。神经信息研究进展
[42]	塞巴斯蒂安·诺沃津。借方证据近似：关于加权自编码器和折刀变分推理。国际学习会议
[43]	Myle Ott、Sergey Edunov、Alexei Baevski、Angela Fan、Sam Gross、Nathan Ng、David Grangier和Michael Auli。fairseq：用于序列建模的快速、可扩展的工具包。在
[44]	阿特·欧文。蒙特卡罗理论、方法和示例。2013.网址https://statweb。斯坦福大学edu/owen/mc/。第9章。
[45]	Tetiana Parshakova、Jean-Marc Andreoli和Marc Dymetman。用于数据高效序列学习的全局自回归模型。计算自然语言会议
[46]	Razvan Pascanu、Tomas Mikolov和Yoshua Bengio。关于训练递归神经网络的困难。在2013年国际机器学习会议上，第1310-1318页。
[47]	Adam Paszke、Sam Gross、Soumith Chintala、Gregory Chanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动区分。神经信息处理系统，2017年。
[48]	Alec Radford和Jeff Wu，2019.网址https://github.com/openai/gpt-2-outputdataset/blob/master/README.md。
[49]	亚历克·拉德福德（Alec Radford）、杰弗里·吴（Jeffrey Wu）、瑞文·查尔德（Rewon Child）、大卫·卢安（David Luan）、达里奥·阿莫迪（Dario Amodei）和伊利亚·萨茨克弗（Ilya Sutskever）。语言模型是无监督的多任务学习者。OpenAI博客，2019年第1（8）期。
[50]	M.Ranzato、V.Mnih、J.Susskind和G.E.Hinton。使用门控mrfs建模自然图像。IEEE传输。模式分析与机器智能，35（9）：2206-22222013。
[51]	Marc’Aurelio Ranzato、Y-Lan Boureau、Sumit Chopra和Yann LeCun。一个统一的基于能量的无监督学习框架。第十一届国际人工智能研讨会
[52]	马克·阿雷里奥·兰扎托（Marc’Aurelio Ranzato）、苏米特·乔普拉（Sumit Chopra）、迈克尔·奥利（Michael Auli）和沃伊西奇·扎伦巴（Wojciech Zaremba）。用递归神经网络进行序列级训练。国际学习会议
[53]	Brian Roark、Murat Saracar和Michael Collins。判别n-gram语言建模。计算机语音与语言，21（2）：373-3922007。
[54]	罗纳德·罗森菲尔德（Ronald Rosenfeld）、斯坦利·F·陈（Stanley F Chen）和朱晓金（Xiaojin Zhu）。整句指数语言模型：语言统计整合的工具。计算机语音与语言，15
[55]	Mike Schuster和K.Paliwal Kuldip。双向递归神经网络。信号处理，IEEE汇刊，45（11）：2673-26811997。
[56]	托马斯·西亚罗姆、保罗·阿莱克西斯·德雷、西尔万·兰普利、本杰明·皮沃沃斯基和雅各布·斯塔亚诺。Coldgans:用谨慎的抽样策略驯服语言组织。arXiv预印本arXiv：2006.046432020。
[57]	Rico Sennrich、Barry Haddow和Alexandra Birch。带有子单词单元的罕见单词的神经机器翻译。计算语言学协会，2016年。
[58]	沈立斌（Libin Shen）、萨卡（Anoop Sarkar）和奥奇（Franz Josef Och）。机器翻译的歧视性重新分类。北美分会国际人类语言技术会议
[59]	伊利亚·萨茨克弗（Ilya Sutskever）、Oriol Vinyals和Quoc V Le。用神经网络进行序列到序列的学习。《神经信息处理系统进展》，第3104-3112页，2014年。
[60]	Y.W.Teh、M.Welling、S.Osindero和Hinton G.E.稀疏超完备表示的基于能量的模型。机器学习研究杂志，4:1235-12602003·Zbl 1139.68401号
[61]	阿什什·瓦斯瓦尼（Ashish Vaswani）、诺姆·沙泽尔（Noam Shazeer）、尼基·帕尔玛（Niki Parmar）、雅各布·乌斯科雷特（Jakob Uszkoreit）、利昂·琼斯（Llion Jones）、艾丹·戈麦斯（Aidan N Gomez）、尤卡斯·凯泽（ukasz Kaiser。注意力是你所需要的。神经研究进展
[62]	P.维奥拉和M.琼斯。强大的实时目标检测。IJCV，2001年。
[63]	王斌和欧志坚。神经跨维随机场的语言建模。2017年IEEE自动语音识别与理解研讨会（ASRU），第294-300页。IEEE，2017年。
[64]	王斌和欧志坚。用动态噪声对比估计改进神经网络跨维随机场语言模型的训练。2018年IEEE口语
[65]	王斌和欧志坚。利用噪声对比估计学习神经网络多维随机场语言模型。2018年IEEE声学、语音和信号处理国际会议（ICASSP），第6134-6138页。IEEE，2018年b。
[66]	王斌、欧志坚和谭志强。用于语言建模的多维随机字段。计算协会第53届年会会议记录
[67]	王斌、欧志坚和谭志强。学习跨维随机域及其在语言建模中的应用。IEEE关于模式分析和机器的交易
[68]	肖恩·威勒克、伊莉亚·库利科夫、斯蒂芬·罗勒、艾米莉·迪南、琼亨·赵和杰森·韦斯顿。使用不太可能的训练生成神经文本。国际学习会议
[69]	谢建文（Jianwen Xie）、杨璐（Yang Lu）、朱松春（Song-Chun Zhu）和吴英年（Yingnian Wu）。生成卷积理论。2016年，在国际机器学习会议上，第2635-2644页。
[70]	谢建文（Jianwen Xie）、朱松春（Song-Chun Zhu）和吴颖年（Ying Nian Wu）。利用时空生成卷积网络合成动态模式。《计算机视觉和模式识别ieee会议论文集》，第7093-7101页，2017年。
[71]	谢建文、郑子龙、高瑞奇、王文冠、朱松春和吴英年。学习用于三维形状合成和分析的描述符网络。诉讼程序
[72]	谢建文（Jianwen Xie）、朱松春（Song-Chun Zhu）和吴颖年（Ying Nian Wu）。学习基于能量的动态模式时空生成卷积。IEEE关于模式分析和
[73]	余兰涛、张卫南、王军和余勇。Seqgan：具有策略梯度的序列生成对抗网。2017年第三十届AAAI人工智能会议。
[74]	罗文·泽勒斯、阿里·霍尔兹曼、汉娜·拉什金、约纳坦·比斯克、阿里·法哈迪、弗兰齐斯卡·罗斯纳和叶金·崔。为神经虚假新闻辩护。神经信息处理系统，2019a。
[75]	罗文·泽勒斯、阿里·霍尔兹曼、汉娜·拉什金、约纳坦·比斯克、阿里·法哈迪、弗兰齐斯卡·罗斯纳和叶金·崔。为神经虚假新闻辩护。神经信息处理系统，2019b。
[76]	Hugh Zhang、Daniel Duckworth、Daphne Ippolito和Arvind Neelakantan。在自然语言生成中权衡多样性和质量。arXiv预印本arXiv：2004.104502020。
[77]	赵俊博（Junbo Zhao）、金妍儿（Yoon Kim）、张凯丽（Kelly Zhang）、亚历山大·拉什（Alexander M.Rush）和延乐村（Yann LeCun）。反向正则化的自动编码器。2018年机器学习国际会议。
[78]	朱育坤、瑞安·基罗斯、里奇·泽梅尔、鲁斯兰·萨拉库丁诺夫、拉奎尔·厄塔松、安东尼奥·托拉尔巴和桑贾·菲德勒。将书籍和电影对齐：通过观看电影和阅读书籍来实现故事般的视觉解释。在IEEE国际会议上

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

基于剩余能量的文本模型。（英语） Zbl 07370557号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

基于剩余能量的文本模型。 （英语） Zbl 07370557号

MSC公司：

关键词：

软件：

参考文献：

基于剩余能量的文本模型。（英语） Zbl 07370557号