×

基于剩余能量的文本模型。 (英语) Zbl 07370557号

摘要:当前的大规模自动回归语言模型显示出令人印象深刻的流畅性,并能生成令人信服的文本。在这项工作中,我们首先要问一个问题:这些模型的生成能否通过统计鉴别器可靠地与真实文本区分开来?我们通过实验发现,当我们可以访问模型的训练数据时,答案是肯定的,即使我们没有访问,也会谨慎地肯定。
这表明,通过将(全局归一化)鉴别器纳入生成过程,可以改进自回归模型。我们使用基于能量的模型框架对此给出了一种形式主义,并表明它确实改进了生成模型的结果,从困惑和人类评价两方面进行了衡量。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 萨曼妮·阿扎迪、凯瑟琳·奥尔森、特雷弗·达雷尔、伊恩·古德费罗和奥古斯塔斯·奥德纳。鉴别器拒绝采样。2019年国际学习代表大会。
[2] 阿列克谢·巴耶夫斯基和迈克尔·奥利。用于神经语言建模的自适应输入表示。2019年国际学习代表大会。URLhttps://openreview.net/forum?id=ByxZX20qFQ。
[3] Samuel R.Bowman、Luke Vilnis、Oriol Vinyals、Andrew M.Dai、Rafal Jozefowicz和Samy Bengio。从连续空间生成句子。InSIGNLL会议
[4] Tom B Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、Jared Kaplan、Prafulla Dhariwal、Arvind Neelakantan、Pranav Shyam、Girish Sastry、Amanda Askell等。语言模型的学习者很少。神经信息处理系统,2020年。
[5] 马西莫·卡西娅、卢卡斯·卡西亚、威廉·费德斯、雨果·拉罗谢尔、乔尔·皮诺和劳伦特·查林。语言能力不足。国际学习会议
[6] Miguel A Carreira Perpinan和Geoffrey E Hinton。关于对比发散学习。在Aistats中,第10卷,第33-40页。Citeser,2005年。
[7] Yann N Dauphin、Angela Fan、Michael Auli和David Grangier。门限卷积网络的语言建模。第34届国际会议记录
[8] Cyprien de Masson d'Autume、Shakir Mohamed、Mihaela Rosca和Jack Rae。从头开始培训语言组织。《神经信息处理系统进展》,第4300-431199页。
[9] 雅各布·德夫林(Jacob Devlin)、张明伟(Ming Wei Chang)、肯顿·李(Kenton Lee)和克里斯蒂娜·图塔诺娃(Kristina Toutanova)。BERT:用于语言理解的深层双向变压器的预培训。北美计算语言学协会,2019年。
[10] 杜一伦和伊戈尔·莫达奇。基于能量的模型中的隐式生成和泛化。神经信息处理系统,2019年。
[11] 谢尔盖·埃杜诺夫(Sergey Edunov)、迈尔·奥特(Myle Ott)、迈克尔·奥利(Michael Auli)、大卫·格兰吉尔(David Grangier)和马克·阿雷利奥·兰扎托(Marc’Aurelio Ranzato)。序列到序列学习的经典结构化预测损失。北美分会
[12] 安吉拉·范(Angela Fan)、迈克·刘易斯(Mike Lewis)和亚恩·多芬(Yann Dauphin)。层次神经故事生成。计算语言学协会,2018年。
[13] Yoav Freund和Robert E.Schapire。在线学习的决策理论推广及其在助推中的应用。计算机与系统科学杂志,55(1):119-1391997·Zbl 0880.68103号
[14] 高瑞奇(Ruiqi Gao)、杨璐(Yang Lu)、周俊培(Junpei Zhou)、朱松春(Song-Chun Zhu)和吴英年(Ying Nian Wu)。通过多网格建模和采样学习生成卷积。IEEE会议记录
[15] Sebastian Gehrmann、Hendrik Strobelt和Alexander M.Rush。GLTR:生成文本的统计检测和可视化。计算语言学协会,2019年。
[16] Ian J.Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu、David Warde-Farley、Sherjil Ozair、Aaron Courville和Yoshua Bengio。生成性对抗网络。InNeural公司
[17] A.Graves和J.Schmidhuber。基于双向lstm和其他神经网络结构的框架音素分类。神经网络,18(5-6):602--6102005。
[18] 亚历克斯·格雷夫斯。使用递归神经网络生成序列。arXiv预印本arXiv:1308.08502013。
[19] 阿迪蒂亚·格罗弗(Aditya Grover)、宋嘉铭(Jiaming Song)、阿列克·阿加瓦尔(Alekh Agarwal)、肯尼思·特兰(Kenneth Tran)、阿什什·卡普尔(Ashish Kapoor)、埃里克·霍维茨(Eric Horvitz)和。使用无似然重要性加权的学习生成模型的偏差校正。神经信息处理系统,2019年。
[20] 迈克尔·古特曼和阿波·海瓦里宁。噪声控制估计:非正规统计模型的一种新的估计原理。第十三届国际会议记录·Zbl 1283.62064号
[21] Tatsunori B Hashimoto、Hugh Zhang和Percy Liang。统一自然语言生成的人类和统计评估。北美计算协会
[22] 何俊贤(Junsian He)、丹尼尔·斯波科尼(Daniel Spokoyny)、格雷厄姆·纽比格(Graham Neubig)和泰勒·伯格-柯克帕特里克(Taylor Berg-Kirkpatrick)。变分自编码器中的滞后推理网络和后崩溃。InInternational国际
[23] 杰弗里·欣顿(Geoffrey E.Hinton)。通过最小化对比差异来培训专家产品。神经计算,14:1771-18002002a·兹比尔1010.68111
[24] 杰弗里·欣顿。通过最小化对比差异来培训专家产品。神经计算,14(8):1771-18002002b·Zbl 1010.68111号
[25] Sepp Hochreiter和Jürgen Schmidhuber。长短期记忆。神经计算,9(8):1735-17801997。
[26] Ari Holtzman、Jan Buys、Maxwell Forbes和Yejin Choi。神经文字退化的奇怪案例。2020年国际学习代表大会。
[27] 约翰·霍普菲尔德。具有涌现集体计算能力的神经网络和物理系统。美国国家科学院,第79卷,第2554-2558页,1982年·Zbl 1369.92007号
[28] 丹尼尔·霍维茨(Daniel G.Horvitz)和多诺万·汤普森(Donovan J.Thompson)。从有限宇宙中不替换采样的一种推广。《美国统计协会杂志》,1952年·Zbl 0047.38301号
[29] Daphne Ippolito、Daniel Duckworth、Chris Callison-Burch和Douglas Eck。当人类被愚弄时,自动检测生成的文本是最容易的。第58届会议记录
[30] Nitish Shirish Keskar、Bryan McCann、Lav R.Varshney、Caiming Xiong和Richard Socher。Ctrl:用于可控生成的条件转换器语言模型。arXiv预打印
[31] Diederik P Kingma和Jimmy Ba.Adam:一种随机优化方法。在2015年国际学习代表大会上。
[32] Ryan Kiros、Yukun Zhu、Ruslan Salakhutdinov、Richard S Zemel、Antonio Torralba、Raquel Urtasun和Sanja Fidler。跳过思考向量。神经信息处理系统,2015年。
[33] Yann LeCun、Sumit Chopra、Raia Hadsell、Marc’Aurelio Ranzato和Fu Jie Huang。基于能量的学习教程。预测结构性产出,2006年。麻省理工学院出版社。
[34] Peter J Liu、Mohammad Saleh、Etienne Pot、Ben Goodrich、Ryan Sepassi、Lukasz Kaiser和Noam Shazeer。通过总结长序列生成维基百科。InInternational国际
[35] 刘银汉(音)、米勒·奥特(Myle Ott)、纳曼·戈亚尔(Naman Goyal)、杜敬飞(Jingfei Du)、曼达尔·乔希(Mandar Joshi)、陈丹奇(Danqi Chen)、奥马尔·利维(Omer Levy)、迈克·刘易斯(Mike Lewis)、卢克·泽特莫。罗伯塔:一种稳健优化的伯特预训练方法。arXiv预印本arXiv:1907.116922019。
[36] 伊利亚·洛希洛夫和弗兰克·赫特。Sgdr:带热重启的随机梯度下降。arXiv预印arXiv:1608.039832016。
[37] 庄马和迈克尔·柯林斯。条件模型的噪声对比估计和负采样:一致性和统计效率。自然的非经验方法
[38] 斯蒂芬·梅里蒂(Stephen Merity)、熊才明(Caiming Xiong)、詹姆斯·布拉德伯里(James Bradbury)和理查德·索彻(Richard Socher)。指针-哨兵混合模型。2016年国际学习代表大会。
[39] 塞巴斯蒂安·纳格尔。抄送新闻。http://web.archive.org/save/http://commoncrawl.org/2016/10/新闻数据可用/,2016。
[40] Subhajit Naskar、Amirmohammad Rooshenas、Simeng Sun、Mohit Iyyer和Andrew McCallum。基于能量的重新分类:使用基于能量的模型改进神经机器翻译。arXiv预印本arXiv:2009.132672020。
[41] Erik Nijkamp、Mitch Hill、Song-Chun Zhu和Ying Nian Wu。向基于能量的模型学习非收敛非持久短期mcmc。神经信息研究进展
[42] 塞巴斯蒂安·诺沃津。借方证据近似:关于加权自编码器和折刀变分推理。国际学习会议
[43] Myle Ott、Sergey Edunov、Alexei Baevski、Angela Fan、Sam Gross、Nathan Ng、David Grangier和Michael Auli。fairseq:用于序列建模的快速、可扩展的工具包。
[44] 阿特·欧文。蒙特卡罗理论、方法和示例。2013.网址https://statweb。斯坦福大学edu/owen/mc/。第9章。
[45] Tetiana Parshakova、Jean-Marc Andreoli和Marc Dymetman。用于数据高效序列学习的全局自回归模型。计算自然语言会议
[46] Razvan Pascanu、Tomas Mikolov和Yoshua Bengio。关于训练递归神经网络的困难。在2013年国际机器学习会议上,第1310-1318页。
[47] Adam Paszke、Sam Gross、Soumith Chintala、Gregory Chanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动区分。神经信息处理系统,2017年。
[48] Alec Radford和Jeff Wu,2019.网址https://github.com/openai/gpt-2-outputdataset/blob/master/README.md。
[49] 亚历克·拉德福德(Alec Radford)、杰弗里·吴(Jeffrey Wu)、瑞文·查尔德(Rewon Child)、大卫·卢安(David Luan)、达里奥·阿莫迪(Dario Amodei)和伊利亚·萨茨克弗(Ilya Sutskever)。语言模型是无监督的多任务学习者。OpenAI博客,2019年第1(8)期。
[50] M.Ranzato、V.Mnih、J.Susskind和G.E.Hinton。使用门控mrfs建模自然图像。IEEE传输。模式分析与机器智能,35(9):2206-22222013。
[51] Marc’Aurelio Ranzato、Y-Lan Boureau、Sumit Chopra和Yann LeCun。一个统一的基于能量的无监督学习框架。第十一届国际人工智能研讨会
[52] 马克·阿雷里奥·兰扎托(Marc’Aurelio Ranzato)、苏米特·乔普拉(Sumit Chopra)、迈克尔·奥利(Michael Auli)和沃伊西奇·扎伦巴(Wojciech Zaremba)。用递归神经网络进行序列级训练。国际学习会议
[53] Brian Roark、Murat Saracar和Michael Collins。判别n-gram语言建模。计算机语音与语言,21(2):373-3922007。
[54] 罗纳德·罗森菲尔德(Ronald Rosenfeld)、斯坦利·F·陈(Stanley F Chen)和朱晓金(Xiaojin Zhu)。整句指数语言模型:语言统计整合的工具。计算机语音与语言,15
[55] Mike Schuster和K.Paliwal Kuldip。双向递归神经网络。信号处理,IEEE汇刊,45(11):2673-26811997。
[56] 托马斯·西亚罗姆、保罗·阿莱克西斯·德雷、西尔万·兰普利、本杰明·皮沃沃斯基和雅各布·斯塔亚诺。Coldgans:用谨慎的抽样策略驯服语言组织。arXiv预印本arXiv:2006.046432020。
[57] Rico Sennrich、Barry Haddow和Alexandra Birch。带有子单词单元的罕见单词的神经机器翻译。计算语言学协会,2016年。
[58] 沈立斌(Libin Shen)、萨卡(Anoop Sarkar)和奥奇(Franz Josef Och)。机器翻译的歧视性重新分类。北美分会国际人类语言技术会议
[59] 伊利亚·萨茨克弗(Ilya Sutskever)、Oriol Vinyals和Quoc V Le。用神经网络进行序列到序列的学习。《神经信息处理系统进展》,第3104-3112页,2014年。
[60] Y.W.Teh、M.Welling、S.Osindero和Hinton G.E.稀疏超完备表示的基于能量的模型。机器学习研究杂志,4:1235-12602003·Zbl 1139.68401号
[61] 阿什什·瓦斯瓦尼(Ashish Vaswani)、诺姆·沙泽尔(Noam Shazeer)、尼基·帕尔玛(Niki Parmar)、雅各布·乌斯科雷特(Jakob Uszkoreit)、利昂·琼斯(Llion Jones)、艾丹·戈麦斯(Aidan N Gomez)、尤卡斯·凯泽(ukasz Kaiser。注意力是你所需要的。神经研究进展
[62] P.维奥拉和M.琼斯。强大的实时目标检测。IJCV,2001年。
[63] 王斌和欧志坚。神经跨维随机场的语言建模。2017年IEEE自动语音识别与理解研讨会(ASRU),第294-300页。IEEE,2017年。
[64] 王斌和欧志坚。用动态噪声对比估计改进神经网络跨维随机场语言模型的训练。2018年IEEE口语
[65] 王斌和欧志坚。利用噪声对比估计学习神经网络多维随机场语言模型。2018年IEEE声学、语音和信号处理国际会议(ICASSP),第6134-6138页。IEEE,2018年b。
[66] 王斌、欧志坚和谭志强。用于语言建模的多维随机字段。计算协会第53届年会会议记录
[67] 王斌、欧志坚和谭志强。学习跨维随机域及其在语言建模中的应用。IEEE关于模式分析和机器的交易
[68] 肖恩·威勒克、伊莉亚·库利科夫、斯蒂芬·罗勒、艾米莉·迪南、琼亨·赵和杰森·韦斯顿。使用不太可能的训练生成神经文本。国际学习会议
[69] 谢建文(Jianwen Xie)、杨璐(Yang Lu)、朱松春(Song-Chun Zhu)和吴英年(Yingnian Wu)。生成卷积理论。2016年,在国际机器学习会议上,第2635-2644页。
[70] 谢建文(Jianwen Xie)、朱松春(Song-Chun Zhu)和吴颖年(Ying Nian Wu)。利用时空生成卷积网络合成动态模式。《计算机视觉和模式识别ieee会议论文集》,第7093-7101页,2017年。
[71] 谢建文、郑子龙、高瑞奇、王文冠、朱松春和吴英年。学习用于三维形状合成和分析的描述符网络。诉讼程序
[72] 谢建文(Jianwen Xie)、朱松春(Song-Chun Zhu)和吴颖年(Ying Nian Wu)。学习基于能量的动态模式时空生成卷积。IEEE关于模式分析和
[73] 余兰涛、张卫南、王军和余勇。Seqgan:具有策略梯度的序列生成对抗网。2017年第三十届AAAI人工智能会议。
[74] 罗文·泽勒斯、阿里·霍尔兹曼、汉娜·拉什金、约纳坦·比斯克、阿里·法哈迪、弗兰齐斯卡·罗斯纳和叶金·崔。为神经虚假新闻辩护。神经信息处理系统,2019a。
[75] 罗文·泽勒斯、阿里·霍尔兹曼、汉娜·拉什金、约纳坦·比斯克、阿里·法哈迪、弗兰齐斯卡·罗斯纳和叶金·崔。为神经虚假新闻辩护。神经信息处理系统,2019b。
[76] Hugh Zhang、Daniel Duckworth、Daphne Ippolito和Arvind Neelakantan。在自然语言生成中权衡多样性和质量。arXiv预印本arXiv:2004.104502020。
[77] 赵俊博(Junbo Zhao)、金妍儿(Yoon Kim)、张凯丽(Kelly Zhang)、亚历山大·拉什(Alexander M.Rush)和延乐村(Yann LeCun)。反向正则化的自动编码器。2018年机器学习国际会议。
[78] 朱育坤、瑞安·基罗斯、里奇·泽梅尔、鲁斯兰·萨拉库丁诺夫、拉奎尔·厄塔松、安东尼奥·托拉尔巴和桑贾·菲德勒。将书籍和电影对齐:通过观看电影和阅读书籍来实现故事般的视觉解释。在IEEE国际会议上
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。