×

兹马思-数学第一资源

基于剩余能量的文本模型。(英语) Zbl 07370557
摘要:目前大规模的自回归语言模型显示出令人印象深刻的流畅性,并能产生令人信服的文本。在这项工作中,我们首先要问一个问题:这些模型的世代能否通过统计鉴别器可靠地与真实文本区分开来?我们实验发现,当我们有权获得模型的训练数据时,答案是肯定的,即使我们没有,答案也是肯定的。
这表明,通过在生成过程中加入(全局标准化)鉴别器,可以改进自回归模型。我们使用基于能量的模型框架对此给出了一种形式化的形式,并表明它确实改进了生成模型的结果,无论是从困惑程度还是从人类的评价来看。
理学硕士:
68T05型 自适应学习系统
PDF格式 BibTeX公司 XML 引用
全文: 链接
参考文献:
[1] 萨曼尼·阿扎迪、凯瑟琳·奥尔森、特雷弗·达雷尔、伊恩·古德费罗和奥古斯都·奥德纳。鉴别器拒绝采样。国际学习代表大会,2019年。
[2] 亚历克谢·巴耶夫斯基和迈克尔·奥利。神经语言建模的自适应输入表示。国际学习代表大会,2019年。url https://openreview。网络/论坛?id=ByxZX20qFQ。
[3] 塞缪尔·R·鲍曼、卢克·维尔尼斯、奥利尔·温尼尔斯、安德鲁·M·戴、拉法尔·约泽福维奇和萨米·本吉奥。从连续空间生成句子。InSIGNLL会议
[4] 汤姆·布朗、本杰明·曼恩、尼克·赖德、梅兰妮·苏比亚、贾里德·卡普兰、普拉福拉·达里瓦尔、阿文德·尼拉坎坦、普拉纳夫·什亚姆、吉里什·萨斯特里、阿曼达·阿斯克尔等。语言模型是很少有人学习的。内部信息处理系统,2020年。
[5] 马西莫·卡西亚、卢卡斯·卡西亚、威廉·费杜斯、雨果·拉罗谢尔、乔尔·皮诺和劳伦特·查尔林。语言不通。国际学术会议
[6] 米格尔A Carreira Perpinan和Geoffrey E Hinton。论对比发散学习。Aistats,第10卷,第33-40页。Citeseer,2005年。
[7] 扬·多芬,安吉拉·范,迈克尔·奥利,大卫·格兰吉尔。用门控卷积网络进行语言建模。第34届国际会议进展
[八] Cyprien de Masson d'Autume、Shakir Mohamed、Mihaela Rosca和Jack Rae。从零开始训练语言。神经信息处理系统指南,第4300-4311页,2019年。
[9] 雅各布·德夫林、张明伟、李肯顿和克里斯蒂娜·图塔诺娃。伯特:语言理解的深度双向变压器的预培训。美国计算语言学协会,2019年。
[10] 杜伊伦和伊戈尔·摩达奇。基于能量模型的隐式生成与泛化。内部信息处理系统,2019年。
[11] 谢尔盖·爱德华诺夫、迈尔·奥特、迈克尔·奥利、大卫·格兰吉尔和马克·奥雷里奥·兰扎托。序列到序列学习的经典结构预测损失。美国分会
[12] 安吉拉·范、迈克·刘易斯和扬·多芬。分层神经故事生成。计算语言学协会,2018年。
[13] 约夫·弗雷德和罗伯特·E·沙皮雷。在线学习的决策理论推广及其在boosting中的应用。计算机与系统科学杂志,55(1):119-1391997·Zbl 0880.68103
[14] 高瑞琪,杨璐,周俊沛,朱松春,吴应年。通过多重网格建模和采样学习生成式convnets。IEEE会议进展
[15] 塞巴斯蒂安·盖尔曼、亨德里克·斯特罗贝尔特和亚历山大·M·拉什。GLTR:生成文本的统计检测和可视化。计算语言学协会,2019年。
[16] 伊恩·J·古德费罗,让·普吉特·阿巴迪,梅迪·米尔扎,徐冰,大卫·沃德·法利,谢尔吉尔·奥扎尔,亚伦·库尔维尔和尤斯华·本吉奥。生成对抗网。内部的
[17] A、 格雷夫斯和施密杜伯。基于双向lstm和其他神经网络结构的分帧音素分类。神经网络,18(5-6):602--6102005。
[18] 亚历克斯·格雷夫斯。用递归神经网络生成序列。arXiv预印本arXiv:1308.08502013年。
[19] 阿迪蒂亚·格罗弗、宋嘉明、阿列赫·阿加瓦尔、肯尼思·特兰、阿希什·卡普尔、埃里克·霍维茨和斯特凡诺·埃尔蒙。基于似然无重要加权的学习生成模型的偏差校正。内部信息处理系统,2019年。
[20] 迈克尔·古特曼和阿宝·海夫里宁。噪声对比估计:非正态统计模型的一种新的估计原理。第十三届国际博览会·Zbl 1283.62064
[21] Tatsunori B桥本,Hugh Zhang和Percy Liang。自然语言生成的人与统计统一评价。美国计算机协会
[22] 何俊贤、丹尼尔·斯波科尼、格雷厄姆·纽比格和泰勒·伯格·柯克帕特里克。变分自编码器的滞后推理网络和后验崩溃。国际间
[23] 杰弗里·E·辛顿。通过最小化对比差异来训练专家产品。神经计算,14:1771-1800,2002a·Zbl 1010.68111
[24] 杰弗里·辛顿。通过最小化对比差异来训练专家产品。神经计算,14(8):1771-1800,2002b·Zbl 1010.68111
[25] 塞普·霍克雷特和Jürgen Schmidhuber。长短时记忆。神经计算,9(8):1735-17801997。
[26] 阿里·霍兹曼、简·布尔斯、麦克斯韦·福布斯和蔡叶津。神经文字退化的奇怪案例。国际学习表征大会,2020年。
[27] 约翰·霍普菲尔德。具有涌现集体计算能力的神经网络和物理系统。美国国家科学院,第79卷,第2554-25581982页·Zbl 1369.92007号
[28] 丹尼尔·G·霍维茨和多诺万·J·汤普森。有限宇宙中无替换抽样的推广。美国统计协会杂志,1952年。
[29] 达芙妮·伊波利托、丹尼尔·达克沃斯、克里斯·卡利森·伯奇和道格拉斯·艾克。当人类被愚弄时,自动检测生成的文本是最容易的。第58届
[30] Nitish Shirish Keskar、Bryan McCann、Lav R.Varshney、Caiming Xiong和Richard Socher。Ctrl:可控生成的条件转换语言模型。arXiv预印本
[31] 迪德里克·P·金马和吉米·巴。亚当:一种随机优化方法。2015年国际学习代表大会。
[32] Ryan Kiros,Yukun Zhu,Ruslan Salakhutdinov,Richard S Zemel,Antonio Torralba,Raquel Urtasun和Sanja Fidler。跳过思想载体。内部信息处理系统,2015年。
[33] Yann LeCun、Sumit Chopra、Raia Hadsell、Marc'Aurelio Ranzato和Fu Jie Huang。关于基于能量的学习的教程。预测结构性产出,2006年。麻省理工学院出版社。
[34] 彼得·J·刘、穆罕默德·萨利赫、艾蒂安·波特、本·古德里奇、瑞安·塞帕西、卢卡斯·凯泽和诺姆·沙泽尔。通过生成维基百科的长序列进行总结。国际间
[35] Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer和Veselin Stoyanov。贝特训练优化方法:稳健训练。arXiv预印本arXiv:1907.11692,2019年。
[36] 伊利亚·洛希洛夫和弗兰克·赫特。随机梯度下降与热重启。arXiv预印本arXiv:1608.039832016年。
[37] 庄妈和迈克尔·柯林斯。条件模型的噪声对比估计和负采样:一致性和统计效率。自然的经验方法
[38] 斯蒂芬·梅里蒂、熊彩明、詹姆斯·布拉德伯里和理查德·索切尔。指针-哨兵混合模型。2016年国际学习代表大会。
[39] 塞巴斯蒂安·内格尔。抄送新闻。http://web.archive.org/save/http://commoncrawl.org/2016/10/新闻数据集可用/,2016年。
[40] Subhajit Naskar、Amirmohammad Rooshenas、Simeng Sun、Mohit Iyer和Andrew McCallum。基于能量的重新排列:使用基于能量的模型改进神经机器翻译。arXiv预印本arXiv:2009.132672020年。
[41] Erik Nijkamp,Mitch Hill,Song Chun Zhu,和Ying Nian Wu。基于能量模型学习非收敛非持续短期mcmc。神经信息中的无意识
[42] 塞巴斯蒂安·诺沃辛。减损证据近似:关于重要性加权的自编码器和刀式变分推理。国际学术会议
[43] Myle Ott,Sergey Edunov,Alexei Baevski,Angela Fan,Sam Gross,Nathan Ng,David Grangier和Michael Auli。fairseq:一个快速、可扩展的序列建模工具箱。
[44] 阿特·B·欧文。蒙特卡罗理论、方法和实例。2013.网址https://statweb。斯坦福大学。埃杜/欧文/mc/。第九章。
[45] 泰蒂亚娜·帕沙科娃,让-马克·安德烈奥利和马克·戴梅特曼。数据有效序列学习的全局自回归模型。论计算自然语言
[46] 拉兹万·帕斯卡努、托马斯·米科洛夫和约书亚·本吉奥。关于训练递归神经网络的困难。国际机器学习会议,第1310-13182013页。
[47] Adam Paszke、Sam Gross、Soumith Chintala、Gregory Chanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。Pythorch中的自动微分。内部信息处理系统,2017年。
[48] Alec Radford和Jeff Wu,2019年。统一资源定位地址https://github.com/openai/gpt-2-outputdataset/blob/master/README.md。
[49] 亚历克·拉德福德、杰弗里·吴、雷文·查尔德、大卫·卢安、达里奥·阿莫迪和伊利亚·萨茨克弗。语言模型是无监督的多任务学习者。OpenAI博客,1(8),2019年。
[50] M、 兰扎托、V.Mnih、J.Susskind和G.E.Hinton。使用门控mrfs对自然图像进行建模。IEEE传输。模式分析与机器智能,35(9):2206-2222202013。
[51] Marc'Aurelio Ranzato,Y-Lan Boureau,Sumit Chopra和Yann LeCun。一个统一的基于能量的无监督学习框架。第11届国际人工气候研讨会
[52] 马克·奥雷里奥·兰扎托、苏米特·肖普拉、迈克尔·奥利和沃伊切赫·扎勒巴。用递归神经网络进行序列级训练。国际学术会议
[53] 布莱恩·罗克、穆拉特·萨拉克拉尔和迈克尔·柯林斯。区分n元语言建模。计算机语音与语言,21(2):373-3922007。
[54] 罗森菲尔德,陈士丹利,朱晓津。整句指数语言模型:语言统计整合的工具。计算机语音与语言,15
[55] 迈克·舒斯特和K·帕利瓦尔·库尔迪普。双向递归神经网络。信号处理,IEEE会刊,45(11):2673-2681997。
[56] 托马斯·西亚洛姆、保罗·亚历克西斯·德雷、西尔万·兰普里耶、本杰明·皮沃沃斯基和雅各布·斯塔亚诺。冷干:用谨慎的抽样策略驯服语言的甘语。arXiv预印本arXiv:2006.046432002。
[57] 里科·森里奇、巴里·哈多和亚历山德拉·伯奇。具有子词单位的稀有词的神经机器翻译。计算语言学协会,2016年。
[58] 沈立彬,阿诺普·萨卡尔,弗朗茨·约瑟夫·奥奇。机器翻译中的区分重排。非人道语言技术会议北美分会
[59] 伊利亚·萨茨克弗、奥利奥·维尼亚尔和库克·维勒。用神经网络进行序列到序列学习。神经信息处理系统指南,第3104-31122014页。
[60] Y、 W.Teh,M.Welling,S.Osindero,和Hinton G.E.稀疏过完备表示的基于能量的模型。机器学习研究杂志,4:1235-1260,2003·Zbl 1139.68401
[61] Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoret、Llion Jones、Aidan N Gomez、Łukasz Kaiser和Illia Polosukhin。你只需要专心。神经方面的无意识
[62] P、 维奥拉和琼斯先生。鲁棒的实时目标检测。IJCV,2001年。
[63] 王斌和欧志坚。神经跨维随机场语言建模。2017年IEEE自动语音识别和理解研讨会(ASRU),第294-300页。IEEE,2017年。
[64] 王斌和欧志坚。基于动态噪声对比估计的神经跨维随机场语言模型的改进训练。2018年IEEE口语
〔65〕 王斌和欧志坚。基于噪声对比估计的神经跨维随机场语言模型学习。2018年IEEE声学、语音和信号处理国际会议(ICASSP),第6134-6138页。IEEE,2018b。
[66] 王斌,欧志坚,谭志强。语言建模的跨维随机场。计算协会第53届年会综述
[67] 王斌,欧志坚,谭志强。学习跨维随机场及其在语言建模中的应用。IEEE模式分析与机器汇刊
[68] 肖恩·韦立克、伊利亚·库利科夫、斯蒂芬·罗尔、艾米莉·迪南、赵京铉和杰森·韦斯顿。神经文本生成与不太可能的训练。国际学术会议
〔69〕 谢建文,杨璐,宋春竹,吴英年。生成转换理论。国际机器学习会议,第2635-26442016页。
[70] 谢建文,宋春竹,吴应年。利用时空生成转换网合成动态模式。《ieee计算机视觉与模式识别会议论文集》,第7093-71012017页。
[71] 谢建文、郑子龙、高瑞琪、王文冠、朱松春、吴应年。用于三维形状综合与分析的学习描述网络。正在进行
[72] 谢建文,宋春竹,吴应年。基于学习能量的动态模式时空生成转换网。模式分析和
[73] 余兰涛,张渭南,王军,余勇。具有策略梯度的序列生成对抗网。第三届首届人工智能AAAI大会,2017年。
[74] 罗恩·泽勒、阿里·霍尔茨曼、汉娜·拉什金、约纳坦·比斯克、阿里·法尔哈迪、弗兰齐斯卡·罗斯纳和蔡叶津。防范神经性假新闻。内部信息处理系统,2009年a。
[75] 罗恩·泽勒、阿里·霍尔茨曼、汉娜·拉什金、约纳坦·比斯克、阿里·法尔哈迪、弗兰齐斯卡·罗斯纳和蔡叶津。防范神经性假新闻。2009年欧洲信息处理系统公司。
[76] 张休、丹尼尔·达克沃斯、达芙妮·伊波利托和阿文·尼拉坎坦。在自然语言生成过程中牺牲多样性和质量。arXiv预印本arXiv:2004.104502020。
[77] 亚历山大凯利,张彦博,还有张君博。敌方正则化自动编码器。2018年国际机器学习大会。
[78] 朱育昆、瑞安·基罗斯、里奇·泽梅尔、罗斯兰·萨拉赫图季诺夫、拉奎尔·乌尔塔松、安东尼奥·托拉尔巴和桑贾·菲德勒。把书和电影结合起来:通过看电影和看书来达到故事般的视觉解释。在IEEE国际会议上
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。