×

添加剂组成的机理。 (英语) Zbl 1456.68218号

小结:添加剂组成[P.W.福尔茨等,“潜在语义分析对语篇连贯性的测量”,《话语过程15》,第2–3期,285–307页(1998;doi:10.1080/01638539809545029);T.K.Landauer公司S.T.Dumais公司,“柏拉图问题的解决方案:知识获取、归纳和表征的潜在语义分析理论”,《心理学》。修订版104,编号211-240(1997;doi:10.1037/0033-295X.104.2.211);J.米切尔M.拉帕塔,“语义分布模型中的组合”,Cognit。科学。34,第8期,1388–1429(2010年;数字对象标识代码:10.1111/j.1551-6709.2010.01106.x)]是一种广泛使用的计算短语意义的方法,它取组成词的向量表示的平均值。在这篇文章中,我们证明了加性组合偏差的上界,这是第一次从机器学习的角度对组合框架进行理论分析。界限是根据搭配强度写的;我们证明,两个连续单词越是排他性地出现在一起,越是准确的单词,就可以保证它们的可加合成近似于自然短语向量。我们的证明依赖于经过经验验证的自然语言数据的属性,并且可以从理论上推导出这样一个假设,即数据是由分层Pitman-Yor过程生成的。该理论支持加法合成作为计算短语含义的合理操作,并提出了改进加法合成的方法,包括:通过满足特定条件的函数转换分布词向量的条目,构造一种新型的向量表示形式,使加法合成对词序敏感,并利用奇异值分解训练词向量。

MSC公司:

68T50型 自然语言处理
60F05型 中心极限和其他弱定理
60G57型 随机测量
62G05型 非参数估计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arora,S.、Li,Y.、Liang,Y.&Ma,T.(2016)。基于pmi的单词嵌入的潜在变量模型方法。计算语言学协会学报,4385-399。
[2] Banea,C.、Chen,D.、Mihalcea,R.、Cardie,C.和Wiebe,J.(2014)。Simcompass:使用深度学习单词嵌入评估跨级别相似性。摘自:SemEval会议记录。
[3] Baroni,M.和Zamparelli,R.(2010年)。名词是向量,形容词是矩阵:在语义空间中表示形容词-名词结构。参见:EMNLP会议记录。
[4] Blacoe,W.和Lapata,M.(2012年)。语义合成中基于向量的表示的比较。参见:EMNLP会议记录。
[5] Blei,D.M.(2012年)。概率主题模型。ACM通讯,55(4),77-84·doi:10.1145/2133806.2133826
[6] Boleda,G.、Baroni,M.、Pham,T.N.和McNally,L.(2013)。内涵只被指称为:分布语义学中的形容词-名词组合。摘自:IWCS会议记录。
[7] 博图,L。;Montavon,G.(编辑);Orr,GB(编辑);Müller,KR(编辑),《随机梯度下降技巧》(2012),柏林
[8] Burger,M.和Neubauer,A.(2001年)。神经网络逼近的误差界。近似理论杂志,112(2),235-250·Zbl 1004.41007号 ·doi:10.1006/jath.2001.3613
[9] Church,K.W.和Hanks,P.(1990年)。词汇联想规范、相互信息和词典编纂。计算语言学,16(1),22-29。
[10] Clarke,D.(2012年)。分布式语义中组合性的上下文理论框架。计算语言学,38(1),41-47·doi:10.1162/COLI_a_00084
[11] Clauset,A.、Shalizi,C.R.和Newman,M.E.J.(2009年)。经验数据中的幂律分布。SIAM评论,51(4),661-703·Zbl 1176.62001号 ·doi:10.1137/07071011
[12] Coecke,B.、Sadrzadeh,M.和Clark,S.(2010年)。意义组成分布模型的数学基础。语言分析,36(1),345-384。
[13] Collobert,R.、Weston,J.、Bottou,L.、Karlen,M.、Kavukcuoglu,K.和Kuksa,P.(2011)。自然语言处理(几乎)从头开始。机器学习研究杂志,12,2493-2537·Zbl 1280.68161号
[14] Corral,A.、Boleda,G.和i Cancho,R.E.(2015)。Zipf词频定律:长文本中的词形与词缀。公共科学图书馆一期,10(7),1-23·doi:10.1371/journal.pone.0129031
[15] Dagan,I.、Pereira,F.和Lee,L.(1994)。基于相似度的单词共现概率估计。In:ACL会议记录·Zbl 0928.68111号
[16] Dinu,G.、Pham,N.T.和Baroni,M.(2013)。合成分布语义模型的一般估计和评估。收录:连续向量空间模型及其组成研讨会论文集。
[17] Duchi,J.、Hazan,E.和Singer,Y.(2011年)。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12,2121-2159·兹比尔1280.68164
[18] Foltz,P.W.、Kintsch,W.和Landauer,T.K.(1998)。用潜在语义分析来衡量语篇连贯性。话语过程,15,285-307·doi:10.1080/01638539809545029
[19] Geman,S.、Bienenstock,E.和Doursat,R.(1992年)。神经网络和偏差/方差困境。神经计算,4(1),1-58·doi:10.1162/neco.1992.4.1.1
[20] Gnecco,G.和Sanguineti,M.(2008年)。通过雷达复杂度近似误差界。应用数学科学,2(4),153-176·Zbl 1169.42320号
[21] Grefenstette,E.和Sadrzadeh,M.(2011年)。对意义的分类组合分布模型的实验支持。参见:EMNLP会议记录。
[22] Guevara,E.(2010年)。分布语义中形容词-名词组合的回归模型。收录:自然语言语义学地理计量模型研讨会论文集。
[23] Gutmann,M.U.和Hyvärinen,A.(2012年)。非正规统计模型的噪声控制估计,应用于自然图像统计。机器学习研究杂志,13(1),207-361·Zbl 1283.62064号
[24] Ha LQ、Sicilia-Garcia,E.I.、Ming,J.和Smith,F.J.(2002)。zipf定律对单词和短语的扩展。收录:《科林学报》。
[25] Halko,N.、Martinsson,P.G.和Tropp,J.A.(2011年)。寻找具有随机性的结构:用于构造近似矩阵分解的概率算法。SIAM评论,53(2),217-288·Zbl 1269.65043号 ·数字对象标识代码:10.1137/090771806
[26] Harris,Z.S.(1954年)。分配结构。单词,10146-162·doi:10.1080/00437956.1954.11659520
[27] Hashimoto,K.、Stenetorp,P.、Miwa,M.和Tsuruoka,Y.(2014)。使用谓词-参数结构联合学习单词表示和合成功能。参见:EMNLP会议记录·Zbl 0978.68126号
[28] Hashimoto,T.、Alvarez-Melis,D.和Jaakkola,T.(2016)。单词嵌入作为语义空间中的度量恢复。计算语言学协会学报,4273-286。
[29] Iyyer,M.、Manjunatha,V.、Boyd Graber,J.和III,H.D.(2015)。深度无序组合与文本分类的句法方法相匹敌。In:ACL会议记录。
[30] Kobayashi,H.(2014),《简化语料库的困惑》。In:ACL会议记录。
[31] 蒂克斯·兰道尔;Ross,N.(编辑),《学习和认知的计算基础:来自LSA的论证》,第41期(2002),剑桥
[32] Landauer,T.K.和Dumais,S.T.(1997年)。柏拉图问题的解决方案:知识获取、归纳和表示的潜在语义分析理论。《心理学评论》,104(2),211·doi:10.1037/0033-295X.104.2.211
[33] Landauer,T.K.、Laham,D.、Rehder,B.和Schreiner,M.E.(1997年)。在不使用语序的情况下,文章的意思能导出到什么程度?潜在语义分析与人类的比较。摘自:认知科学学会年会论文集。
[34] Lebret,R.和Collobert,R.(2014)。通过Hellinger PCA嵌入单词。参见:EACL会议记录。
[35] Levy,O.和Goldberg,Y.(2014年a)。稀疏和明确的单词表达的语言规律。摘自:CoNLL会议记录·Zbl 1053.65506号
[36] Levy,O.和Goldberg,Y.(2014年b)。神经词嵌入作为隐式矩阵分解。发表于:神经信息处理系统(NIPS)27,2177-2185。
[37] Levy,O.、Goldberg,Y.和Dagan,I.(2015)。利用单词嵌入中的经验教训改进分布相似性。计算语言学协会汇刊,3211-225·Zbl 1176.62001号
[38] Melamud,O.、Goldberger,J.和Dagan,I.(2016)。context2vec:使用双向lstm学习通用上下文嵌入。摘自:CoNLL会议记录·Zbl 1280.68161号
[39] Mikolov,T.、Ilya,S.、Chen,K.、Corrado,G.和Dean,J.(2013a)。单词和短语的分布式表示及其合成性。《NIPS’13第26届神经信息处理系统国际会议论文集》(第3111-3119页)。
[40] Mikolov,T.、Yih、Wen-tau和Zweig,G.(2013b)。连续空间词表征的语言规律。摘自:NAACL-HLT会议记录。
[41] Miller,G.A.和Charles,W.G.(1991年)。语义相似性的上下文关联。语言与认知过程,6(1),1-28·doi:10.1080/016909699108406936
[42] Mitchell,J.和Lapata,M.(2008)。基于向量的语义合成模型。摘自:ACL-HLT会议记录·Zbl 1004.41007号
[43] Mitchell,J.和Lapata,M.(2010年)。语义分布模型中的组合。认知科学,34(8),1388-1429·数字对象标识代码:10.1111/j.1551-6709.2010.01106.x
[44] Montemurro,M.A.(2001年)。超越定量语言学中的Zipf-Mandelbrot定律。物理学A:统计力学及其应用,300(3),567-578·Zbl 0978.68126号 ·doi:10.1016/S0378-4371(01)00355-7
[45] Muraoka,M.、Shimaoka,S.、Yamamoto,K.、Watanabe,Y.、Okazaki,N.和Inui,K.(2014)。在具有代表性的合成模型中找出最佳模型。收录:PACLIC会议记录。
[46] Niyogi,P.和Girosi,F.(1999年)。散乱噪声数据函数逼近的泛化界。计算数学进展,10,51-80·Zbl 1053.65506号 ·doi:10.1023/A:1018966213079
[47] Paperno,D.、Pham,N.T.和Baroni,M.(2014)。组合分布语义的实用和语言驱动方法。In:ACL会议记录。
[48] Pennington,J.、Socher,R.和Manning,C.(2014)。手套:单词表示的全局向量。参见:EMNLP会议记录·Zbl 0880.60076号
[49] Pham,N.T.、Kruszewski,G.、Lazaridou,A.和Baroni,M.(2015)。使用c短语模型联合优化词汇和句子任务的单词表示。In:ACL会议记录。
[50] Pitman,J.(2006)。组合随机过程。柏林:Springer-Verlag·Zbl 1103.60004号
[51] Pitman,J.和Yor,M.(1997年)。双参数Pisson-Dirichlet分布由稳定的从属子函数导出。概率年鉴,25855-900·兹标0880.60076 ·doi:10.1214/aop/1024404422
[52] Rothe,S.和Schütze,H.(2015)。自动扩展:将单词嵌入扩展到synset和lexeme的嵌入。摘自:ACL-IJCNLP会议记录。
[53] Socher,R.、Huang,E.H.、Pennin,J.和Manning,C.D.(2011年)。动态池和展开递归自动编码器用于复述检测。NIPS的进展,24801-809。
[54] Socher,R.、Huval,B.、Manning,C.D.和Ng,A.Y.(2012年)。通过递归矩阵-向量空间实现语义合成。参见:EMNLP会议记录。
[55] Stratos,K.、Collins,M.和Hsu,D.(2015)。计数矩阵分解的基于模型的单词嵌入。摘自:ACL-IJCNLP会议记录·Zbl 1280.68161号
[56] Takase,S.、Okazaki,N.和Inui,K.(2016)。组成关系模式的分布式表示。In:ACL会议记录。
[57] Teh,Y.W.(2006)。基于Pitman-Yor过程的分层贝叶斯语言模型。In:ACL会议记录·Zbl 1269.65043号
[58] BNC Consortium(2007)英国国家语料库,第3版(BNC xml版)。由牛津大学计算服务部发布,http://www.natcorp.ox.ac.uk/
[59] Tian,R.、Miyao,Y.和Matsuzaki,T.(2014)。基于依赖的组合语义的逻辑推理。In:ACL会议记录·Zbl 1283.62064号
[60] Tian,R.、Okazaki,N.和Inui,K.(2016)。学习语义和附加成分分布表示。In:ACL会议记录。
[61] Turian,J.、Ratinov,L.A.和Bengio,Y.(2010年)。单词表征:一种简单通用的半监督学习方法。In:ACL会议记录。
[62] Turney,P.D.(2001年)。在网络上挖掘同义词:托福考试中的PMI-IR与LSA。收录:EMCL会议记录·Zbl 1007.68551号
[63] Turney,P.D.和Pantel,P.(2010年)。从频率到意义:语义的向量空间模型。《人工智能研究杂志》,37(1),141-188·Zbl 1185.68765号
[64] Vapnik,V.N.(1995)。统计学习理论的本质。柏林:Springer-Verlag·Zbl 0833.62008号 ·数字对象标识代码:10.1007/978-1-4757-2440-0
[65] Zanzotto,F.M.、Korkontzelos,I.、Fallucchi,F.和Manandhar,S.(2010年)。组合分布语义的线性模型估计。收录:《科林学报》。
[66] Zipf,G.K.(1935年)。语言的心理生物学:动态语言学导论。剑桥:麻省理工出版社。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。