×

双代数范畴合成分布语义中自然语言的广义量词理论。 (英语) Zbl 1422.68227号

范畴合成分布语义是自然语言的一种模型;它将单词的统计向量空间模型与语法的合成模型相结合。由于Barwise和Cooper,我们在这个模型中正式化了自然语言的广义量词理论。基本设置是一个带有双代数的紧闭范畴。我们从生成语法形式化开始,为其开发抽象的分类组合语义,然后将抽象设置实例化为集合和关系,实例化为有限维向量空间和线性映射。我们证明了关系实例化与广义量词的真值论语义的等价性。向量空间实例化形式化了单词的统计用法,并首次使我们能够在分布语义中对量化短语和句子进行组合推理。

MSC公司:

68T50型 自然语言处理
03B65号 自然语言逻辑
91层20 语言学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ajdukiewicz,K.(1935年)。syntaktische konnexitat模具。哲学研究11-27。
[2] Bar-Hillel,Y.(1953年)。用于句法描述的准算术符号。语言2947-58·Zbl 0156.25402号
[3] Bar-Hillel,Y.、Gaifman,C.和Shamir,E.(1960年)。关于范畴语法和短语结构语法。以色列研究委员会公报9F,1-16·Zbl 0158.25306号
[4] Barwise,J.和Cooper,R.(1981年)。广义量词和自然语言。语言学和哲学4159-219·Zbl 0473.03033号
[5] Bonchi,F.、Sobocinski,P.和Zanasi,F.(2014)。相互作用的双代数是Frobenius。收录于:Muscholl,A.(编辑)FoSSaCS 2014年会议记录,第8412卷,格勒诺布尔,弗朗西斯普林格,351-365·Zbl 1395.18009号
[6] Bullinaria,J.A.和Levy,J.P.(2007)。从单词共现统计中提取语义表示:一项计算研究。行为研究方法39510-526。
[7] Buszkowski,W.(1988)。范畴语法的生成力。收录于:Oehrle,R.、Bach,E.和Wheeler,D.(编辑)《分类语法和自然语言结构》,《语言学和哲学研究》,第32卷,施普林格荷兰,69-94。
[8] Buszkowski,W.(2001)。基于前组的Lambek语法。收录于:《计算语言学的逻辑方面》,《计算机科学讲义》,第2099卷,施普林格-柏林-海德堡,95-109·Zbl 0990.03021号
[9] Chomsky,N.(1956年)。语言描述的三种模式。IRE信息理论交易2113-124·Zbl 0156.25401号
[10] Clark,S.、Coecke,B.和Sadrzadeh,M.(2008)。意义的组合分布模型。In:Bruza,P.,Lawless,W.,Coecke,B.(eds.),牛津大学第二届量子相互作用研讨会论文集,学院出版物,133-140。
[11] Clark,S.、Coecke,B.和Sadrzadeh,M.(2013)。关系代词的弗罗贝尼乌斯解剖学。收录:Kornai,A.,Kuhlmann,M.(编辑),第13届语言数学会议(MoL)。,保加利亚索非亚,ACL,41-51·Zbl 1376.03028号
[12] Clark,S.和Purman,S.(2007年)。结合了意义的象征和分配模式。In:Bruza,P.,Lawless,W.,van Rijsbergen,C.J.(编辑)AAAI量子相互作用春季研讨会论文集,技术报告SS-07-08,斯坦福大学,AAAI出版社,52-55。
[13] Coecke,B.、Grefenstette,E.和Sadrzadeh,M.(2013)。Lambek vs.Lambek:Lambek演算的函数向量空间语义和字符串图。《纯粹和应用逻辑年鉴》164(11)1079-1100,第七届逻辑和编程语言游戏研讨会专刊(GaLoP VII)·兹比尔1280.03026
[14] Coecke,B.、Sadrzadeh,M.和Clark,S.(2010年)。分布式意义合成模型的数学基础。兰贝克·费斯特施里夫(Lambek Festschrift)。语言分析36345-384。
[15] Firth,J.(1957)。1930-1955年语言学理论概要。收录:Palmer,F.R.(主编)《语言分析研究——龙门出版社》,168-205年。
[16] Frege,G.(1948年)。关于意义和指称。哲学评论57209-230。
[17] Geffet,M.和Dagan,I.(2005年)。分布包含假说和词汇蕴涵。摘自:计算语言学协会第43届年会会议记录,ACL’05,计算语言学协会,107-114。
[18] Grefenstette,E.、Dinu,G.、Zhang,Y.、Sadrzadeh,M.和Baroni,M.(2013)。用于组合分布语义的多步骤回归学习。在:第十届国际计算语义学会议(IWCS)。后坝。
[19] Grefenstette,E.和Sadrzadeh,M.(2011年)。对意义的分类组合分布模型的实验支持。摘自:自然语言处理经验方法会议论文集,计算语言学41。麻省理工学院出版社1394-1404。
[20] Grefenstette,E.和Sadrzadeh,M.(2015)。意义的分类成分分布模型的具体模型和实证评估。计算语言学4171-118。
[21] 哈里斯,Z(1954)。分配结构。文字10,146-162,劳特利奇。
[22] Kartsaklis,D.(2015)。具有紧致闭范畴的组合分布语义和Frobenius代数。牛津大学计算机科学系博士论文。
[23] Kartsaklis,D.、Kalchbrenner,N.和Sadrzadeh,M.(2014)。解决意义张量回归模型中的词汇歧义。收录于:计算语言学协会第52届年会会议记录,第2卷:短文,2014年6月22日至27日,ACL 2014,美国马里兰州巴尔的摩,212-217。
[24] Kartsaklis,D.和Sadrzadeh,M.(2013)。用于构造句子向量的词张量的事先消歧。在:自然语言处理经验方法会议论文集(EMNLP)计算语言学协会,1590-1601。
[25] Kartsaklis,D.、Sadrzadeh,M.和Purman,S.(2012年)。范畴分布复合语义的统一句子空间:理论和实验。摘自:《第24届国际计算语言学会议论文集》(COLING 2012):Posters,印度孟买,549-558。
[26] Kartsaklis,D.、Sadrzadeh,M.、Pulman,S.和Coecke,B.(2013年)。用紧闭范畴和Frobenius代数推理自然语言中的意义。摘自:Chubb,A.、Eskandarian,J.和Harizanov,V.(编辑)《量子计算和信息中的逻辑和代数结构》,剑桥大学出版社。199-222. ·Zbl 1355.81013号
[27] Kelly,G.和Laplaza,M.(1980)。紧凑闭合类别的一致性。《纯粹与应用代数杂志》19,193-213。http://www.sciencedirect.com/science/article/pii/0022404980901012 ·Zbl 0447.18005号
[28] Kock,A.(1972年)。强函子和单体单子。Archive der Mathematik23113-120·Zbl 0253.18007号
[29] Lambek,J.(1958年)。句子结构的数学。美国数学月刊65154-170·Zbl 0080.00702号
[30] Lambek,J.(1997)。重温了类型语法。收录于:LACL 97会议录,人工智能课堂讲稿,第1582卷,斯普林格出版社。1-27. ·Zbl 0934.03043号
[31] Lambek,J.(2008)。从单词到句子:语法的计算代数方法。脊髓灰质炎·Zbl 1166.03315号
[32] Lambek,J.(2010年)。从语言学到物理学的紧凑单体范畴。收录:科克,B.(编辑)《物理的新结构》,《物理课堂讲稿》,斯普林格出版社,451-469页。
[33] Landauer,T.和Dumais,S.(1997年)。柏拉图问题的解决方案:知识的获取、归纳和表示的潜在语义分析理论。心理回顾104211-240。
[34] Lapesa,G.和Evert,S.(2014年)。分布式语义模型的大规模评估:参数、交互和模型选择。计算语言学协会学报2531-545。
[35] Lin,D.(1998)。相似词的自动检索和聚类。载:《第17届计算语言学国际会议论文集》,第2卷,计算语言学协会,768-774。
[36] Lund,K.和Burgess,C.(1996年)。从词汇共现中生成高维语义空间。行为研究方法仪器与计算机28(2)203-208。
[37] McCurdy,M.(2012)。弱双代数和弱Hopf代数的Tannaka对偶的图解方法。范畴理论与应用26(9)233-280·Zbl 1252.18017号
[38] Milajevs,D.、Kartsaklis,D.、Sadrzadeh,M.和Purver,M.(2014)。评估基于张量的合成设置中的神经单词表示。摘自:《2014年自然语言处理经验方法会议论文集》,计算语言学协会,708-719。
[39] Mitchell,J.和Lapata,M.(2010年)。语义分布模型中的组合。认知科学341388-1439。
[40] Montague,R.(1970年)。英语作为一种正式语言。收录:Visentini,B.(编辑)Linguaggi nella Societyáe nella Tecnica,Edizioni di Comunita,189-224。
[41] Polajnar,T.、Fagarasan,L.和Clark,S.(2014)。减少类型驱动分布语义中张量的维数。摘自:《2014年自然语言处理实证方法会议论文集》,1036-1046。计算语言学协会。
[42] Preller,A.(2013)。从逻辑模型到分配模型。摘自:《第十届量子物理与逻辑国际研讨会论文集》,QPL 2013,Castelldeffels(巴塞罗那),西班牙,7月17日至19日,113-131·Zbl 1464.03034号
[43] Preller,A.(2014)。双产品匕首类别中的自然语言语义。应用逻辑杂志12(1)88-108。https://doi.org/10.1016/j.jal.2013.08.001 ·Zbl 1335.03029号
[44] Preller,A.和Lambek,J.(2007年)。免费紧凑型2类。计算机科学中的数学结构17309-340·Zbl 1151.18007号
[45] Preller,A.和Sadrzadeh,M.(2010年)。贝尔状态和否定句的意义分布模型。收录:Coecke,B.、Panangaden,P.、Selinger,P.(编辑)《第六届量子物理与逻辑QPL研讨会论文集》,牛津大学理论计算机科学电子笔记。141-153. ·Zbl 1347.03056号
[46] Preller,A.和Sadrzadeh,M.(2011年)。前组语法的语义向量模型和功能模型。逻辑语言与信息杂志20419-443·Zbl 1305.03028号
[47] Rubenstein,H.和Goodenough,J.(1965)。同义词的上下文关联。ACM8(10)627-633的通信。
[48] Rypacek,O.和Sadrzadeh,M.(2014)。在范畴组合分布语义中对泛化量词的低级处理。摘自:第二届自然语言与计算机科学国际研讨会(NLCS14)和第一届推理人自然语言服务国际研讨会联合会议记录(NLSR 2014),TR 2014/02,科英布拉大学信息学与系统中心,165-177。
[49] Sadrzadeh,M.、Clark,S.和Coecke,B.(2013)。弗洛贝尼乌斯词义剖析i:主语和宾语关系代词。逻辑与计算杂志231293-1317·Zbl 1320.68207号
[50] Sadrzadeh,M.、Clark,S.和Coecke,B.(2014)。弗洛贝尼乌斯词义剖析2:所有格关系代词。逻辑与计算杂志26785-815·兹比尔1344.68253
[51] Salton,G.、Wong,A.和Yang,C.S.(1975年)。用于自动索引的向量空间模型。ACM18613-620的通信·Zbl 0313.68082号
[52] Schuetze,H.(1998)。自动词义识别。计算语言学24(1)97-123。
[53] Turney,P.D.(2006年)。语义关系的相似性。计算语言学32(3)379-416·Zbl 1234.68434号
[54] van Benthem,J.(1987)。分类语法和lambda演算。在:Skordev,Dimiter G.(编辑)《数理逻辑及其应用》,施普林格出版社,39-60·Zbl 0708.03008号
[55] Weeds,J.、Weir,D.和McCarthy,D.(2004)。词汇分布相似性的特征度量。摘自:《第20届国际计算语言学会议论文集》,COLING’04,计算语言学协会。1015
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。