×

一种基于伪布尔优化的语言语料库语义相关性保留子集提取方法。 (英语) Zbl 1461.68237号

自然语言研究中的文本语料库包含数十亿个单词,并且其规模不断扩大,这就产生了用最小的语义变化提取较小子集的问题。设(T={t1,点,T_n})是注释文本语料库中的一组标记(例如单词),具有实值一元和二元属性以及语义相关关系(S^1\in\mathcal{R}^n),(S^2\in\mathcal{R}^n\ timesn})\(X=\{X_1,\ dots,X_n \}\ in \{0,1 \}^n \)是布尔变量,用于表示来自\(T\)的子集。语料库子集提取中语义相关度保持的问题是找到一个最大化(sum\limits{i=1}^ns_i^1{X_i}+sum\limits_{i,j=1}^ns{ij}^2x_ix_j+sum\ limits_{i,j,k=1}^ ns_{ijk}^3x_ix _jx_k\)的“最优”(最小)子集(X\子集T)在属性约束下(这里考虑一个一元和一个二进制属性约束)。将这个NP-hard问题转化为在等价图中求最大流的问题,并用离散拉格朗日迭代法求解。

MSC公司:

68T50型 自然语言处理
90C27型 组合优化
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Yen,T.-H。;吴,J.-C。;Chang,J。;Boisson,J。;Chang,J.,Writeahead:挖掘语料库中的语法模式以辅助写作,(ACL-IJCNLP 2015系统演示会议记录(2015)),139-144
[2] 米勒,D。;Biber,D.,《定量词汇研究中的可靠性评估:语料库设计和构成的影响》,《语料库语言学家》。,20, 1, 30-53 (2015)
[3] Caliskan,A。;布莱森·J·J。;Narayanan,A.,《从语料库自动派生的语义包含类人偏见》,《科学》,3566334183-186(2017)
[4] Aston,G.,《获得口译员的语言:基于语料库的方法》,(《基于语料库斯的口译研究》中的“让路”(2018),斯普林格出版社),83-96
[5] 温,T.-H。;盖西克,M。;Kim,D。;马尔基奇,N。;苏,P.-H。;Vandyke博士。;Young,S.,使用带有卷积句子重新排序的递归神经网络生成对话中的随机语言,arXiv预印本
[6] 克罗斯利,S.A。;达斯卡鲁,M。;McNamarac,D.S.,尺寸有多重要?潜在语义分析和潜在狄利克雷分配中语料库大小和意义的调查,(第30届国际佛罗里达人工智能研究学会会议,FLAIRS 2017(2017),AAAI出版社)
[7] S.O.Ebeling,语料库大小重要吗?用语料库的扩展版本重新审视ENPC案例研究,Nord.J.Engl。螺柱,15,3,33-54(2016)
[8] Lin,H。;Bilmes,J.,《有限词汇语音语料库的优化选择》(国际言语交际协会第十二届年会(2011))
[9] 刘,Y。;Iyer,R。;基尔霍夫,K。;Bilmes,J.、Svitchboard ii和fisver I:高质量有限复杂性英语会话语料库(国际言语交际协会第十六届年会(2015))
[10] 切割,D。;Kupiec,J。;佩德森,J。;Sibun,P.,《实用的部分语言标记器》(第三届应用自然语言处理会议论文集,计算语言学协会(1992)),133-140
[11] 阿加瓦尔,P。;斯特罗根,J。;Del Corro,L。;霍法特,J。;Weikum,G.,diaNED:历时语料库的时间感知命名实体消歧,(计算语言学协会第56届年会论文集(第2卷:短文),第2卷(2018年)),686-693
[12] Hearst,M.A.,从大型文本语料库中自动获取上下位词,(第14届计算语言学会议论文集——第2卷,计算语言学协会(1992年)),539-545
[13] 埃文斯,C。;Yuan,D.,一个用于监督词义消歧的大型语料库(2017)
[14] Poesio,M.,gnome语料库中的语篇注释和语义注释,(2004年ACL语篇注释研讨会论文集,计算语言学协会(2004)),72-79
[15] 加里多·J·M。;拉普拉扎,Y。;Marquina,M。;皮尔曼,A。;Escalada,J.G。;M.á克雷斯波。R。;Armenta,A.,《I3MEDIA语音数据库:用于分析和合成情感语音的三语注释语料库》(LREC,Citeser(2012)),1197-1202
[16] 鲍克,L。;Pearson,J.,《使用专业语言:使用语料库的实用指南》(2002年),Routledge
[17] Tangherlini,T.R。;Leonard,P.,《在伟大的未读之海中拖网:子语料库主题建模和人文研究》,《诗学》,41,6,725-749(2013)
[18] Witten,I.H。;Milne,D.N.,《从维基百科链接获得的语义重述性的有效、低成本测量》(2008),IAAA出版社
[19] E.Y.Ran,D.Yanay,《语义相关的监督学习方法和系统》,美国专利89096482014年12月9日。
[20] 赫尔普什,I。;Prangnawarat,N。;Hayes,C.,链接数据上基于路径的语义相关性及其在单词和实体消歧中的应用,(国际语义网会议(2015),施普林格),442-457
[21] 马雷利,M。;Bentivogli,L。;巴罗尼,M。;Bernardi,R。;梅尼尼,S。;Zamparelli,R.,Semeval-2014任务1:通过语义关联和语篇隐含对完整句子的成分分布语义模型进行评估,(第八届国际语义评估研讨会论文集(Semeval 2014)(2014)),1-8
[22] Boros,E。;Gruber,A.,关于伪布尔函数的求积,arXiv预印本·Zbl 1403.90512号
[23] Billionnet,A。;Minoux,M.,《最大化超模伪布尔函数:超模三次函数的多项式算法》,离散应用。数学。,1985年12月1日至11日·Zbl 0583.90067号
[24] Rhys,J.,《共享固定成本和网络流量的选择问题》,Manag。科学。,17, 3, 200-207 (1970) ·Zbl 0203.52505号
[25] 尚,Y。;Wah,B.W.,解决可满足性问题的基于离散拉格朗日的全局搜索方法,J.Glob。最佳。,12, 1, 61-99 (1998) ·Zbl 0904.90154号
[26] Boriboon,M。;Kriengket,K。;Chootrakool,P。;Phaholphinyo,S。;Purodakananda,S。;Thanakulwarapas,T。;Kosawat,K.,《最佳语料库开发和分析》(2009年亚洲语言处理国际会议(2009),IEEE),322-327
[27] Brown,P.F。;Desouza,P.V.公司。;Mercer,R.L。;Pietra,V.J.D。;Lai,J.C.,自然语言的基于类的n元模型,计算。语言学家。,18, 4, 467-479 (1992)
[28] Mozes,S。;Nikolaev,K。;Nussbaum,Y。;Weimann,O.,(O(n\log\log n))时间内有向平面图的最小割,(第二十届ACM-SIAM离散算法年会论文集(2018),SIAM),477-494·Zbl 1403.68172号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。