×

矩阵文本模型。文本语料库模型。 (俄语。英文摘要) Zbl 1444.68267号

摘要:提出了基于自然语言文本矩阵模型的文本语料库模型。作为建立馆藏模型的方法,我们考虑了馆藏主题结构的计算识别技术。我们建议使用这些模型来搜索主题相似的文本集合以及基于文本模型和文本集合的文本主题分类。分析了所提出的文本集合模型与常用的文本集合分析和建模方法之间的差异。

MSC公司:

68T50型 自然语言处理
68第20页 信息存储和数据检索
91层20 语言学

软件:

单词2vec
PDF格式BibTeX公司 XML格式引用
全文: 内政部 MNR公司

参考文献:

[1] W.B.Croft,D.Metzler,T.Strohman,《搜索引擎:实践中的信息检索》,Addison-Wesley,Boston,2010年,542页。
[2] W.Wu,H.Xiong,Sh.Shekhar,聚类与信息检索,网络理论,应用,11,Springer,纽约,2004,338页·Zbl 1030.68032号
[3] H.Alani,S.Kim,D.E.Millard,M.J.Weal,W.Hall,P.H.Lewis,N.R.Shadbolt,“基于本体论的Web文档知识自动提取”,IEEE智能系统,18:1(2003),14-21·doi:10.1109/MIS.2003.1179189
[4] N.V.Lukashevich,Tezaurusy V zadachah informatsionnogo poiska,MGU,M.,2011年,512页。
[5] T.K.Landauer,D.S.McNamara,S.Dennis,W.Kintsch(编辑),《潜在语义分析手册》,心理学出版社,霍夫出版社,2013年,544页。
[6] D.M.Blei,“概率主题模型”,Communicat。ACM,55:4(2012),77-84·doi:10.1145/2133806.2133826
[7] K.V.Vorontsov,“文本集合主题模型的加性正则化”,Doklady Mathematics,89:3(2014),301-304·Zbl 1358.68242号 ·doi:10.1134/S106456241402085
[8] M.J.Kusner,Y.Sun,N.I.Kolkin,K.Q.Weinberger,“从单词嵌入到文档距离”,Proc。第32届国际机器学习大会(法国里尔,2015),JMLR:W&CP,37,2015,957-966
[9] M.G.Kreines和E.M.Kreine。矩阵文本模型,“文本模型和文本内容的相似性”,MM&CS,2020年·Zbl 1109.58305号 ·doi:10.20948/mm-2020-01-03
[10] T.Mikolov,I.Sutskever,K.Chen,G.S.Corrado,J.Dean,“单词和短语的分布式表示及其组合”,神经信息处理系统进展,2013年,3111-3119
[11] I.S.Misuno,D.A.Rachkovskii,S.V.Slipchenko,“Vektornye I raspredelennye predstavelenia,otrazhaushchie mery semanticheskoi sviazi slov”,马特马奇尼·马西尼,3(2005),50-66
[12] Y.Bengio,R.Ducharme,P.Vincent,C.Jauvin,“神经概率语言模型”,《机器学习研究杂志》,3(2003),1137-1155·Zbl 1061.68157号
[13] Q.Le,T.Mikolov,“句子和文档的分布式表示”,Proc。第31届国际机器学习大会(中国北京,2014),JMLR:W&CP,32,1188-1196,arXiv:
[14] M.G.Kreines,A.A.Afonin,“Klasterizatsiia tekstovykh kollektsii:pomosch pri soderzha-telnom poiske i analiticheskii instrument”,门户网站:soderzhanie i tekhnologii,4,FGU GNII ITT“Informika”,编辑A.N.Tikhonov(pred.)i dr.,Prosveshenie,M.,2007,510-537
[15] M.G.Kreines,“Modeli tekstov i teksto vyh kolliktsii dlia poiska i analyza informatsii”,《Trudy MFTI》,第3期(2017年),第132-142页
[16] M.G.Kreines,E.M.Kreine,“通过使用文献计量学和科学计量学指标对科技出版物质量进行公正评估的参考馆藏选择控制模型”,《计算机科学杂志》J。和系统科学。实习生。,55:5, 750-766 ·兹比尔1384.93018 ·doi:10.1134/S1064230716040092
[17] D.Mimno,H.Wallach,E.Talley,M.Leenders,A.McCallum,“优化主题模型中的语义一致性”,Proc。2011年自然语言处理实证方法大会(英国苏格兰爱丁堡,2011年7月27日至31日),262-272
[18] D.Newman,J.H.Lau,K.Grieser,T.Baldwin,“主题连贯性的自动评估”,《人类语言技术》,《2010年美国语言学会北美分会年度大会》(加州洛杉矶,2010),100-108
[19] D.Newman,Y.Noh,E.Talley,S.Karimi,T.Baldwin,“评估数字图书馆的主题模型”,Proc。美国纽约州纽约市ACM数字图书馆联合会议,2010年,215-224
[20] K.V.Vorontsov,A.A.Potapenko,Additivnaia regulializatatsiia tematicheskih modelei,2014年,22页。
[21] J.Chang,J.Boyd-Graber,S.Gerrish,C.Wang,D.M.Blei,“阅读茶叶:人类如何解释主题模型”,NIPS 2009,288-296
[22] M.G.Kreines,E.M.Kreine,“基于内容相关背景分析的科学文档质量评估对齐控制模型”,国际计算机与系统科学杂志,55:6,938-947·doi:10.1134/S1064230716050099
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。