文件Zbl 1444.68266-zbMATH Open

矩阵文本模型。文本模型和文本内容的相似性。（俄语。英文摘要） Zbl 1444.68266号

材料模型。 32，第1期，31-49（2020年）.

摘要：我们提出了一个自然语言文本的矩阵模型和一个文本内容相似性的定量评估模型。考虑了该模型在搜索相似内容文本中的应用。我们讨论了所提出的矩阵模型和常用的自然语言文本分析和建模方法的差异。

MSC公司：

68T50型	自然语言处理
68第20页	信息存储和数据检索
91层20	语言学

关键词：

自然语言文本；文本内容的相似性；相似性评估；文本模型；文本信息检索

软件：

单词2vec

PDF格式 BibTeX公司 XML格式引用

全文：内政部 MNR公司

参考文献：

[1]	A.Ia.Shaikevich，V.M.Andrushchenko，N.A.Rebetskaia，Distributevno-statisticheskii analiz iazyka russkoi prozy 1850-1870 gg，V.1，Iazyki slavianskoi kultury，M.，2013年，499页。
[2]	T.Mikolov，I.Sutskever，K.Chen，G.S.Corrado，J.Dean，“单词和短语的分布式表示及其组合”，神经信息处理系统进展，2013年，3111-3119
[3]	Q.Le，T.Mikolov，“句子和文档的分布式表示”（中国北京，2014），JMLR:W&C，32:2，第31届国际机器学习大会论文集，1188-1196，arXiv：
[4]	M.G.Kreines，“Modeli tekstov i teksto vyh kolliktsii dlia poiska i analyza informatsii”，《Trudy MFTI》，第3期（2017年），第132-142页
[5]	V.A.Uspenskii，“Predvarenie dlia chitatelei”Novogo literaturnogo obozrenia“k semioticheskip poslaniiam Andrea Nikolaevicha Kolmogorova”，Novoe literaturoe obozrelie，1997年，第24期，第123-215页
[6]	K.V.Anisimovich，K.Yu。Druzhkin，K.A.Zuev，F.R.Minlos，M.A.Petrova，V.P.Selegei，“基于ABBYY综合语言技术的句法和语义解析器”，计算机语言学和智能技术，第十八届国际会议论文集“Dialog 2012”，2012，91-103
[7]	J.Fan，A.Kalyanpur，D.C.Gondek，D.A.Ferrucci，“从文档中自动提取知识”，IBM J.RES.&DEV，56:3/4（2012），5，10 pp·Zbl 1241.62070号
[8]	E.V.Rahilina，Lingvistika konstruktsii，Azbukovnik，M.，2010年，583页。
[9]	O.P.Kuznetsov，V.S.Suhoverov，L.B.Shipilina，“Ontologia kak sistermatizatsia nauchnyh znanii:struktyra，semantika，zadachi”，Trudy konferentsii“Tetechnheskie i programmnie sredstva sistem upravlenia，kontolia i izmerenia”，IPU RAN，M.，2010，762-773
[10]	N.V.Lukashevich，Tezaurusy V zadachah informatsionnogo poiska，MGU，M.，2011年，512页。
[11]	H.Alani，S.Kim，D.E.Millard，M.J.Weal，W.Hall，P.H.Lewis，N.R.Shadbolt，“基于本体论的Web文档知识自动提取”，IEEE智能系统，18:1（2003），14-21·doi:10.1109/MIS.2003.1179189
[12]	N.Loukachevitch，B.Dobrov，“作为俄语自动文档处理资源的社会政治类词表”，《术语》，21:2，特刊“跨语言和领域的术语”（2015），238-263
[13]	D.M.Blei，“概率主题模型”，ACM通讯，55:4（2012），77-84·doi:10.1145/2133806.2133826
[14]	T.K.Landauer，D.S.McNamara，S.Dennis，W.Kintsch（编辑），《潜在语义分析手册》，心理学出版社，霍夫出版社，2013年，544页。
[15]	G.Salton，C.Buckley，“自动文本检索中的术语权重方法”，信息处理与管理，24:5（1988），513-523·doi:10.1016/0306-4573（88）90021-0
[16]	B.Trstenjak，S.Mikac，D.Donko，“基于TF-IDF框架的KNN文本分类”，《Procedia Engineering》，69（2014），1356-1364·doi:10.1016/j.proeng.2014.03.129
[17]	H.C.Wu，R.W.P.Luk，K.F.Wong，K.L.Kwok，“将TF-IDF术语权重解释为做出相关性决策”，《美国计算机学会信息系统交易》，26:3（2008），1-37
[18]	K.V.Vorontsov，“文本集合主题模型的加性正则化”，Doklady Mathematics，89:3（2014），301-304·Zbl 1358.68242号 ·doi:10.1134/S106456241402085
[19]	I.S.Misuno，D.A.Rachkovskii，S.V.Slipchenko，“Vektornye I raspredelennye predstavelenia，otrazhaushchie mery semanticheskoi sviazi slov”，《马特·马西尼》第3期（2005年），第50-66页
[20]	Y.Bengio，R.Ducharme，P.Vincent，C.Jauvin，“神经概率语言模型”，《机器学习研究杂志》，3（2003），1137-1155·Zbl 1061.68157号
[21]	A.N.Kolmogorov，《信息时代》和《算法时代》，Nauka，M.，1987年，304页。
[22]	Y.Bengio，H.Schwenk，J.S.Senècal，F.Morin，J.L.Gauvain，“神经概率语言模型”，机器学习创新，纽约州斯普林格，2006年，137-186
[23]	R.Socher，A.Perelygin，J.Y.Wu，J.Chuang，C.D.Manning，A.Y.Ng，C.Potts，“情感树库语义合成的递归深层模型”，自然语言处理实证方法会议，2013，1631-1642
[24]	K.K.Nicodemsa，B.Elvevág，P.W.Foltzd，M.Rosensteind，C.Diaz-Asperf，D.R.Weinberger，“类别流畅性、潜在语义分析和精神分裂症：候选基因方法”，语言、计算机和认知神经科学，55（2014），182-191
[25]	J.Grimmer，“政治文本的贝叶斯层次主题模型：衡量参议院新闻稿中表达的议程”，《政治分析》。，18:1 (2010), 1-35 ·doi:10.1093/pan/mpp034
[26]	M.D.Conover、B.Goncalves、J.Ratkiewicz、A.Flammini、F.Menczer，“预测推特用户的政治联盟”，《隐私、安全、风险和信任》（PASSAT）和2011年IEEE第三实习医生。赋予。社会计算（SocialCom），IEEE，2011年·doi:10.1109/PASSAT/SocialCom.211.34
[27]	W.Zhu，Ch.Chen，R.B.Allen，“通过中心性和潜在语义分析分析企业社交网络中影响力的传播和概念演变”，《知识发现和数据挖掘的进展》，计算机科学讲义，501220081090-1098·doi:10.1007/978-3-540-68125-0_118
[28]	G.Salton，A.Wong，C.S.Yang，“自动索引的向量空间模型”，《ACM CACM通信》，18:11（1975），613-620·Zbl 0313.68082号 ·数字对象标识代码：10.1145/361219.361220
[29]	Zh公司。Yiu，J.Rong，Zh。志华，“理解bagof-words模型：一个统计框架”，国际机器学习与控制论杂志，1:1-4（2010），43-52
[30]	A.Joulin，E.Grave，P.Bojanowski，T.Mikolov，高效文本分类的技巧包，2016年，5页，arXiv：
[31]	P.Bojanowski，E.Grave，A.Joulin，T.Mikolov，《利用子单词信息丰富单词向量》，2016年，第7页，arXiv：
[32]	Ch.Aswani Kumar，S.Srinivas，“基于潜在语义索引的信息检索性能”，《计算机科学杂志》。并告知。Technol.-技术引用文献，17:3（2009），259-264·doi:10.2498/cit.1001268
[33]	M.J.Kusner，Y.Sun，N.I.Kolkin，K.Q.Weinberger，“从单词嵌入到文档距离”（法国里尔，2015），JMLR:W&CP，37，第32届机器学习国际会议论文集，957-966
[34]	G.Huang，Ch.Guo，M.J.Kusner，Y.Sun，K.Q.Weinberger，F.Sha，“受监督单词移动器的距离”，第30届神经信息处理系统会议（NIPS 2016）（西班牙巴塞罗那，2016），9 pp。
[35]	M.G.Kreines，A.A.Afonin（Patentobladateli），专利na poleznuiu型号60751“Sistema formirovania lingvisticheskih dannyh dlia poiska i analiza tekstovyh documentov”，2007年
[36]	M.G.Kreines，A.A.Afonin（Patentobladateli），专利na poleznuiu型号62263“Sistema formirovania semanticheskih dannyh dlia poiska i analiza tekstovyh documentov”，2007年
[37]	M.G.Kreines，“Informatsionnaia tehnologiia smyslovogo poiska i indeksirovania informatsii v elektronnyh bibliotekah:kluchi ot texta”，诺什尼服务公司v seti Internet，1999，214-218，MGU，M。
[38]	A.Joulin、E.Grave、P.Bojanowski、M.Douze、H.Jegou、T.Mikolov、FastText.zip:压缩文本分类模型，2016年，13页，arXiv：
[39]	H.P.Luhn，“文学信息机械化编码和搜索的统计方法”，《IBM研究与发展杂志》，1:4（1957），309-317·doi:10.1147/rd.14.0309
[40]	C.D.Manning，P.Raghavan，H.Schutze，“评分、术语权重和向量空间模型”，信息检索导论，第6章，剑桥大学出版社，剑桥，2008，100-123·Zbl 1160.68008号 ·doi:10.1017/CBO9780511809071.007
[41]	S.E.Robertson、S.Walker和M.Beaulieu，“实验作为一种生活方式：TREC的Okapi”，信息处理与管理，36（2000），95-108·doi:10.1016/S0306-4573（99）00046-1
[42]	J.H.Lee等人，“基于非负矩阵分解的通用文档自动摘要”，信息处理与管理，45:1（2009），20-34·doi:10.1016/j.ipm.2008.06002
[43]	N.V.Timofeev-Resovskii，Vospominaniia，Vagrius，M.，2008年，397页。
[44]	M.G.Kreines，“知识信息技术和科学电子出版：变化中的世界和变化中的模式”，Elpub 2002年技术互动，第六届国际ICCC/IFIP电子出版会议论文集，Verlag fur Wissenschaft und Forschung，柏林，2002，135-142
[45]	A.A.Petrov、M.G.Kreines、A.A.Afonin，“Semanticheskii poisk nestrukturorovanoni tekstovoi informatsii na estestvennyh iazikah v zadachah organizatsii ekspertizy pri realizatsii nauchno-technicheskih program”，Informatizatsia obtazovania i i i i i-nauki，18:2（2013），54-67
[46]	A.A.Petrov、M.G.Kreines、A.A.Afonin，“Vychislitelnie modeli semantiki tekstovyh istochnikov informatsii dlya informatsionnogo obespechenia nauchno-technicheskoi ekspertizy”，Matematicheskoe modelirovanie，28:6（2016），33-52
[47]	A.Singhal，“现代信息检索：简要概述”，IEEE计算机学会数据工程技术委员会公报，24:4（2001），35-43
[48]	B.Larsen，C.Aone，“使用线性时间文档聚类进行快速有效的文本挖掘”，第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集，1999年，16-22
[49]	G.Salton，《自动文本处理》，Addison-Wesley，纽约州，1989年，543页。
[50]	B.Li，L.Han等人，“文本分类的距离加权余弦相似性度量”，智能数据工程与自动学习，计算机科学讲义，8206，编辑H.Yin等人，2013，611-618·doi:10.1007/978-3-642-41278-3_74
[51]	T.Saracevic，“不一致相关性判断对信息检索测试结果的影响：历史视角”，《图书馆趋势》，56:4（2008），763-783·doi:10.1353/lib.0.000

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

矩阵文本模型。文本模型和文本内容的相似性。（俄语。英文摘要） Zbl 1444.68266号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

矩阵文本模型。文本模型和文本内容的相似性。 （俄语。英文摘要） Zbl 1444.68266号

MSC公司：

关键词：

软件：

参考文献：

矩阵文本模型。文本模型和文本内容的相似性。（俄语。英文摘要） Zbl 1444.68266号