×

词性标注及其在数学中的应用。数学中的文本分析。 (英语) Zbl 1304.68180号

Watt,Stephen M.(编辑)等人,《智能计算机数学》。2014年7月7日至11日在葡萄牙科英布拉举行的2014年国际会议。诉讼程序。柏林:施普林格出版社(ISBN 978-3-319-08433-6/pbk)。计算机科学课程讲稿8543。《人工智能课堂讲稿》,213-223(2014)。
摘要:科学出版物的内容分析是一项重要的任务,但对于科学信息服务来说却是一项有用且重要的任务。在古腾堡时代,它是人类专家的领域;在数字时代,已经开发了许多基于机器的方法,例如图形分析工具和机器学习技术。自然语言处理(NLP)是一种强大的机器学习方法,用于半自动语音和语言处理,也适用于数学。NLP的成熟方法必须根据数学的特殊需要进行调整,特别是处理数学公式。我们演示了一个具有数学意识的词性标记器,并简要概述了我们对数学出版物的NLP方法的改编。我们展示了在数据库zbMATH中为关键短语提取和分类开发的工具的使用。
关于整个系列,请参见[Zbl 1293.68035号].

MSC公司:

68T50型 自然语言处理
68T05型 人工智能中的学习和自适应系统
68单位15 文本处理的计算方法;数学排版
68单位35 信息系统的计算方法(超文本导航、接口、决策支持等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 数据库zbMATH,http://www.zentralblatt-math.org/zbmath/
[2] 数学学科分类(MSC 2010),http://www.msc2010.org
[3] 圣托里尼,B.:宾夕法尼亚州树库项目演讲标签指南(第三次修订,第二次印刷)(1990年6月),ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz
[4] Schöneberg,U.,Sperber,W.:DeLiVerMATH项目:数学中的文本分析。作者:Carette,J.、Aspinall,D.、Lange,C.、Sojka,P.、Windsteiger,W.(编辑)CICM 2013。LNCS(LNAI),第7961卷,第379-382页。斯普林格,海德堡(2013),http://arxiv.org/pdf/1306.6944.pdf ·Zbl 1270.68363号 ·doi:10.1007/978-3-642-39320-4_33
[5] Nguyen,T.D.,Kan,M.-Y.:科学出版物中的关键词提取。在:Goh,D.H.-L.,Cao,T.H.,Sølvberg,I.T.,Rasmussen,E.(编辑)ICADL 2007。LNCS,第4822卷,第317–326页。斯普林格,海德堡(2007)·Zbl 05269483号 ·doi:10.1007/978-3-540-77094-7_41
[6] Hall,M.、Frank,E.、Holmes,G.、Pfahringer,B.、Reutemann,P.、Witten,I.H.:WEKA数据挖掘软件:更新。SIGKDD探索11(1)(2009)·Zbl 05740105号 ·数字对象标识代码:10.1145/1656274.1656278
[7] 维基百科撰稿人,“索引术语”,维基百科》,《自由百科全书》(2014年1月13日),http://en.wikipedia.org/wiki/Index_term
[8] Platt,J.C.:使用序列最小优化快速训练支持向量机。麻省理工学院出版社,剑桥(1999)
[9] Samuelsson,C.,Voutilainen,A.:比较语言标记和随机标记。摘自:计算语言学协会第35届年会会议记录,第246-253页(1997)·数字对象标识代码:10.3115/976909.979649
[10] 数学百科全书,http://www.encyclopediaofmath.org/index.php/Main_Page ·邮编:1185.00007
[11] 平面路径,http://planetmath.org/
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。