A Novel Mathematical Formula for Retrieval Algorithm

Qin, Yuping; Karimi, Hamid Reza; Zhang, Aihua; Leng, Qiangkui

doi:https://doi.org/10.1155/2014/859157

工程中的数学问题

在本页上

摘要介绍实验结果结论致谢工具书类版权相关文章

特别发行

复杂动态系统网络控制的新趋势：理论与应用

查看此特刊

研究文章|开放式访问

体积2014|文章ID859157|https://doi.org/10.1155/2014/859157

一种新的检索算法数学公式

秦玉平,¹哈米德·雷萨·卡里米,²张爱华,¹和强魁冷³

学术编辑：赵旭东

收到2014年1月6日

认可的2014年1月23日

出版2014年3月26日

摘要

提出了一种检索LaTeX文档中数学公式的方法。首先，根据LaTeX描述，用二叉树表示检索到的数学公式，对二叉树的结构进行规范化，获取结构码，然后在数学公式数据库中搜索由二叉树前两级的结构码和公式元素命名的数学公式表。如果表存在，则搜索表中二进制树的规范化变量名预排序遍历序列，并显示包含数学公式的文档信息。实验结果表明，该算法实现了LaTeX文档中数学公式的检索，具有较高的检索精度和较快的检索速度。

1.简介

随着互联网和数字图书馆的迅速发展，越来越多的包含数学公式的文档存储在计算机上。为了快速共享和交流这些文档，数学公式的在线检索受到了广泛关注，并已成为一个重要的研究领域。

文本检索技术已经相对成熟[1–7]. 然而，如何有效地检索文档中的数学公式仍然是一个正在研究的问题[8]. 以及一些控制思想，例如数据驱动[9–13]和系统开关[14–17]，也已为此雇用。Lee和Wang[18]提出了一个数学公式重组系统，但该系统不能处理多行数学公式以及更复杂的单行数学公式。Fateman等人[19]设计了一个数学公式重组系统，但该系统只能重组固定格式的积分表。Zanibbi等人[20–22]提出的方法可以对扫描图像中的公式取得良好的效果，并支持自动评估识别性能。尽管如此，这些方法无法使用两个或多个修饰符分析表达式。数学阅读器[23]能够识别更多种类的数学表达式；然而，它还没有达到实际应用的程度。

数学公式的描述方法主要包括MathML、LaTeX和图像。其中，LaTeX广泛用于编辑科学论文、书籍、文件、学位论文、手稿、个人信件和各种复杂的符号公式。此外，其他格式的文档可以轻松转换为LaTeX格式。因此，提出了一种检索LaTeX文档中数学公式的方法。

论文的其余部分组织如下。章节2给出了数学公式的二叉树描述。章节3介绍了数据库的设计。章节4详细描述了我们的数学公式检索方法。实验结果见第节5第节概述了结论6.

2.数学公式的二叉树表示

2.1. 二叉树的构造

由于显著的结构特征，LaTeX形式的复杂数学公式可以划分为多个子表达式，然后每个子表达式可以划分为更小的子表达式。我们重复该过程，直到没有留下可折叠的组件。最后的子表达式称为公式元素。

运算符有三个操作数，例如“，”这与其顶部区域、底部区域和右侧区域有密切关系。我们通过添加操作符“link”将其与右侧子表达式结合

我们从左到右遍历带有“link”的公式元素字符串，生成公式元素的优先级列表，然后根据数学公式的结构特征和优先级列表获得数学公式的二叉树表示。二叉树的数据结构如表所示1.

我们使用递归方法获得公式元素的二叉树表示。首先创建优先级最低的元素根，然后根据公式元素字符串中根元素之前的元素创建左子树。因此，右子树可以由公式元素字符串中根元素之后的元素创建。

对于每个节点，其元素类别和组合可以由公式元素确定。每个节点的高度可以通过以下公式计算：哪里是节点的高度，是节点左子节点的高度，并且是节点的右子节点的高度。

例如，对于数学公式，其LaTeX形式为(总和[i=1][10] 一个i+x（i+x）乘以y时间z）次数（x乘以y+y时间z）。相应的二叉树表示如图所示1.

2.2. 规范化处理

由于某些算子满足交换律，即对于这些操作数，可以随机交换它们以构成不同的数学表达式；这些表达的意思是相同的。但值得注意的是，相应的二叉树的结构可能不同。因此，必须对结构不同但意义相同的二叉树进行规范化。我们按照预先的顺序遍历二叉树，如果公式元素的类别是OPS，并且左孩子的高度高于右孩子的高度，则交换节点的左子树和右子树。图2显示了对应于图1.

对二叉树进行规范化后，通过按后序遍历二叉树，可以生成每个节点的结构代码。节点“node”的结构代码可按以下方式获得：哪里是节点左子节点的结构代码是节点的右子节点的结构代码。

注意，数学表达式的变量名与公式含义无关。对于给定的结构二叉树，我们可以根据给定的遍历顺序得到其相应的公式元素序列。为了使序列唯一，我们仍然需要规范化序列中的所有变量名。规范化方法是使用一组固定的变量名来连续替换公式元素序列中标记为“VAR”的每个公式元素。

3.数据库设计

数学公式检索数据库包含两种表：一种是文档信息表，另一种是公式信息表。其结构如表所示2和3.公式信息表的命名规则如下：哪里是根的公式元素，是根的左子级的公式元素，并且是根的右子级的公式元素。

具有相同信息的数学公式（包括结构代码、根的公式元素、左孩子的公式元素和右孩子的元素）存储在表中。

4.检索算法

对于检索到的数学公式，我们通过其LaTeX格式创建相应的二叉树表示，对二叉树的结构进行规范化后得到结构代码，然后在公式数据库中搜索以结构代码命名的公式信息表和二叉树前两层的公式元素。如果表存在，我们会在表中找到二叉树的预排序遍历序列。检索算法的详细描述如下。

步骤1。对于候选测试LaTeX文档，提取所有数学公式以获取检索到的公式集公式=然后转到步骤2.

第2步。如果公式非空，然后拿出一个公式从公式，创建其二叉树表示，并对二叉树的结构进行规范化以获得二叉树.导线按预先排序并规范化变量名以获得遍历序列并转至步骤3; 否则，转到步骤8.

步骤3。根据(2). 让T_name; 转到步骤4.

步骤4。在公式数据库中搜索名为T_name的数据表。如果表存在，请转至步骤5; 否则，转到步骤7.

步骤5。。对于每个非左侧节点，如果其元素类别为OPS，并且左侧子节点和右侧子节点的高度相同，则交换其左侧和右侧子树。按预定顺序遍历树并规范化变量名以获得相应的遍历序列。如果序列不存在于，然后将序列添加到.最后，得到公式元素序列集并转至步骤6.

步骤6。搜索与相同的公式元素序列()在表中。如果存在，输出包含公式的文档信息; 否则，转到步骤7.

第7步。如果根的元素类别是OPS，并且其左子元素和右子元素的高度相同，则交换和在T_name中并转至步骤3; 否则，转到步骤2.

步骤8。结束。

5.实验结果

为了验证所提方法对不同类型数学公式的有效性，我们从500篇用英文和中文撰写的研究论文中收集了1138个不同的数学公式。我们根据LaTeX描述用二叉树表示每个数学公式，并对二叉树的结构进行规范化，得到结构码。我们将规范化变量名的前序遍历序列保存到由二叉树前两级的结构代码和公式元素命名的公式信息表中。我们同时将这些文档信息保存到文档信息表中。

计算实验是在Pentium 2.0上进行的 G带2.0 MB内存、Windows XP SP3和ACCESS 2007。精确度、召回率和值用于评估算法的检索性能：哪里是在检索结果中正确检索到的数学公式数，是应检索但未出现在检索结果中的数学公式的数量，以及不应检索但出现在检索结果中的数学公式数。

为了验证该方法的性能，根据表修改了一些数学公式4.

在实验中，检索次数为2016次；平均准确率为96.35%，平均召回率为95.38%，平均值为96.86%，检索时间为378 毫秒。

实验结果表明，该方法具有较高的检索精度。关键原因是该方法实现了语义检索。如果检索到的数学公式的语义与目的数学公式相同，则对二叉树的结构进行归一化后，二叉树的相应结构是一致的。即使目标数学公式存在于多个二叉树表示中，在规范化变量名后，二叉树的至少一个预序遍历序列与检索到的数学公式相同。该方法检索速度快。关键原因是该方法搜索由二叉树前两级的结构代码和公式元素命名的表。如果该表存在于数学公式数据库中，则搜索表中检索到的数学公式的预排序遍历序列。

6.结论

基于数学公式的二叉树表示，介绍了一种LaTeX文档的数学公式检索方法。实验结果表明，该算法不仅实现了数学公式的语义检索，而且具有较高的检索精度和较快的检索速度。离线检索的结果表明，所提出的方法同样适用于在线情况。现有检索系统的缺点是在求解LaTeX文档中的数学公式时无法检索到。如何在PDF文档和WORD文档中检索数学公式将是我们今后的研究工作。

利益冲突

作者声明，本论文的出版不存在利益冲突。

致谢

本研究部分得到了国家自然科学基金（编号：61304149）、波兰-挪威研究计划（项目编号：Pol-Nor/200957/47/2013）、中国辽宁省自然科学基金会（编号：201202003）和大学新世纪优秀人才计划（编号：NCET-11-1005）的支持。

工具书类

T.C.Hoad和J.Zobel，“识别版本化和剽窃文件的方法”美国信息科学与技术学会杂志2003年，第54卷，第3期，第203-215页。
查看位置：发布者网站|谷歌学者
A.Chowdhury、O.Frieder、D.Grossman和M.C.McCabe，“用于快速检测重复文档的收集统计信息，”美国计算机学会信息系统汇刊2002年，第20卷，第2期，第171–191页。
查看位置：发布者网站|谷歌学者
J.Zobel和A.Moffat，“探索相似空间”ACM SIGIR论坛1998年，第32卷，第1期，第18-34页。
查看位置：谷歌学者
A.Si、H.V.Leong和R.W.Lau，《检查：文件剽窃检测系统》美国计算机学会应用计算研讨会论文集第70-77页，1997年。
查看位置：谷歌学者
鲍建平，沈建友，刘晓东，宋庆斌，“自然语言文本拷贝检测研究”软件杂志2003年，第14卷，第10期，第1753-1760页。
查看位置：谷歌学者
赵俊杰和胡晓刚，“基于段落词频统计的学术论文剽窃判断方法”计算机技术与发展第19卷，第231-233页，2009年。
查看位置：谷歌学者
N.Kang、A.Gelbukh和S.Han，“PPChecker:文档副本检测中的剽窃模式检查器”文本、演讲和对话，第4188卷，共页计算机科学讲义，第661–667页，2006年。
查看位置：谷歌学者
郭永胜、黄立中、刘春平、蒋晓红，《自动数学表达式理解系统》第九届文件分析与识别国际会议（ICDAR’07）会议记录第719-723页，巴西巴拉那，2007年9月。
查看位置：发布者网站|谷歌学者
S.Yin、S.X.Ding、A.H.A.Sari和H.Hao，“随机系统的数据驱动监测及其在间歇过程中的应用”国际系统科学杂志，第44卷，第7期，第1366–1376页，2013年。
查看位置：发布者网站|谷歌学者|Zentralblatt数学
S.Yin、S.X.Ding、A.Haghani、H.Hao和P.Zhang，“基准田纳西-伊士曼过程的基本数据驱动故障诊断和过程监控方法的比较研究”过程控制杂志，第22卷，第9期，第1567-1581页，2012年。
查看位置：发布者网站|谷歌学者
S.Yin、H.Luo和S.Ding，“通过性能优化实时实现容错控制系统，”IEEE工业电子学报第61卷，第5期，第2402–2411页，2013年。
查看位置：发布者网站|谷歌学者
S.Yin、G.Wang和H.R.Karimi，“风力涡轮机稳健故障检测系统的数据驱动设计”机电一体化, 2013.
查看位置：发布者网站|谷歌学者
S.Yin、X.Yang和H.R.Karimi，“用于故障诊断的数据驱动自适应观测器”工程中的数学问题，第2012卷，文章ID 832836，21页，2012年。
查看位置：发布者网站|谷歌学者|Zentralblatt数学
X.Zhao，X.Liu，S.Yin和H.Li，“关于连续切换正线性系统稳定性的改进结果”Automatica公司, 2013.
查看位置：发布者网站|谷歌学者
X.Zhao、P.Shi和L.Zhang，“一类慢切换线性系统的异步切换控制”系统和控制信件2012年，第61卷，第12期，第1151-1156页。
查看位置：发布者网站|谷歌学者|Zentralblatt数学
X.Zhao，L.Zhang，P.Shi，“一类切换正线性时滞系统的稳定性”国际鲁棒非线性控制杂志2013年，第23卷，第5期，第578–589页。
查看位置：发布者网站|谷歌学者
X.Zhao，L.Zhang，P.Shi和H.Karimi，“具有状态相关不确定性的连续时间系统的鲁棒控制及其在电子电路中的应用”IEEE工业电子学报, 2013.
查看位置：发布者网站|谷歌学者
H.-J.Lee和J.-S.Wang，《数学表达式识别系统的设计》第三届国际文件分析与识别会议记录第2卷，第1084–1087页，加拿大蒙特利尔，1995年8月。
查看位置：发布者网站|谷歌学者
R.J.Fateman、T.Tokuyasu、B.P.Berman和N.Mitchell，“排版数学的光学字符识别和解析”视觉传达与图像表现杂志1996年，第7卷，第1期，第2-15页。
查看位置：发布者网站|谷歌学者
R.Zanibbi、D.Blostein和J.R.Cordy，“使用树变换识别数学表达式”IEEE模式分析和机器智能汇刊2002年，第24卷，第11期，第1455-1467页。
查看位置：发布者网站|谷歌学者
D.Martín-Albo、V.Romero和E.Vidal，《手写文本识别系统中剪枝技术的实验研究》模式识别与图像分析第559–566页，施普林格，纽约州纽约市，美国。
查看位置：谷歌学者
H.M.Twaakyondo和M.Okamoto，“数学表达式的结构分析和识别”，摘自第三届国际文献分析与识别大会论文集第1卷，第430-437页，加拿大蒙特利尔，1995年8月。
查看位置：发布者网站|谷歌学者
J.M.Jin、H.Y.Jiang和Q.R.Wang，“数学表达式识别系统：数学阅读器”中国计算机杂志，第29卷，第11期，第2018–2026页，2006年。
查看位置：谷歌学者

版权

PDF格式下载引文

下载其他格式

订购打印副本

意见

1702

下载

1097

引文