阿勒姆利夫

arXMLiv:将arXiv转换为XML+MathML:在过去几年中,出现了各种基于XML、面向内容的web数学和自然科学标记语言,例如OpenMath、content MathML或我们自己的OMDoc和PhysML。这些表示语言专注于数学,并使文档中数学知识的结构足够明确,机器可以对其进行操作。这些面向内容的方法的前景是,涉及到做数学的各种任务(例如搜索、导航、交叉引用、质量控制、用户自适应演示、证明、模拟)都可以由机器支持,因此工作的数学家可以放心地做人类仍然可以做的比机器更好的事情。在arXMLiv项目中,我们试图将arXiv存储库中收集的大量科学知识转化为基于内容的形式,以便我们可以将其作为增值服务的基础。我们使用brucemiller的LaTeXML系统将LaTeX文档转换为带有表示MathML的XHTML/HTML5。LaTeXML是带有可编程XML发射器的TeX解析器的重新实现。该系统的主要优点是我们可以通过为宏提供定制的“LaTeXML绑定”来控制宏扩展。这些指令指示发射器直接构造输出XML,而不是将宏扩展为TeX原语。arXMLiv项目的主要技术任务是为arXiv集合中使用的(数千个)LaTeX类和包提供LaTeXML绑定。为此,我们开发了一个分布式构建系统,该系统在arXiv集合上连续运行LaTeXML,并收集关于最严重缺失的LaTeXML绑定的统计信息。我们处理了超过一半的arXiv集合(一次运行是一个处理器年大小的任务),并且已经有超过60%的成功率(即超过60%的文档在LaTeXML没有注意到错误的情况下运行)。

此软件的关键字

这里的任何内容都将在支持canvas元素的浏览器上被替换