×

铭文

swMATH ID: 39723
软件作者: 阿尔伯特·魏希塞尔布劳恩(Albert Weichselbraun)
描述: 铭文-一个基于Python的HTML到文本转换库,针对从Web中提取知识进行了优化。Inscriptis提供了一个库、命令行客户端和Web服务,用于将HTML转换为纯文本。它的开发是因为需要为知识提取任务获取准确的文本表示,从而在不使用重量级、基于浏览器的解决方案(如Selenium)的情况下保持文本的空间对齐。与现有的软件包(如HTML2text、jusText和Lynx)相比,Inscriptis(i)提供了HTML的布局软件转换,更类似于从标准Web浏览器获得的渲染,因此更好地保留了文本元素的空间排列。铭文在转换质量方面表现出色,因为它可以正确地转换复杂的HTML结构,如嵌套表,还可以解释决定文本对齐方式的HTML属性子集。此外,它(ii)支持注释规则,即用户提供的映射,允许根据HTML标记中编码的结构和语义信息以及用于控制原始HTML文档中的结构和布局的属性对提取的文本进行注释。这些独特的功能确保下游知识提取组件可以在准确的文本表示上运行,甚至可以使用原始HTML文档的语义和结构信息(如果启用了注释支持)。
主页: https://pypi.org/project/enciptis网站/
源代码:  https://github.com/weblyzard/encimptis网站
依赖项: 蟒蛇
关键词: 信息检索;arXiv_cs。红外;铭文;蟒蛇;HTML到文本;转换库;Web服务;布局软件转换
相关软件: 手套;扳手;蟒蛇
引用于: 0个文档

标准文章

1出版物描述软件 年份
铭文-一个基于Python的HTML到文本转换库,针对从Web中提取知识进行了优化arXiv公司
阿尔伯特·魏希塞尔布劳恩(Albert Weichselbraun)
2021