Finite-state脚本规范化和处理实用程序:N个伊萨巴B类婆罗门图书馆

西布·约翰尼,劳伦斯·沃尔夫·桑金,亚历山大·古特金,布莱恩·罗克


摘要
本文介绍了一个开源库,用于对十个主要的南亚婆罗门脚本进行高效的低级别处理。该库提供了一个灵活且可扩展的框架,用于支持婆罗门脚本上的关键操作,例如NFC、视觉规范化、可逆音译和有效性检查,这些操作是在有限状态转换器形式中用Python实现的。我们调查了一些可能对下游NLP任务的性能产生不利影响的常见梵文脚本问题,并为有限状态设计和系统实现细节提供了理论基础。
选集ID:
2021.每个演示。3
体积:
计算语言学协会欧洲分会第16届会议记录:系统演示
月份:
四月
年份:
2021
地址:
在线的
编辑:
迪米特拉·格卡齐亚,杰梅·塞达
地点:
EACL公司
信号:
出版商:
计算语言学协会
注:
页:
14–23
语言:
网址:
https://aclantology.org/2021.eacl-demos.3
内政部:
10.18653/v1/2021.每个演示。3
比比键:
引用(ACL):
西布·约翰尼(Cibu Johny)、劳伦斯·沃尔夫·桑金(Lawrence Wolf-Sonkin)、亚历山大·古特金(Alexander Gutkin)和布莱恩·罗克(Brian Roark),2021年。Finite-state脚本规范化和处理实用程序:Nisaba Brahmic库.英寸计算语言学协会欧洲分会第16届会议记录:系统演示,第14-23页,在线。计算语言学协会。
引用(非正式):
Finite-state脚本规范化和处理实用程序:Nisaba Brahmic库(Johny等人,EACL 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.eacl-demos.3.pdf
数据
达克希纳