GCM: A Toolkit for Generating Synthetic Code-mixed Text

Mohd Sanad Zaki Rizvi; Anirudh Srinivasan; Tanuja Ganu; Monojit Choudhury; Sunayana Sitaram

doi:10.18653/v1/2021.eacl-demos.24

GCM公司：生成合成代码混合文本的工具包

穆罕默德·萨纳德·扎基·里兹维，阿尼鲁德·斯里尼瓦桑，塔努贾·加努，Monojit Choudhury公司，Sunayana Sitaram公司

摘要

代码混合在世界各地的多语言社区中很常见，由于缺少标记和未标记的数据，因此处理代码混合具有挑战性。我们描述了一种工具，它可以在给定两种语言的并行数据的情况下自动生成代码混合数据。我们实现了两种代码混淆的语言理论，即等价约束理论和矩阵语言理论，以生成语言对中所有可能的代码混淆句子，然后对生成的数据进行采样以生成自然代码混淆句子。该工具包提供了三种模式：批处理模式、交互式图书馆模式和网络接口，以满足研究人员、语言学家和语言专家的需求。该工具包可用于为预训练模型生成未标记的文本数据，以及可视化代码混合的语言理论。我们计划将该工具包作为开放源代码发布，并通过添加更多语言理论实现、可视化技术和更好的采样技术对其进行扩展。我们希望这个工具包的发布将有助于促进对不同语言对中的代码混合进行更多的研究。

选集ID：: 2021.每个演示24
音量：: 计算语言学协会欧洲分会第16届会议记录：系统演示
月份：: 四月
年份：: 2021
地址：: 在线的
编辑：: 迪米特拉·格卡齐亚，杰梅·塞达
地点：: EACL公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 205–211
语言：
网址：: https://aclantology.org/2021.eacl-demos.24
内政部：: 10.18653/v1/2021.eacl-demos.24版
比比键：
引用（ACL）：: Mohd Sanad Zaki Rizvi、Anirudh Srinivasan、Tanuja Ganu、Monojit Choudhury和Sunayana Sitaram。2021GCM：生成合成代码混合文本的工具包.英寸计算语言学协会欧洲分会第16届会议记录：系统演示，第205-211页，在线。计算语言学协会。
引用（非正式）：: GCM：生成合成代码混合文本的工具包（Rizvi等人，EACL 2021）
复制引文：
PDF格式：: https://aclcollectory.org/2021.eacl-demos.24.pdf

PDF格式引用搜索