@正在进行{rizvi-etal-2021-gcm,title=“{GCM}:生成合成代码混合文本的工具包”,author=“Rizvi、Mohd Sanad Zaki和Srinivasan、Anirudh和Ganu、Tanuja和Choudhury、Monojit和Sunayana Sitaram“,editor=“Gkatzia、Dimitra和Seddah,Djam{\ee}“,booktitle=“计算语言学协会欧洲分会第十六届会议记录:系统演示”,月=四月,年=“2021”,address=“在线”,publisher=“计算语言学协会”,url=“https://aclantology.org/2021.eacl-demos.24",doi=“10.18653/v1/2021.eacl-demos.24”,pages=“205--211”,抽象=“代码混合在世界各地的多语种社区中很常见,由于缺少标记和未标记的数据,因此处理代码混合很有挑战性。我们描述了一种工具,它可以在给定两种语言的并行数据的情况下自动生成代码混合数据。我们实现了两种代码混合语言理论,即等价约束理论和矩阵语言理论生成语言对中所有可能的码迷句,然后对生成的数据进行采样生成自然码迷句。该工具包提供了三种模式:批处理模式、交互式图书馆模式和网络接口,以满足研究人员、语言学家和语言专家的需求。该工具包可用于为预训练模型生成未标记的文本数据,以及可视化代码混合的语言理论。我们计划将该工具包作为开放源代码发布,并通过添加更多语言理论实现、可视化技术和更好的采样技术对其进行扩展。我们希望该工具包的发布将有助于促进对不同语言对中的代码混合进行更多研究。",}
<?xml版本=“1.0”编码=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“rizvi-etal-2021-gcm”><标题信息>GCM:生成合成代码混合文本的工具包</titleInfo><name type=“personal”>Mohd公司萨纳德扎基Rizvi(Rizvi)<角色>作者</角色></name><name type=“personal”><namePart type=“given”>Anirudh</namePart>斯里尼瓦桑<角色>作者</角色></name><name type=“personal”><namePart type=“given”>Tanuja</namePart>加努<角色>作者</角色></name><name type=“personal”>Monojit乔杜里<角色>作者</角色></name><name type=“personal”><namePart type=“given”>苏纳亚纳Sitaram公司<角色>作者</角色></name><originInfo>2021-04发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息><title=计算语言学协会欧洲分会第十六届会议论文集:系统演示</title=</titleInfo><name type=“personal”>迪米特拉格卡齐亚<角色>编辑器</角色></name><name type=“personal”>DjameSeddah(塞达)<角色>编辑器</角色></name><originInfo>计算语言学协会<地点>在线</place></originInfo>会议出版物</relatedItem><abstract>代码混合在世界各地的多语言社区中很常见,由于缺少标记和未标记的数据,因此处理代码混合具有挑战性。我们描述了一种工具,它可以在给定两种语言的并行数据的情况下自动生成代码混合数据。我们实现了两种代码混淆的语言理论,即等价约束理论和矩阵语言理论,以生成语言对中所有可能的代码混淆句子,然后对生成的数据进行采样以生成自然代码混淆句子。该工具包提供了三种模式:批处理模式、交互式图书馆模式和网络接口,以满足研究人员、语言学家和语言专家的需求。该工具包可用于为预训练模型生成未标记的文本数据,以及可视化代码混合的语言理论。我们计划以开源形式发布该工具包,并通过添加更多的语言理论、可视化技术和更好的采样技术来扩展它。我们希望该工具包的发布将有助于促进对不同语言对中的代码混合进行更多研究</摘要>rizvi-etal-2021-gcm10.18653/v1/2021.eacl-demos.24<位置><网址>https://aclcollectory.org/2021.eacl-demos.24</url></位置><部分>2021-04年<扩展单元=“page”><开始>205</开始><end>211</end></范围></部分></mods></modsCollection>
%0会议记录%T GCM:生成合成代码混合文本的工具包%A Rizvi,Mohd Sanad Zaki先生%阿尼鲁德·斯里尼瓦桑%阿加努,塔努加%A Choudhury,Monojit公司%苏娜亚娜·西塔拉姆%迪米特拉·尤卡齐亚%Y Seddah,Djamé%计算语言学协会欧洲分会第16届会议记录:系统演示%D 2021年%4月8日%计算语言学协会%C在线%F rizvi-etal-2021-gcm公司%X代码混合在世界各地的多语言社区中很常见,由于缺少标记和未标记的数据,因此处理它很有挑战性。我们描述了一种工具,它可以在给定两种语言的并行数据的情况下自动生成代码混合数据。我们实现了两种代码混淆的语言理论,即等价约束理论和矩阵语言理论,以生成语言对中所有可能的代码混淆句子,然后对生成的数据进行采样以生成自然代码混淆句子。该工具包提供了三种模式:批处理模式、交互式图书馆模式和网络接口,以满足研究人员、语言学家和语言专家的需求。该工具包可用于为预训练模型生成未标记的文本数据,以及可视化代码混合的语言理论。我们计划将该工具包作为开放源代码发布,并通过添加更多语言理论实现、可视化技术和更好的采样技术对其进行扩展。我们希望此工具包的发布将有助于促进对不同语言对中的代码混合进行更多研究。%R 10.18653/v1/2021.eacl-demos.24号文件%U型https://aclantology.org/2021.eacl-demos.24%U型https://doi.org/10.18653/v1/2021.eacl-demos.24%电话:205-211
降价(非正式)
[GCM:生成合成代码混合文本的工具包](https://aclcollectory.org/2021.eacl-demos.24)(Rizvi等人,EACL 2021)
国际计算语言学协会
- Mohd Sanad Zaki Rizvi、Anirudh Srinivasan、Tanuja Ganu、Monojit Choudhury和Sunayana Sitaram。2021GCM:生成合成代码混合文本的工具包.英寸计算语言学协会欧洲分会第16届会议记录:系统演示,第205-211页,在线。计算语言学协会。