欧洲药典陆军部:用于高性能文本分类的简单插件数据增强框架

赵敏仪,陆章,易旭,丁建东,关纪宏,水耕洲


摘要
最近的工作已经从经验上证明了数据增强(DA)在NLP任务中的有效性,特别是对于那些遭受数据稀缺的任务。直观地说,考虑到生成数据的大小,它们的多样性和质量对目标任务的执行至关重要。然而,据我们所知,大多数现有方法只考虑增强数据的多样性或质量,因此无法充分挖掘DA对NLP的潜力。在本文中,我们提出了一个简单的插件式数据增强框架EPiDA,以支持有效的文本分类。EPiDA采用两种机制:相对熵最大化(REM)和条件熵最小化(CEM)来控制数据生成,其中REM被设计为增强增强数据的多样性,而CEM被利用来确保它们的语义一致性。EPiDA可以支持高效连续的数据生成,以实现有效的分类器训练。大量实验表明,EPiDA在大多数情况下都优于现有的SOTA方法,尽管没有使用任何代理网络或预训练生成网络,并且它与各种DA算法和分类模型都能很好地工作。
选集ID:
2022.naacl-main.349年
体积:
计算语言学协会北美分会2022年会议记录:人类语言技术
月份:
七月
年份:
2022
地址:
美国西雅图
编辑:
海洋木瓜,玛丽·凯瑟琳·德·马内夫,伊万·弗拉基米尔·梅扎·鲁伊斯
地点:
NAACL公司
SIG公司:
出版商:
计算语言学协会
注:
页:
4742–4752
语言:
网址:
https://acl选集.org/2022.naacl-main.349
内政部:
10.18653/v1/2022.naacl-main.349
比比键:
引用(ACL):
赵敏义、张璐、徐毅、丁建东、关继红、周水耕。2022EPiDA:一种用于高性能文本分类的简单插入式数据增强框架.英寸计算语言学协会北美分会2022年会议记录:人类语言技术,第4742–4752页,美国西雅图。计算语言学协会。
引用(非正式):
EPiDA:一种用于高性能文本分类的简单插件数据增强框架(Zhao等人,NAACL 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.naacl-main.349.pdf
软件:
2022.naacl-main.349.软件.zip
视频:
 https://aclantology.org/2022.naacl-main.349.mp4
数据
AG新闻