EPiDA: An Easy Plug-in Data Augmentation Framework for High Performance Text Classification

Minyi Zhao; Lu Zhang; Yi Xu; Jiandong Ding; Jihong Guan; Shuigeng Zhou

doi:10.18653/v1/2022.naacl-main.349

欧洲药典我陆军部：用于高性能文本分类的简单插件数据增强框架

摘要

最近的工作已经从经验上证明了数据增强（DA）在NLP任务中的有效性，特别是对于那些遭受数据稀缺的任务。直观地说，考虑到生成数据的大小，它们的多样性和质量对目标任务的执行至关重要。然而，据我们所知，大多数现有方法只考虑增强数据的多样性或质量，因此无法充分挖掘DA对NLP的潜力。在本文中，我们提出了一个简单的插件式数据增强框架EPiDA，以支持有效的文本分类。EPiDA采用两种机制：相对熵最大化（REM）和条件熵最小化（CEM）来控制数据生成，其中REM被设计为增强增强数据的多样性，而CEM被利用来确保它们的语义一致性。EPiDA可以支持高效连续的数据生成，以实现有效的分类器训练。大量实验表明，EPiDA在大多数情况下都优于现有的SOTA方法，尽管没有使用任何代理网络或预训练生成网络，并且它与各种DA算法和分类模型都能很好地工作。

选集ID：: 2022.naacl-main.349年
体积：: 计算语言学协会北美分会2022年会议记录：人类语言技术
月份：: 七月
年份：: 2022
地址：: 美国西雅图
编辑：: 海洋木瓜,玛丽·凯瑟琳·德·马内夫,伊万·弗拉基米尔·梅扎·鲁伊斯
地点：: NAACL公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 4742–4752
语言：
网址：: https://acl选集.org/2022.naacl-main.349
内政部：: 10.18653/v1/2022.naacl-main.349
比比键：
引用（ACL）：: 赵敏义、张璐、徐毅、丁建东、关继红、周水耕。2022EPiDA：一种用于高性能文本分类的简单插入式数据增强框架.英寸计算语言学协会北美分会2022年会议记录：人类语言技术，第4742–4752页，美国西雅图。计算语言学协会。
引用（非正式）：: EPiDA：一种用于高性能文本分类的简单插件数据增强框架（Zhao等人，NAACL 2022）
复制引文：
PDF格式：: https://aclantology.org/2022.naacl-main.349.pdf
软件：: 2022.naacl-main.349.软件.zip
视频：: https://aclantology.org/2022.naacl-main.349.mp4
数据: AG新闻

PDF格式引用搜索软件视频