@在建项目{昭和塔尔-2022-epida,title=“{EP}i{DA}:一个用于高性能文本分类的简单插件数据增强框架”,author=“赵敏和张璐Xu、Yi和丁建东和关、纪宏和周水耕”,editor=“Carpuat,海军陆战队和德马内夫、玛丽·凯瑟琳和Meza Ruiz,Ivan Vladimir“,booktitle=“计算语言学协会北美分会2022年会议记录:人类语言技术”,月=七月,年=“2022”,address=“美国西雅图”,publisher=“计算语言学协会”,url=“https://aclantology.org/2022.naacl-main.349",doi=“10.18653/v1/2022.naacl-main.349”,pages=“4742--4752”,abstract=“最近的工作已经从经验上证明了数据增强(DA)的有效性在NLP任务中,特别是对于那些遭受数据稀缺的人。直观地说,考虑到生成的数据的大小,它们的多样性和质量对目标任务的性能至关重要。然而,据我们所知,大多数现有方法只考虑增强数据的多样性或质量,因此无法充分挖掘DA对NLP的潜力。在本文中,我们提出了一个简单的插件式数据增强框架EPiDA,以支持有效的文本分类。EPiDA采用了两种机制:相对熵最大化(REM)和条件熵最小化(CEM)来控制数据生成,其中REM旨在增强增强数据的多样性,而CEM则用于确保其语义一致性。EPiDA可以支持高效连续的数据生成,以实现有效的分类器训练。大量实验表明,EPiDA在大多数情况下都优于现有的SOTA方法,尽管没有使用任何代理网络或预训练生成网络,并且它与各种DA算法和分类模型都能很好地工作。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“zhao-etal-2022-epida”><标题信息><title>EPiDA:一种用于高性能文本分类的简单插件数据增强框架</title></titleInfo><name type=“personal”>闵行<namePart type=“given”>赵<namePart type=“family”><角色>作者</角色></name><name type=“personal”>Lu<namePart type=“family”>张<角色>作者</角色></name><name type=“personal”>易建联<namePart type=“family”>徐</namePart><角色>作者</角色></name><name type=“personal”>建东丁<namePart type=“family”><角色>作者</角色></name><name type=“personal”>Jihong公司关<角色>作者</角色></name><name type=“personal”>水耕<namePart type=“given”><namePart type=“family”>周<角色>作者</角色></name><originInfo>2022-07发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>计算语言学协会北美分会2022年会议记录:人类语言技术</titleInfo><name type=“personal”><namePart type=“given”>海洋</namePart>卡普阿特<角色>编辑器</角色></name><name type=“personal”>玛丽·凯瑟琳马内夫<角色>编辑器</角色></name><name type=“personal”>伊凡<namePart type=“given”>弗拉基米尔</namePart>梅扎·鲁伊斯<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>美国西雅图</place></originInfo>会议出版物</relatedItem>最近的工作已经实证证明了数据增强(DA)在NLP任务中的有效性,尤其是对于那些遭受数据稀缺的任务。直观地说,考虑到生成数据的大小,它们的多样性和质量对目标任务的执行至关重要。然而,据我们所知,大多数现有方法只考虑增强数据的多样性或质量,因此无法充分挖掘DA对NLP的潜力。在本文中,我们提出了一个简单的插件式数据增强框架EPiDA,以支持有效的文本分类。EPiDA采用了两种机制:相对熵最大化(REM)和条件熵最小化(CEM)来控制数据生成,其中REM旨在增强增强数据的多样性,而CEM则用于确保其语义一致性。EPiDA可以支持高效连续的数据生成,以实现有效的分类器训练。大量实验表明,EPiDA在大多数情况下都优于现有的SOTA方法,尽管没有使用任何代理网络或预训练生成网络,并且它与各种DA算法和分类模型都能很好地工作</摘要>赵伊塔-2022-epida<identifier type=“doi”>10.18653/v1/2022。naacl main.349</identifier><位置><网址>https://aclantology.org/2022.naacl-main.349</url></位置><部分>2022-07年<扩展单元=“page”><开始>4742</开始>4752</范围></部分></mods></mods集合>
%0会议记录%T EPiDA:一种用于高性能文本分类的简单插入式数据增强框架%阿昭,敏宜%张阿璐%阿旭、易%建东阿丁%A Guan、Jihong%阿舟、水耕%Y Carpuat,海军%Y de Marneffe,玛丽·凯瑟琳%Y Meza Ruiz,伊万·弗拉基米尔%计算语言学协会北美分会2022年会议记录:人类语言技术%D 2022年%7月8日%计算语言学协会%C美国西雅图%F zhao-etal-2022-epida公司%X最近的工作已经从经验上证明了数据增强(DA)在NLP任务中的有效性,特别是对于那些遭受数据稀缺的任务。直观地说,考虑到生成数据的大小,它们的多样性和质量对目标任务的执行至关重要。然而,据我们所知,大多数现有方法只考虑增强数据的多样性或质量,因此无法充分挖掘DA对NLP的潜力。在本文中,我们提出了一个简单的插件式数据增强框架EPiDA,以支持有效的文本分类。EPiDA采用了两种机制:相对熵最大化(REM)和条件熵最小化(CEM)来控制数据生成,其中REM旨在增强增强数据的多样性,而CEM则用于确保其语义一致性。EPiDA可以支持高效连续的数据生成,以实现有效的分类器训练。大量实验表明,EPiDA在大多数情况下都优于现有的SOTA方法,尽管没有使用任何代理网络或预训练生成网络,并且它与各种DA算法和分类模型都能很好地工作。%R 10.18653/v1/2022.naacl-main.349%U型https://acl选集.org/2022.naacl-main.349%U型https://doi.org/10.18653/v1/2022.naacl-main.349%电话:4742-4752
降价(非正式)
[EPiDA:一种用于高性能文本分类的简单插入式数据增强框架](https://aclantology.org/2022.naacl-main.349)(Zhao等人,NAACL 2022)
国际计算语言学协会