@在过程中{hou-etal-2021-粗,title=“用于联合分词、{POS}标记和成分分析的粗-精标记框架”,author=“侯、杨和周、后泉和李振华和Zhang、Yu和张敏和王哲峰和淮、宝兴和袁,尼古拉斯·京”,editor=“比萨扎、阿里安娜和阿本德,奥姆里“,booktitle=“第25届计算自然语言学习会议记录”,月=11月,年=“2021”,address=“在线”,publisher=“计算语言学协会”,url=“https://aclantology.org/2021.coll-1.23",doi=“10.18653/v1/2021.conll-1.23”,pages=“290--299”,abstract=“联合分词(WS)、词性标注(POS)和成分分析最直接的方法是将单词级树转换为字符级树,然而,这会带来两个严重的挑战。首先,更大的标签集(例如,{\mbox{$\geq$}}600)更长的输入都会增加计算成本。其次,很难排除包含冲突生产规则的非法树木,这对于可靠的模型评估很重要。如果POS标记(如VV)位于输出树中短语标记(如VP)的上方,则确定单词边界变得相当复杂。为了应对这两个挑战,本文提出了一个用于联合WS-POS-PAR的两阶段粗-精标记框架。在粗标记阶段,联合模型输出一个括号树,其中每个节点对应四个标签(即短语、子短语、单词、子单词)中的一个。通过约束CKY解码保证树是合法的。在精细标记阶段,模型将每个粗标签扩展为最终标签(例如VP、VP*、VV、VV*)。在Chinese Penn Treebank 5.1和7.0上的实验表明,在w/o和w/BERT设置下,我们的联合模型始终优于流水线方法,并实现了最新的性能。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“网址:http://www.loc.gov/mods/v3"><mods ID=“hou-etal-2021-粗粒”><标题信息>用于联合分词、POS标记和成分分析的粗到精标记框架</titleInfo><name type=“personal”>杨(Yang)<namePart type=“family”>侯</namePart><角色>作者</角色></name><name type=“personal”>后泉<namePart type=“family”>周<角色>作者</角色></name><name type=“personal”>振华<namePart type=“given”>李<namePart type=“family”><角色>作者</角色></name><name type=“personal”><namePart type=“given”>余</namePart><namePart type=“family”>张<角色>作者</角色></name><name type=“personal”>最小值<namePart type=“family”>张<角色>作者</角色></name><name type=“personal”>浙锋<namePart type=“given”>王<namePart type=“family”><角色>作者</角色></name><name type=“personal”><namePart type=“given”>宝兴</namePart>淮<namePart type=“family”><角色>作者</角色></name><name type=“personal”>尼古拉斯京元<角色>作者</角色></name><originInfo>发布日期:2021-11发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第25届计算自然语言学习会议记录</titleInfo><name type=“personal”>阿里安娜<namePart type=“family”>Bisazza</namePart><角色>编辑器</角色></name><name type=“personal”>欧姆里Abend(阿本德)<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>在线</place></originInfo>会议出版物</relatedItem><abstract>联合分词(WS)、词性标注(POS)和成分分析最直接的方法是将单词级树转换为字符级树,但这会带来两个严重的挑战。首先,较大的标签集(例如,\geq 600)和较长的输入都会增加计算成本。其次,很难排除包含冲突生产规则的非法树木,这对于可靠的模型评估很重要。如果POS标记(如VV)位于输出树中短语标记(如VP)的上方,则确定单词边界变得相当复杂。为了应对这两个挑战,本文提出了一个用于联合WS-POS-PAR的两阶段粗到细标记框架。在粗标记阶段,联合模型输出一个括号树,其中每个节点对应于四个标签中的一个(即短语、子短语、单词、子单词)。通过约束CKY解码保证树是合法的。在精细标记阶段,模型将每个粗标签扩展为最终标签(例如VP、VP*、VV、VV*)。在Chinese Penn Treebank 5.1和7.0上的实验表明,在w/o和w/BERT设置下,我们的联合模型始终优于流水线方法,并实现了最新的性能</摘要>hou-etal-2021粗粒10.18653/v1/2021.conll-1.23<位置><网址>https://aclantology.org/2021.coll-1.23</url></位置><部分>2021-11年<扩展单元=“page”><开始>290<end>299</范围></部分></模块></modsCollection>
%0会议记录%用于联合分词、POS标记和成分分析的粗-精标记框架%A Hou、Yang%A Zhou,后泉%A Li,郑华%张瑜%阿章,敏%王哲峰%阿怀、宝兴%A Yuan,Nicholas Jing(尼古拉斯·京)%阿里安娜·比萨扎%奥姆里·阿本德%第25届计算自然语言学习会议论文集%D 2021年%11月8日%计算语言学协会%C在线%F hou-etal-2021粗%X联合分词(WS)、词性标注(POS)和成分分析最直接的方法是将单词级树转换为字符级树,但这会带来两个严重的挑战。首先,较大的标签集(例如,\geq 600)和较长的输入都会增加计算成本。其次,很难排除包含冲突生产规则的非法树木,这对于可靠的模型评估很重要。如果POS标记(如VV)位于输出树中短语标记(如VP)的上方,则确定单词边界变得相当复杂。为了应对这两个挑战,本文提出了一个用于联合WS-POS-PAR的两阶段粗到细标记框架。在粗标记阶段,联合模型输出一个括号树,其中每个节点对应于四个标签中的一个(即短语、子短语、单词、子单词)。通过约束CKY解码保证树是合法的。在精细标记阶段,模型将每个粗标签扩展为最终标签(例如VP、VP*、VV、VV*)。在Chinese Penn Treebank 5.1和7.0上的实验表明,在w/o和w/BERT设置下,我们的联合模型始终优于流水线方法,并实现了最新的性能。%R 10.18653/v1/2021-coll-1.23%U型https://aclantology.org/2021.coll-1.23%U型https://doi.org/10.18653/v1/2021.coll-1.23%电话290-299
降价(非正式)
[用于联合分词、POS标记和成分分析的粗到细标记框架](https://aclantology.org/2021.coll-1.23)(Hou等人,CoNLL 2021)
国际计算语言学协会
- Yang Hou、Houquan Zhou、Zhenghua Li、Yu Zhang、Min Zhang,Zhefeng Wang、Baoxing Huai和Nicholas Jing Yuan。2021用于联合分词、POS标记和成分分析的粗-精标记框架.英寸第25届计算自然语言学习会议记录,第290-299页,在线。计算语言学协会。