一个用于联合分词的粗到细标记框架,销售时点情报系统标记和成分分析

杨厚,周侯泉,李振华,于章,张敏(音),王哲峰,怀宝兴,尼古拉斯·靖远


摘要
联合分词(WS)、词性标注(POS)和成分分析最直接的方法是将单词级树转换为字符级树,但这会带来两个严重的挑战。首先,较大的标签集(例如≥600)和较长的输入都会增加计算成本。其次,很难排除包含冲突生产规则的非法树木,这对于可靠的模型评估很重要。如果POS标记(如VV)位于输出树中短语标记(如VP)的上方,则确定单词边界变得相当复杂。为了应对这两个挑战,本文提出了一个用于联合WS-POS-PAR的两阶段粗-精标记框架。在粗标记阶段,联合模型输出一个括号树,其中每个节点对应四个标签(即短语、子短语、单词、子单词)中的一个。通过约束CKY解码保证树是合法的。在精细标记阶段,模型将每个粗标签扩展为最终标签(例如VP、VP*、VV、VV*)。在Chinese Penn Treebank 5.1和7.0上的实验表明,在w/o和w/BERT设置下,我们的联合模型始终优于流水线方法,并实现了最新的性能。
选集ID:
2021.续-1.23
体积:
第25届计算自然语言学习会议记录
月份:
十一月
年份:
2021
地址:
在线的
编辑:
阿里安娜·比萨扎,奥姆里·阿本德
地点:
CoNLL公司
SIG公司:
SIGNLL公司
出版商:
计算语言学协会
注:
页:
290–299
语言:
网址:
https://aclantology.org/2021.coll-1.23
内政部:
10.18653/v1/2021.coll-1.23
比比键:
引用(ACL):
Yang Hou、Houquan Zhou、Zhenghua Li、Yu Zhang、Min Zhang,Zhefeng Wang、Baoxing Huai和Nicholas Jing Yuan。2021用于联合分词、POS标记和成分分析的粗-精标记框架.英寸第25届计算自然语言学习会议记录,第290-299页,在线。计算语言学协会。
引用(非正式):
用于联合分词、词性标记和成分分析的粗到细标记框架(Hou等人,CoNLL 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.coll-1.23.pdf
视频:
 https://aclantology.org/2021.coll-1.23.mp4网址
代码
铁剑666/接头