A Coarse-to-Fine Labeling Framework for Joint Word Segmentation, POS Tagging, and Constituent Parsing

Yang Hou; Houquan Zhou; Zhenghua Li; Yu Zhang; Min Zhang; Zhefeng Wang; Baoxing Huai; Nicholas Jing Yuan

doi:10.18653/v1/2021.conll-1.23

一个用于联合分词的粗到细标记框架，销售时点情报系统标记和成分分析

摘要

联合分词（WS）、词性标注（POS）和成分分析最直接的方法是将单词级树转换为字符级树，但这会带来两个严重的挑战。首先，较大的标签集（例如≥600）和较长的输入都会增加计算成本。其次，很难排除包含冲突生产规则的非法树木，这对于可靠的模型评估很重要。如果POS标记（如VV）位于输出树中短语标记（如VP）的上方，则确定单词边界变得相当复杂。为了应对这两个挑战，本文提出了一个用于联合WS-POS-PAR的两阶段粗-精标记框架。在粗标记阶段，联合模型输出一个括号树，其中每个节点对应四个标签（即短语、子短语、单词、子单词）中的一个。通过约束CKY解码保证树是合法的。在精细标记阶段，模型将每个粗标签扩展为最终标签（例如VP、VP*、VV、VV*）。在Chinese Penn Treebank 5.1和7.0上的实验表明，在w/o和w/BERT设置下，我们的联合模型始终优于流水线方法，并实现了最新的性能。

选集ID：: 2021.续-1.23
体积：: 第25届计算自然语言学习会议记录
月份：: 十一月
年份：: 2021
地址：: 在线的
编辑：: 阿里安娜·比萨扎,奥姆里·阿本德
地点：: CoNLL公司
SIG公司：: SIGNLL公司
出版商：: 计算语言学协会
注：
页：: 290–299
语言：
网址：: https://aclantology.org/2021.coll-1.23
内政部：: 10.18653/v1/2021.coll-1.23
比比键：
引用（ACL）：: Yang Hou、Houquan Zhou、Zhenghua Li、Yu Zhang、Min Zhang，Zhefeng Wang、Baoxing Huai和Nicholas Jing Yuan。2021用于联合分词、POS标记和成分分析的粗-精标记框架.英寸第25届计算自然语言学习会议记录，第290-299页，在线。计算语言学协会。
引用（非正式）：: 用于联合分词、词性标记和成分分析的粗到细标记框架（Hou等人，CoNLL 2021）
复制引文：
PDF格式：: https://aclantology.org/2021.coll-1.23.pdf
视频：: https://aclantology.org/2021.coll-1.23.mp4网址
代码: 铁剑666/接头

PDF格式引用搜索代码视频