基于 BERT(误码率) 的多特征融合农业命名实体识别
基于BERT的农业命名实体多特征融合识别
-
摘要: 命名实体识别是农业文本信息抽取的重要环节,针对实体识别过程中局部上下文特征缺失、字向量表征单一、罕见实体识别率低等问题,提出一种融合 BERT(来自变压器的双向编码器表示 转换器的双向编码器表征量)字级特征与外部词典特征的命名实体识别方法。通过 BERT(误码率) 预训练模型,融合左右两侧语境信息,增强字的语义表示,缓解一词多义的问题;自建农业领域词典,引入双向最大匹配策略,获取分布式词典特征表示,提高模型对罕见或未知实体的识别准确率;利用双向长短时记忆 (双向长短期存储器,BiLSTM) 网络获取序列特征矩阵,并通过条件随机场 (条件随机场,CRF) 模型生成全局最优序列。结合领域专家知识,构建农业语料集,包含 5 295条标注语料,5 类农业实体。模型在语料集上准确率为 94.84%、95.23%、95.03% 研究结果表明,该方法能够有效识别农业领域命名实体,识别精准度优于其他模型,具有明显的优势。 摘要: 农业命名实体识别是农业领域信息抽取的一项基本任务。 针对实体识别过程中局部上下文特征、无法解决单词多义、稀有实体识别率低的问题, 提出了结合字符级特征和字典特征的模型来自动识别文本中的实体,字符级特征是从BERT(Bidirectional Encoder Representations from Transformers)模型中获得的。 首先,使用BERT预处理语言模型整合左右上下文信息,获取字符级特征,增强单词的语义表示,以缓解多义现象; 其次,我们构建了一个农业词典,并通过特征提取策略引入外部词典信息,以提高模型对稀有或未知实体的识别精度。 其中,设计了两种特征提取策略来捕获字典特征,包括N元特征模板算法和双向最大匹配算法。 然后,将字符级特征和字典特征进行融合,作为下一个神经网络层的输入。 最后,将融合后的特征信息通过BiLSTM(双向长短期记忆)神经网络层进行编码,得到序列特征矩阵,并通过条件随机场(CRF)获得最优文本标签序列。 基于领域专家的知识,提出了农业领域命名实体的标记策略,解决了农业命名实体边界模糊的问题,以确保实体的完整性。 实验在农业语料库上进行,该语料库包含5295个标记语料库和5类农业实体。 结果表明,该语料库取得了较好的整体性能,其中识别准确率、召回率和F1-核心值分别为94.84%、95.23%和95.03%。 在具体类别方面,由于作物病害和农药的边界特征明显,该模型的识别精度高于其余三个农业实体,如机械、害虫和作物品种。 实验比较表明,对于字典特征提取策略的有效性,基于双向最大匹配算法的模型性能优于N-gram特征模板算法。 当模板数为10时,基于N元特征模板的模型性能最好,识别精度为93.95%,F1核为94.03%。 采用特征嵌入的双向最大匹配算法可以获得更多的潜在信息,优于单热点编码。 模型的精度和F1核分别提高了0.49和0.91个百分点。 与基于BiLSTM-CRF、BERT-BiLSTM-CRS的模型相比,本文提出的BERT-Dic-BiLSTM-CRF模型的精度具有明显的性能优势,最高识别精度为94.84%。 与BERT-BiLSTM-CRF模型相比,对于稀有或未知实体的识别性能,BERT-Dic-BiLSTM-CRF模型的识别精度分别提高了5.93和6.44个百分点。 进一步验证了将字典特征集成到模型中可以提高模型对此类实体的识别精度。