Learning Text Representations for 500K Classification Tasks on Named Entity Disambiguation

Ander Barrena; Aitor Soroa; Eneko Agirre

doi:10.18653/v1/K18-1017

学习500的文本表示K（K）命名实体消歧的分类任务

摘要

命名实体消歧算法通常学习所有目标实体的单个模型。本文提出了一个单词专家模型，并为每个目标实体字符串训练单独的深度学习模型，从而产生500K分类任务。这使我们有机会在这个庞大的数据集上对流行的文本表示替代方案进行基准测试。为了应对稀缺的训练数据，我们提出了一种简单的数据增强技术和转移学习。我们表明，对于训练数据稀少的任务，bagof-word-embedding比LSTM更好，而当训练数据量较大时，情况正好相反。对于所有频带的单词专家来说，传输在所有数据集上学习的LSTM是最有效的上下文表示选项。实验表明，我们的系统基于域外维基百科数据进行训练，优于基于域内训练数据进行训练的可比NED系统。

选集ID：: K18-1017段
体积：: 第22届计算自然语言学习会议记录
月份：: 十月
年份：: 2018
地址：: 比利时布鲁塞尔
编辑：: 安娜·科霍宁,伊万·蒂托夫
地点：: CoNLL公司
SIG公司：: SIGNLL公司
出版商：: 计算语言学协会
注：
页：: 171–180
语言：
网址：: https://aclantology.org/K18-1017
内政部：: 10.18653/v1/K18-1017
比比键：
引用（ACL）：: 安德·巴雷纳（Ander Barrena）、艾托·索罗亚（Aitor Soroa）和埃内科·阿吉雷（Eneko Agirer）。2018500K分类任务中命名实体消歧的文本表示学习.英寸第22届计算自然语言学习会议记录，第171-180页，比利时布鲁塞尔。计算语言学协会。
引用（非正式）：: 500K分类任务中命名实体消歧的文本表示学习（Barrena等人，CoNLL 2018）
复制引文：
PDF格式：: https://aclantology.org/K18-1017.pdf
代码: 安德巴雷纳/500kNED

PDF格式引用搜索代码