计算机科学>计算与语言
标题: 基于混合乘积距离的静态词嵌入频率维选择
摘要: 静态单词嵌入仍然很有用,特别是对于上下文可用的任务,因为在没有上下文可用的情况下,预训练语言模型的性能通常比静态单词嵌入差。 尽管维度是决定静态词嵌入质量的关键因素,但很少讨论维度的自动选择。 本文研究了词频对维度选择的影响,实证发现词频非常重要,在维度选择时需要考虑词频。 基于这一经验发现,本文提出了一种维度选择方法,该方法使用度量(混合乘积距离,MPD)为单词嵌入算法选择合适的维度,而无需训练任何单词嵌入。 通过将后处理函数应用于oracle矩阵,基于MPD的方法可以减轻词频的影响。 在上下文可用任务和上下文可用任务上的实验表明,基于MPD的维度选择方法相对于基线具有更好的效率-性能权衡。