统计>机器学习
标题: 用树近似1-Wasserstein距离
摘要: Wasserstein距离用于测量分布之间的差异,它在各种类型的自然语言处理(NLP)和计算机视觉(CV)应用中显示了有效性。 估计Wasserstein距离的一个挑战是,它的计算成本很高,并且对于许多分布比较任务来说,不能很好地扩展。 本文旨在通过树-瓦瑟斯坦距离(TWD)来近似1-Wasserstein距离,其中TWD是基于树嵌入的1-Wassers stein距离,可以根据树上的节点数在线性时间内计算。 更具体地说,我们提出了一种简单而有效的L1规则化方法来学习树中边的权重。 为此,我们首先证明了1-Wasserstein近似问题可以公式化为使用树上最短路径距离的距离近似问题。 然后我们证明了最短路径距离可以用线性模型表示,并且可以用基于拉索的回归问题表示。 由于凸公式,我们可以有效地获得全局最优解。 此外,我们还提出了这些方法的树切片变体。 通过实验,我们证明加权TWD可以精确地逼近原始的1-Wasserstein距离。