On Projection Robust Optimal Transport: Sample Complexity and Model Misspecification

Tianyi Lin; Zeyu Zheng; Elynn Chen; Marco Cuturi; Michael I. Jordan

投影稳健最优传输：样本复杂度和模型错误规范

林天一、郑泽瑜、陈爱玲、马可·库图里、迈克尔·乔丹

第24届国际人工智能与统计会议记录，PMLR 130:262-2702021年。

摘要

最佳运输距离（OT）越来越多地用作统计推断的损失函数，尤其是在生成模型或监督学习的学习中。然而，人们对最小Wasserstein估计量的行为知之甚少，尤其是在高维状态或模型错误指定的情况下。在这项工作中，我们采用投影稳健（PR）OT的观点，通过选择一个$k$维的子空间来将两个度量之间的OT成本最大化。我们的第一个贡献是建立了PR Wasserstein距离的几个基本统计特性，补充和改进了以往仅限于一维和特定情况的文献。接下来，我们提出积分PR-Wasserstein（IPRW）距离作为PRW距离的替代方案，通过对子空间进行平均而不是优化。我们的复杂性边界可以帮助解释为什么在高维推理任务中，PRW和IPRW距离在经验上都优于Wasserstein距离。最后，我们考虑使用PRW距离进行参数推断。我们提供了两类最小PRW估计的渐近保证，并在模型错误指定的情况下，给出了最大分段Wasserstein估计的中心极限定理。为了能够对投影维数大于1的PRW进行分析，我们设计了一种变分分析和统计理论的新组合。

引用本文

BibTeX公司

@会议记录{pmlr-v130-lin21a，title={关于投影稳健最优传输：样本复杂性和模型错误规范}，作者={Lin、Tianyi和Zheng、Zeyu和Chen、Elynn和Cuturi、Marco和Jordan、Michael}，booktitle={第24届国际人工智能与统计会议论文集}，页面＝{262-270}，年份={2021}，editor={Banerjee、Arindam和Fukumizu、Kenji}，体积={130}，series={机器学习研究论文集}，月={4月13日--15日}，publisher={PMLR}，pdf={http://proceedings.mlr.press/v130/lin21a/lin21a.pdf},url={https://proceedings.mlr.press/v130/lin21a.html},abstract={最佳运输（OT）距离越来越多地用作统计推断的损失函数，尤其是在生成模型或监督学习的学习中。然而，人们对最小Wasserstein估计量的行为知之甚少，尤其是在高维状态或模型错误指定的情况下。在这项工作中，我们采用投影稳健（PR）OT的观点，通过选择一个$k$维的子空间来将两个度量之间的OT成本最大化。我们的第一个贡献是建立了PR Wasserstein距离的几个基本统计特性，补充和改进了以往仅限于一维和特定情况的文献。接下来，我们提出积分PR-Wasserstein（IPRW）距离作为PRW距离的替代方案，通过对子空间进行平均而不是优化。我们的复杂性边界可以帮助解释为什么在高维推理任务中，PRW和IPRW距离在经验上都优于Wasserstein距离。最后，我们考虑使用PRW距离进行参数推断。我们提供了两类最小PRW估计的渐近保证，并在模型错误指定的情况下，给出了最大分段Wasserstein估计的中心极限定理。为了能够对投影维数大于1的PRW进行分析，我们设计了一种变分分析和统计理论的新组合。}}

尾注

%0会议论文%投影稳健最优传输：样本复杂度和模型错误规范%林天一%阿泽瑜郑%艾琳·陈%马可·库图里%迈克尔·乔丹%第24届国际人工智能与统计会议论文集%C机器学习研究进展%D 2021年%E Arindam Banerjee公司%E Kenji Fukumizu先生%F pmlr-v130-lin21a%我PMLR%第262--270页%U型https://proceedings.mlr.press/v130/lin21a.html%130伏%X最优传输（OT）距离越来越多地被用作统计推断的损失函数，尤其是在生成模型或监督学习的学习中。然而，人们对最小Wasserstein估计量的行为知之甚少，尤其是在高维状态或模型错误指定的情况下。在这项工作中，我们采用投影稳健（PR）OT的观点，通过选择一个$k$维的子空间来将两个度量之间的OT成本最大化。我们的第一个贡献是建立了PR Wasserstein距离的几个基本统计特性，补充和改进了以往仅限于一维和特定情况的文献。接下来，我们提出积分PR-Wasserstein（IPRW）距离作为PRW距离的替代方案，通过对子空间进行平均而不是优化。我们的复杂性边界可以帮助解释为什么在高维推理任务中，PRW和IPRW距离在经验上都优于Wasserstein距离。最后，我们考虑使用PRW距离进行参数推断。我们提供了两类最小PRW估计的渐近保证，并在模型错误指定的情况下，给出了最大分段Wasserstein估计的中心极限定理。为了能够对投影维数大于1的PRW进行分析，我们设计了一种变分分析和统计理论的新组合。

阿帕

Lin，T.、Zheng，Z.、Chen，E.、Cuturi，M.和Jordan，M.I.（2021年）。投影稳健最优传输：样本复杂性和模型错误规范。第24届国际人工智能与统计会议记录，英寸机器学习研究进展130:262-270可从https://proceedings.mlr.press/v130/lin21a.html。

投影稳健最优传输：样本复杂度和模型错误规范

摘要

引用本文

相关材料