2
$\开始组$

我在许多关于扩散模型的教程中看到,将前向过程诱导的潜在变量的分布称为“基本事实”。我想知道为什么。我们实际上只能看到原始数据点$x_0美元$,而所有其他$x_t美元$的是“虚构的”潜在变量。转发过程只是我们为ELBO插入的分发。为什么$x_t美元$当它们实际上是我们无法观察到的潜在变量时,是“真的”吗?

新贡献者
丹尼尔·门多萨是此网站的新贡献者。请注意要求澄清、评论和回答。查看我们的行为准则.
$\端组$
2
  • $\开始组$ 在扩散模型中,正向过程通过一系列潜在变量$x_t$将原始数据$x_0$逐渐转换为噪声。这些$x_t$值被认为是所谓的“基本事实”,因为它们代表了降噪生成过程中随时间步长的真实分布,即使它们无法直接观察到。你真的能引用这样的“基本事实”用法吗? $\端组$ 评论 2天前
  • $\开始组$ @例如,教程“理解扩散模型:统一的观点”。此外,从基于分数的角度来看,我们确实将正向过程视为每个潜在变量的“真实”分布,以获得分数函数。 $\端组$ 评论 2天前

1答案1

重置为默认值
1
$\开始组$

从您的参考“理解扩散模型:统一的观点”中,分数函数的基本真理主张出现在以下位置:

分数模型可以通过最小化Fisher发散来优化基本事实分数函数。。。分数函数代表什么?对于每个$\mathbf{x}$,取其对数似然相对于$\mathbf{x}$本质上描述了为了进一步增加其可能性而在数据空间中移动的方向。那么,score函数直观地定义了整个数据空间上的向量场$\mathbf{x}$居住,指向模式。。。注意,等式157中的目标取决于能够访问基本事实score函数,这对于复杂分布(例如建模自然图像的分布)是不可用的。幸运的是,已经衍生出了被称为分数匹配[14,15,16,17]的替代技术,以在不知道基本事实分数,并可以通过随机梯度下降进行优化。

因此,将分数函数视为实践中通常复杂或难以处理的“基本真理”函数,毫不奇怪,分数函数提供了指导模型从噪声中重建数据的数据分布的基本信息,就像潜在变量的真正难以处理的后验分布或VAE中证据的真正边际似然。

其他提到“基本事实”的地方仅指ELBO推导部分中潜在变量的真正难以处理的后验分布。

直接计算并最大化可能性$p(\mathbf{x})$很难,因为它要么涉及到整合所有潜在变量$\mathbf{z}$在方程式1中,这对于复杂模型来说很难处理,或者它涉及到基本事实潜在编码器$p(\mathbf{z}|\mathbf{x})$式2中。

不幸的是,直接最小化KL散度项是很难的,因为我们无法获得基本事实 $p(\mathbf{z}|\mathbf{x})$分配。然而。。。我们的数据的可能性总是与$\mathbf{φ}$…并且不依赖于$\mathbf{φ}$不管怎样。由于ELBO和KL发散项之和为常数,因此ELBO项的任何最大化尊重$\mathbf{φ}$必然会调用KL发散项的相等最小化。因此,ELBO可以最大化,作为学习如何完美建模真实潜在后验分布的代理;我们对ELBO的优化程度越高,近似后验值与真实后验值越接近。

由于潜在编码器$p(\mathbf{z}|\mathbf{x})$表示我们试图近似或从数据中学习的分布,它被视为变分推理中的基本真理。这些参考文献也很好地解释了ELBO和KL之间的关系,希望能解决您对变分推理的其他关注。

$\端组$

你的答案

单击“发布您的答案”,表示您同意我们的服务条款并确认您已阅读我们的隐私政策.

不是你想要的答案吗?浏览标记的其他问题问你自己的问题.