证据下界

变分贝叶斯方法中,证据下界(英语:evidence lower boundELBO;有时也称为变分下界[1]负变分自由能)是一种用于估计一些观测数据的对数似然的下限。

术语和符号

  是随机变量,其联合分布为 。例如,  边缘分布 是在给定 的条件下, 的条件分布。那么对于任何从 中抽取的样本 和任何分布 ,我们有:

 


我们将上述不等式称为ELBO不等式。其中,左侧称为 的证据,右侧称为 的证据下界(ELBO)。

在变分贝叶斯方法的术语中,分布 称为证据。一些人使用“证据”一词来表示 ,而其他作者将 称为对数证据,有些人会交替使用证据和对数证据这两个术语。

ELBO 没有普遍且固定的表示法。在本文中我们使用 

动机

变分贝叶斯推理

假设我们有一个可观察的随机变量 ,并且我们想找到其真实分布 。这将允许我们通过抽样生成数据,并估计未来事件的概率。一般来说,精确找到 是不可能的,因此我们不得不寻找一个近似。

也就是说,我们定义一个足够大的参数化分布族 ,然后最小化某种损失函数  。解决这个问题的一种可能方法是考虑从  的微小变化,并解决 。这是变分法中的一个变分问题,因此被称为变分方法。

由于明确参数化的分布族并不多(所有经典的分布族,如常态分布、Gumbel分布等都太过简单,无法很好地模拟真实分布),我们考虑隐式参数化的概率分布:

  • 首先,定义一个在潜在随机变量 上的简单分布 。通常情况下,常态分布或均匀分布已足够。
  • 接下来,定义一个由 参数化的复杂函数族 (例如深度神经网络)。
  • 最后,定义一种将任何 转换为可观测随机变量 的简单分布的方法。例如,让 具有两个输出,那么我们可以将相应的分布定义为在 上的常态分布 

这定义了一个关于 的联合分布族 。从 中抽取样本 变得非常容易:只需从 中抽样 ,然后计算 ,最后使用 来抽样 


换句话说,我们拥有了一个可观测量和潜在随机变量的生成模型。

现在,我们认为一个分布 是好的,如果它是 的一个接近近似: 由于右侧的分布仅涉及到 ,因此左侧的分布必须消除潜在变量 的影响,即要对 进行边缘化。

一般情况下,我们无法积分 ,这迫使我们寻找另一个近似。

由于 ,因此我们只需要找到一个 的好的近似即可。因此,我们定义另一个分布族 来近似 ,这是一个针对潜在变量的判别模型。

下表概述了所有情况:

 :观测量    :潜变量
 可近似的  ,简单
 ,简单
 可近似的  ,简单

用贝叶斯的方式来说, 是观测到的证据, 是潜在/未观测到的随机变量。分布  上是 的先验分布, 是似然函数,而  的后验分布。


给定一个观测值 ,我们可以通过计算 来推断出可能导致 出现的 。通常的贝叶斯方法是估计积分:

 

然后通过贝叶斯定理计算:

 

这通常是非常耗时的,但如果我们可以找到一个在大多数 下的好近似 ,那么我们就可以快速地从 推断出 。因此,寻找一个好的 也称为摊销推断

综上所述,我们找到了一个变分贝叶斯推断问题。

推导ELBO

变分推断中的一个基本结果是,最小化Kullback–Leibler 散度(KL散度)等价于最大化对数似然: 其中 是真实分布的熵。因此,如果我们可以最大化 

我们就可以最小化 

因此找到一个准确的近似 。要最大化 我们只需从真实分布中抽取许多样本 ,然后使用: 为了最大化 ,必须要找到 [注 1] 这通常没有解析解,必须进行估计。估计积分的常用方法是使用重要性采样进行蒙特卡洛积分 其中, 是我们用于进行蒙特卡罗积分的在 上的抽样分布。因此,我们可以看到,如果我们抽样 ,那么  的一个无偏估计量。不幸的是,这并不能给我们一个对 的无偏估计量,因为 是非线性的。事实上,由于琴生(Jensen)不等式,我们有: 事实上,所有明显的 的估计量都是向下偏的,因为无论我们取多少个 的样本,我们都可以由琴生不等式得到: 减去右边,我们可以看出问题归结为零的有偏估计问题: 通过delta 方法,我们有 如果我们继续推导,我们将得到加权自编码器。[2]但是让我们先回到最简单的情况,即 : 不等式的紧度有一个解析解: 这样我们就得到了ELBO函数: 

最大化 ELBO

对于固定的 ,优化 的同时试图最大化 和最小化 。如果  的参数化足够灵活,我们会得到一些  ,使得我们同时得到了以下近似: 由于 我们有 所以 也就是说: 最大化ELBO将同时使我们得到一个准确的生成模型 和一个准确的判别模型  

主要形式

ELBO具有许多可能的表达式,每个表达式都有不同的强调。 这个形式表明,如果我们抽样  , 则 是 ELBO 的无偏估计量 这种形式显示 ELBO 是证据 的下界 ,并且关于 最大化 ELBO 等价于最小化从   KL 散度 . 这种形式显示,最大化ELBO同时试图将 保持接近 ,并将 集中在最大化 的那些 上。也就是说,近似后验 在保持先验 的同时,朝着最大似然 移动。 这个形式显示,最大化ELBO同时试图保持 的熵高,并将 集中于最大化 的那些  。也就是说,近似后验 在均匀分布和向最大后验 之间保持平衡。

数据处理不等式

假设我们从 中取 个独立样本,并将它们收集在数据集 中,则我们具有经验分布 。其中 表示冲激函数(Dirac函数)。

 拟合 通常可以通过最大化对数似然 来完成: 现在,根据 ELBO 不等式,我们可以约束  , 因此 右侧简化为 KL 散度,因此我们得到: 这个结果可以解释为数据处理不等式的一个特例。

在这个解释下,最大化 等价于最小化 ,其中上式是真实的需要估计的量 的上界,通过数据处理不等式获得。也就是说,我们通过将潜在空间与观测空间连接起来,为了更高效地最小化KL散度而付出了较弱的不等式代价。[3]

参考

  1. ^ Kingma. Auto-Encoding Variational Bayes. arXiv:1312.6114 . 
  2. ^ Burda, Yuri; Grosse, Roger; Salakhutdinov, Ruslan. Importance Weighted Autoencoders. 2015-09-01 [2023-03-22]. (原始内容存档于2023-03-22). 
  3. ^ Kingma, Diederik P.; Welling, Max. An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning. 2019-11-27, 12 (4). Section 2.7 [2023-03-22]. ISSN 1935-8237. arXiv:1906.02691 . doi:10.1561/2200000056. (原始内容存档于2023-03-22) (English). 

注释

  1. ^ 事实上,根据Jensen不等式,有   这个估计量存在向上的偏差。这可以看作是过度拟合:对于一些有限的采样数据   ,通常存在一些   比整个   分布更好地拟合它们。