在變分貝葉斯方法中,證據下界(英語:evidence lower bound,ELBO;有時也稱為變分下界[1]或負變分自由能)是一種用於估計一些觀測數據的對數似然的下限。
術語和符號
動機
變分貝葉斯推理
假設我們有一個可觀察的隨機變量 ,並且我們想找到其真實分佈 。這將允許我們通過抽樣生成數據,並估計未來事件的概率。一般來說,精確找到 是不可能的,因此我們不得不尋找一個近似。
也就是說,我們定義一個足夠大的參數化分佈族 ,然後最小化某種損失函數 , 。解決這個問題的一種可能方法是考慮從 到 的微小變化,並解決 。這是變分法中的一個變分問題,因此被稱為變分方法。
由於明確參數化的分佈族並不多(所有經典的分佈族,如正態分佈、Gumbel分佈等都太過簡單,無法很好地模擬真實分佈),我們考慮隱式參數化的概率分佈:
- 首先,定義一個在潛在隨機變量 上的簡單分佈 。通常情況下,正態分佈或均勻分佈已足夠。
- 接下來,定義一個由 參數化的複雜函數族 (例如深度神經網絡)。
- 最後,定義一種將任何 轉換為可觀測隨機變量 的簡單分佈的方法。例如,讓 具有兩個輸出,那麼我們可以將相應的分佈定義為在 上的正態分佈 。
這定義了一個關於 的聯合分佈族 。從 中抽取樣本 變得非常容易:只需從 中抽樣 ,然後計算 ,最後使用 來抽樣 。
換句話說,我們擁有了一個可觀測量和潛在隨機變量的生成模型。
現在,我們認為一個分佈 是好的,如果它是 的一個接近近似: 由於右側的分佈僅涉及到 ,因此左側的分佈必須消除潛在變量 的影響,即要對 進行邊緣化。
一般情況下,我們無法積分 ,這迫使我們尋找另一個近似。
由於 ,因此我們只需要找到一個 的好的近似即可。因此,我們定義另一個分佈族 來近似 ,這是一個針對潛在變量的判別模型。
下表概述了所有情況:
:觀測量
|
|
:潛變量
|
可近似的
|
|
,簡單
|
|
,簡單
|
|
可近似的
|
|
,簡單
|
用貝葉斯的方式來說, 是觀測到的證據, 是潛在/未觀測到的隨機變量。分佈 在 上是 的先驗分佈, 是似然函數,而 是 的後驗分佈。
給定一個觀測值 ,我們可以通過計算 來推斷出可能導致 出現的 。通常的貝葉斯方法是估計積分:
然後通過貝葉斯定理計算:
這通常是非常耗時的,但如果我們可以找到一個在大多數 下的好近似 ,那麼我們就可以快速地從 推斷出 。因此,尋找一個好的 也稱為攤銷推斷。
綜上所述,我們找到了一個變分貝葉斯推斷問題。
推導ELBO
變分推斷中的一個基本結果是,最小化Kullback–Leibler 散度(KL散度)等價於最大化對數似然: 其中 是真實分佈的熵。因此,如果我們可以最大化
我們就可以最小化
因此找到一個準確的近似 。要最大化 我們只需從真實分佈中抽取許多樣本 ,然後使用: 為了最大化 ,必須要找到 :[註 1] 這通常沒有解析解,必須進行估計。估計積分的常用方法是使用重要性採樣進行蒙特卡洛積分: 其中, 是我們用於進行蒙特卡羅積分的在 上的抽樣分佈。因此,我們可以看到,如果我們抽樣 ,那麼 是 的一個無偏估計量。不幸的是,這並不能給我們一個對 的無偏估計量,因為 是非線性的。事實上,由於琴生(Jensen)不等式,我們有: 事實上,所有明顯的 的估計量都是向下偏的,因為無論我們取多少個 的樣本,我們都可以由琴生不等式得到: 減去右邊,我們可以看出問題歸結為零的有偏估計問題: 通過delta 方法,我們有 如果我們繼續推導,我們將得到加權自編碼器。[2]但是讓我們先回到最簡單的情況,即 : 不等式的緊度有一個解析解: 這樣我們就得到了ELBO函數:
最大化 ELBO
對於固定的 ,優化 的同時試圖最大化 和最小化 。如果 和 的參數化足夠靈活,我們會得到一些 ,使得我們同時得到了以下近似: 由於 我們有 所以 也就是說: 最大化ELBO將同時使我們得到一個準確的生成模型 和一個準確的判別模型 。
主要形式
ELBO具有許多可能的表達式,每個表達式都有不同的強調。 這個形式表明,如果我們抽樣 , 則 是 ELBO 的無偏估計量。 這種形式顯示 ELBO 是證據 的下界 ,並且關於 最大化 ELBO 等價於最小化從 到 KL 散度 . 這種形式顯示,最大化ELBO同時試圖將 保持接近 ,並將 集中在最大化 的那些 上。也就是說,近似後驗 在保持先驗 的同時,朝着最大似然 移動。 這個形式顯示,最大化ELBO同時試圖保持 的熵高,並將 集中於最大化 的那些 。也就是說,近似後驗 在均勻分佈和向最大後驗 之間保持平衡。
數據處理不等式
假設我們從 中取 個獨立樣本,並將它們收集在數據集 中,則我們具有經驗分佈 。其中 表示衝激函數(Dirac函數)。
從 擬合 通常可以通過最大化對數似然 來完成: 現在,根據 ELBO 不等式,我們可以約束 , 因此 右側簡化為 KL 散度,因此我們得到: 這個結果可以解釋為數據處理不等式的一個特例。
在這個解釋下,最大化 等價於最小化 ,其中上式是真實的需要估計的量 的上界,通過數據處理不等式獲得。也就是說,我們通過將潛在空間與觀測空間連接起來,為了更高效地最小化KL散度而付出了較弱的不等式代價。[3]
參考
註釋