概率論統計學機器學習中,圖模式(英語:Graphical Model)是用圖論方法以表現數個獨立隨機變數之關聯的一種建模法。一個個節點的圖中,節點對應一個隨機變數,記為。圖模式被廣泛地應用於貝葉斯統計機器學習中。

有向和無向圖模式的定義

在一個無向圖模式(Undirected Graphical Model)中,兩個節點  之間沒有邊相連,若且唯若它們對應的隨機變數  給定其它所有節點上的隨機變數條件下條件獨立。數學表述為:

 

當所有的隨機變數 的聯合分布是多元常態分布時, 被理解為是多元常態分布的方差矩陣的逆 ,又稱為精度矩陣(Precision Matrix)。現代統計學中,相當大比例的關於無向圖模型的理論結果都是在多元常態分布的假設下取得的。

在一個有向圖模式(Directed Graphical Model)中,兩個節點  之間的邊際獨立性和條件獨立性比較複雜,一般需要用貝葉斯球規則(Bayes Ball)來確定。

一類很重要的有向圖模式叫做有向無環圖模式(Directed Acyclic Graphs, 簡稱DAG),可以證明,相互關係能用DAG表示的p個隨機變數,其聯合分布函數可以被分解為根節點的邊際分布函數乘以由邊決定的那些條件概率。數學表述為:

 

上式中, 表示所有根節點的集合, 表示所有其它節點的集合, 表示有向圖中節點 的所有父節點的集合。

數據類型及研究課題

一般圖模式輸入的數據是其節點上的隨機變數 的獨立重複觀測值,可記為:

 

其中 為樣本量(Sample size)。一般來說,估計和統計推斷的目標是在哪些節點間存在邊,也就是從節點數據中恢復整個網絡的樣貌。現代統計學和生物統計學中,圖模式多研究高維統計的情景,即樣本量遠小於隨機變數數目: 。一般的方法是假設圖模型是一個高度稀疏的圖,也就是只有幾條很少的邊,然後運用懲罰項或邊際過濾等高維統計分析中的常用套路來獲得稀疏的估計。這樣的估計既可以是同時估計整個圖中所有的邊,也可以是對每一個節點估計其所連的邊。理論研究多集中於各種懲罰項所估計出的圖模型,其稀疏性質的正確性(這個概念叫做Sparsistency,注意它並不是相合性(Consistency))。

參見

參考資料