潜在语义学

(重定向自潜在语义分析

潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。

潛在語義學的觀念也被應用在資訊檢索上,所以有時潛在語義學也被稱為隱含語義索引(Latent Semantic Indexing,LSI)。

概述

隱含語義索引是一種以向量空間模型為基底的資訊檢索技術,常以字詞-文件矩陣表示字詞與文件之間的關聯;而其多以行代表字詞〈term〉,列代表文件〈document〉。

而在矩陣中每個元素的權重值以TF-IDF計算後得到。該字詞在某個文件中的重要性,與該字詞在該文件中出現的次數成正比,與其在所有文件中出現的次數成反比。

而這個字詞-文件矩陣本身也代表著一個標準的語義模組,因為數學矩陣的格式並不是經常的被使用,所以不會太特別的註明其為一個矩陣的型態。

應用

關於隱含語義索引的其他應用:

  1. 比對文件之間的概念(資料挖掘文件分類
  2. 分析後比對不同語言文章的相似度(跨語檢索
  3. 找出字詞間的關聯(同義詞或是多義性
  4. 給定一個查詢詞彙,轉換到概念空間,且找出符合的文件(資訊檢索

同義詞和多義性是自然語言處理中最基本的問題。

同義現象是指不同的詞語表示相同的的意思。因此,在搜索引擎不會返回一個文檔,即使它與該查詢是相關的,只是由於它不包含查詢關鍵詞中的詞語。例如,查詢“doctors”(医生)時,不會返回包含“physicians”(內科醫生)的文檔,即使它們的意思相同。

多義現象是指一個詞語含有多種意思。因此,查詢的結果可能返回許多不相關的文檔,只是由於它們包含了查詢關鍵詞中的詞語。例如,植物學家和計算機專家在查詢同一個關鍵詞“樹”的時候,它們希望得到的結果是完全不同的。

降維

當生成了詞彙-文檔矩陣后,LSA提供了一種對它的低維近似(可以通過對字詞—文檔矩陣的奇異值分解(SVD)来实现)。做這種近似有以下幾種原因:

  1. 對原始的詞彙-文檔矩陣進行計算時,計算量太大。而低維矩陣提供了一種近似(儘量少但卻不可避免地有一些信息丟失)。
  2. 原始的矩陣一般包含噪聲(垃圾信息)。在這種意義上,近似的低維矩陣是一種去噪矩陣(比原始矩陣更好)。
  3. 原始的詞彙-文檔矩陣過度地稀疏。它羅列了每篇文檔中的實際出現的詞彙,而由於同義詞的存在,我們關心的是所有地與文檔有關係的詞彙集合,這個集合一般要比實際出現的詞彙集合要大得多。

实现

奇異值分解(svd)是一種典型的使用大型矩陣的運算方法,會佔用較大的存儲空間,可以通過一種類似神經網絡的計算方法來大大降低這一計算對內存的佔用。現在已經有一種快速的,佔用內存較低的,計算大型矩陣的svd算法,見應用文獻【3】.可以使用MATLAB和Python來實現這一算法。

另见

参考文献

  • Handbook of Latent Semantic Analysis, Edited by Thomas K Landauer, Danielle S. McNamara, Simon Dennis and Walter Kintsch, Lawrence Erlbaum Associates, Inc., 2007.
  • 科罗拉多大学的潜在语义学网上工具页面存档备份,存于互联网档案馆
  • Matthew Brand (2006). "Fast Low-Rank Modifications of the Thin Singular Value Decomposition" (PDF). Linear Algebra and Its Applications 415: 20–30. doi:10.1016/j.laa.2005.07.021