深網

没有搜索引擎索引的万维网内容

深網,即深層網站(英語:Deep web),是指不能被標準搜索引擎索引的全球資訊網內容。與深網相反的術語是表網,任何人都可以使用網際網路存取。

深網可以直接透過的URLIP位址存取,但可能需要輸入密碼或其他安全資訊才能存取實際內容[1][2]。這類網站用途包括網路郵件網路銀行、限制存取的社群媒體頁面和資料以及使用者必須付費的服務,如隨選視訊、網路雜誌和報紙等。

名詞

2009年,深網與暗網這兩個名詞首度被混為一談,當時討論了深網概念以及自由網黑暗網路上發生的非法活動[3]。這些犯罪活動包括個人密碼、造假身份證件、毒品、槍支和兒童色情交易[4]

從那時起,在媒體報導絲綢之路之後,媒體開始使用深網作為黑暗網站黑暗網路的同義詞,導致了長期的混亂[5][6]Wired記者Kim Zetter和Andy Greenberg建議使用不同的方式使用這些術語。雖然深網是指無法利用傳統搜尋引擎存取的任何網站,但暗網只是深網的一部分,被刻意隱藏並且無法利用一般瀏覽器和方法進入[7][8][9][10][11]

命名

伯格曼在The Journal of Electronic Publishing上發表一篇關於深網的重大論文中提到,吉爾.艾爾斯沃夫曾經使用「隱形網」這一術語表示那些沒有被任何搜索引擎索引註冊的網站[12]。伯格曼還引用法蘭克·加西亞在1996年1月的一篇文章[13]

這些網站可能已經被合理地設計出來了,但是他們卻沒有被任何搜索引擎編列索引,以至於事實上沒有人能找到他們。我可以這樣對這些不可見的網站說,你們是隱藏了的。我稱之為隱形網。

早期另一個使用「隱形網」這一術語的是一家叫做「個人圖書館軟件」公司的布魯斯·芒特和馬修·B·科爾,當他們公司在1996年12月推出和發行的一款軟件時,他們對深網工具的有過這樣的一番描述。[14]

現在普遍接受的深網這一特定術語首次使用在2001年伯格曼的研究中[12]。2001年,電腦科學家邁克爾·伯格曼將當今全球資訊網上的搜索服務比喻為像在地球的海洋表面的拉起一個大網的搜索,巨量的表面信息固然可以通過這種方式被查找得到,可是還有相當大量的信息由於隱藏在深處而被搜索引擎錯失掉。絕大部分這些隱藏的信息是須通過動態請求產生的網頁信息,而標準的搜索引擎卻無法對其進行查找。傳統的搜索引擎「看」不到,也獲取不了這些存在於深網的內容,除非通過特定的搜查這些頁面才會動態產生。於是相對的,深網就隱藏了起來。據估計,深網要比表網大幾個數量級[12]

深網資源

防止網頁被傳統搜索引擎索引的方法可以被分類為以下一個或多個:

  1. 被限制存取的內容:以技術方式限制訪問其網頁的網站,例如Robots.txtCAPTCHAs或是禁止搜尋引擎建立快取[15]
  2. 非HTML或文本的內容:圖像或影片等多媒體或是特定檔案格式無法被搜尋引擎處理。
  3. 私人網站:需要註冊或是登入的網站。
  4. 軟體:某些內容刻意隱藏在一般的網路上,只能使用特殊軟體如TorI2P或其他程式存取。例如Tor讓使用者匿名訪問.onion網址的網站,以隱藏他們的IP位址。
  5. 未被連結的內容:未被其他網站連結或很少連結的網頁,這可能防止被網路爬蟲存取。
  6. 網站檔案管理庫網站時光機這類網站內容的網頁無法被搜尋引擎編入索引[16]

抓取深網內容

研究人員探尋了如何自動抓取深網內容。

2001年,斯利拉姆·拉格哈瓦(Sriram Raghavan)和赫克托·加西亞·莫利納(Hector Garcia-Molina)[17][18]發明了一個從用戶請求界面表格收集關鍵詞的深網抓取模型並且抓取深網資源。加利福尼亞大學洛杉磯分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho創建了一個自動生成有意義的查詢詞的程序。[19]

商業搜索引擎已經開始使用以上兩種方法之一抓取深網。Sitemap協議(由Google於2005年首次開發並由Google引入)和mod oai是允許搜索引擎和其他網絡服務探索深網解決方法。以上兩種解決方法允許網絡服務主動公布網址,這對於他們來說是容易的,因而允許自動探尋資源而不直接通過網絡表面的鏈接。Google的深網探尋系統預先計算每個HTML表單並且添加結果HTML頁面到Google搜索引擎索引。在這個系統裡,使用三種方法計算提交詞:

  1. 為輸入搜索選擇關鍵詞允許的輸入值,
  2. 確定是否只接受特定的值(例如時間),以及
  3. 選擇少量的組合生成適合納入網站的搜索索引網址。

2008年,為了方便Tor隱藏服務的使用者存取和搜尋隱藏的.onion網域,亞倫·斯沃茨設計了Tor2web—一個能夠利用普通瀏覽器存取的代理應用程序[20]

參見

參考資源

  1. ^ Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A., & Halevy, A. (2008). Google's deep web crawl. Proceedings of the VLDB Endowment, 1(2), 1241–52.
  2. ^ Shedden, Sam. How Do You Want Me to Do It? Does It Have to Look like an Accident? – an Assassin Selling a Hit on the Net; Revealed Inside the Deep Web. Sunday Mail. June 8, 2014. (原始內容存檔於March 1, 2020). 
  3. ^ Beckett, Andy. The dark side of the internet. November 26, 2009 [August 9, 2015]. (原始內容存檔於2020-02-26). 
  4. ^ D. Day. Easiest Catch: Don't Be Another Fish in the Dark Net. Wake Forest University: TEDx Talks. (原始內容存檔於November 13, 2021). 
  5. ^ Clearing Up Confusion – Deep Web vs. Dark Web. BrightPlanet. March 27, 2014 [2022-07-03]. (原始內容存檔於2015-05-16). 
  6. ^ Solomon, Jane. The Deep Web vs. The Dark Web. May 6, 2015 [May 26, 2015]. (原始內容存檔於2017-08-14). 
  7. ^ The Impact of the Dark Web on Internet Governance and Cyber Security (PDF). January 20, 2014 [January 15, 2017]. (原始內容 (PDF)存檔於2017-01-16). 
  8. ^ Lam, Kwok-Yan; Chi, Chi-Hung; Qing, Sihan. Information and Communications Security: 18th International Conference, ICICS 2016, Singapore, Singapore, November 29 – December 2, 2016, Proceedings. Springer. November 23, 2016 [January 15, 2017]. ISBN 9783319500119. (原始內容存檔於2022-03-20) (英語). 
  9. ^ The Deep Web vs. The Dark Web | Dictionary.com Blog. Dictionary Blog. May 6, 2015 [January 15, 2017]. (原始內容存檔於2017-08-14). 
  10. ^ Akhgar, Babak; Bayerl, P. Saskia; Sampson, Fraser. Open Source Intelligence Investigation: From Strategy to Implementation. Springer. January 1, 2017 [January 15, 2017]. ISBN 9783319476711. (原始內容存檔於2022-03-19) (英語). 
  11. ^ What is the dark web and who uses it?. The Globe and Mail. [January 15, 2017]. (原始內容存檔於2017-07-21). 
  12. ^ 12.0 12.1 12.2 Bergman, Michael K. The Deep Web: Surfacing Hidden Value. The Journal of Electronic Publishing. August 2001, 7 (1) [2009-02-24]. (原始內容存檔於2011-04-10). . According to that paper, the study was originally published on July 26, 2000, with data then updated to 2001.
  13. ^ Garcia, Frank (January 1996). "Business and Marketing on the Internet". Masthead 9 (1). (Citation from Flynn-Burhoe, Maureen (19 December 2006). "The Ultimate Guide to the Invisible Web頁面存檔備份,存於網際網路檔案館)". oceanflynn @ Digg.) (Electronic copy archived by the Internet Archive.)
  14. ^ Personal Library Software (Dec 1996). "PLS introduces AT1, the first 'second generation' Internet search service". (Archived by the Internet Archive.)
  15. ^ Hypertext Transfer Protocol (HTTP/1.1): Caching. Internet Engineering Task Force. 2014 [2014-07-30]. (原始內容存檔於2017-05-13). 
  16. ^ Wiener-Bronner, Danielle. NASA is indexing the 'Deep Web' to show mankind what Google won't. Fusion. June 10, 2015 [June 27, 2015]. (原始內容存檔於2015-06-30). There are other simpler versions of Memex already available. "If you've ever used the Internet Archive's Wayback Machine", which gives you past versions of a website not accessible through Google, then you've technically searched the Deep Web, said Chris Mattmann. 
  17. ^ Sriram Raghavan; Hector Garcia-Molina. Crawling the Hidden Web (PDF). Stanford Digital Libraries Technical Report. 2000 [2008-12-27]. (原始內容存檔 (PDF)於2018-05-08). 
  18. ^ Raghavan, Sriram; Garcia-Molina, Hector. Crawling the Hidden Web (PDF). Proceedings of the 27th International Conference on Very Large Data Bases (VLDB): 129–138. 2001 [2009-07-14]. (原始內容存檔 (PDF)於2019-07-28). 
  19. ^ Alexandros, Ntoulas; Petros Zerfos, and Junghoo Cho. Downloading Hidden Web Content (PDF). UCLA Computer Science. 2005 [2009-02-24]. (原始內容存檔 (PDF)於2020-06-05). 
  20. ^ Aaron, Swartz. In Defense of Anonymity. [February 4, 2014]. (原始內容存檔於2018-10-31).