Google搜尋

Google開發的網路搜索引擎

Google搜尋是由Google公司推出的一個網際網路搜尋引擎,它是網際網路上最大、影響最廣泛的搜尋引擎。Google每日透過不同的服務,處理來自世界各地超過30億次的查詢。

Google搜尋
Google標誌
網站類型
搜尋引擎
語言多國語言(~100)
持有者Google公司
創始人拉里·佩奇謝爾蓋·布林
營業額Google Ads廣告
網址google.com
商業性質
註冊選擇性
推出時間1997年9月15日,​27年前​(1997-09-15[1]
現狀發展中
程式語言Python, C, C++[2]
本條目屬於網路搜尋引擎系列
網路搜尋引擎
元搜尋引擎
國際性搜尋引擎(多語言)
Google
Yahoo! Search
Bing
僅中文搜尋引擎
百度
360搜索
搜狗
yam蕃薯藤
其他搜尋引擎
DuckDuckGo
Ecosia
Exalead
Naver
Yandex
Alexa Internet
AOL
Ask.com
Qwant英語Qwant
其他連結
搜尋引擎的全球市場份額
Google
92.25%
Bing
3.18%
雅虎
1.32%
Yandex
1.02%
百度
0.86%
其它
1.38%
根據StatCounter的2022年2月-2023年2月資料製作[4]

除了搜尋網頁外,Google亦提供搜尋圖像、新聞群組、新聞網頁、地圖、影片的服務。2005年6月,Google已儲存超過80億個網頁,1億3千萬張圖片,以及超過1億的新聞群組訊息 - 總計大概10億4千萬個項目。它也快取了編入索引中的絕大多數網頁的內容。

因為Google的名聲,「Google」一個事物做動詞表示的是「在Google上搜尋」。它還有引申義「在網際網路上搜尋」,甚至「(在實際環境中)搜尋」的意思。Google官方透過律師函強烈反對這種濫用他們公司名字的習慣,因為它可能會導致Google變成一個通用商標名。[5]

搜尋引擎

物理構造

Google於全球數個地方,僱用伺服器中心來存放較低成本的普通電腦,運行Red Hat Linux作業系統來回應搜尋要求和索引網頁。這個於伺服器中心建立的「伺服器園地」以Shared nothing architecture(分佈式資料庫結構)建造。索引是由程式Googlebot執行,它會定期地請求訪問已知的索引建立新頁面。頁面更新愈快,Googlebot訪問亦會愈多。再透過在這些已索引網頁上的連結來發現新頁面,並加入到資料庫。索引資料庫和網頁快取大小是以兆位元組(terabyte)來衡量的。Google發展了一套檔案系統名為Google檔案系統,儲存這些資料。

Google使用的這些機器的精確大小和位於何處至今未知;Google官方刻意含糊其詞。在John Hennessy和David A. Patterson所著的《電腦結構:走進大數》中,推測Google的伺服器場群集電腦群形成的「搜尋場」在2000年大約應該有6000個處理器,12000個普通IDE硬碟(即每個機器2個硬碟1個處理器),他們位於四個地方:二個在矽谷和二個在維吉尼亞。每個都以OC 48的線路(2488 Mbit/s,參見頻寬)連接著網際網路並且有一個OC 12(622 Mbit/s)線路連接著其他3個Google分站點。這些連接使用思科12000路由器(Gateway),用二個Foundry Networks BigIron 8000的乙太網路交換器分流成4 x 1 Gbit/s的線路連接到64個伺服器夾,裡面前後各是40台電腦和1台惠普乙太網路交換機,所以一個架子共有80個機器和2個惠普交換機。

Google在2004年4月發布的IPO S-1表單後,大財政公司的網際網路開發單位副總裁Tristan Louis估計了2008年伺服器場包含下列各項[1]

  • 720個伺服器架
  • 63,272台機器
  • 126,544個處理器
  • 253,088 GHz的處理能力
  • 126,544 GB主記憶體
  • 5,062 TB的硬碟空間

依照這一估計,Google伺服器場組成了全球最強大的超級電腦,每秒執行速度至少三倍於地球模擬器

PageRank

Google使用一種名為PageRank的演算法,配合搜尋字串來排名網頁,PageRank是以公司創辦人拉里·佩奇命名。PageRank演算法根據加權係數,推斷該其他連結到網頁的價值來處理。PageRank如此取得由人所建立的連結,與及與人關聯的重要性。先前的排名搜尋方法,採用了許多搜尋器,以搜尋的關鍵字和何時搜尋來排名頁面,或有多相關地關聯該搜尋。另外,Google亦採用其他秘密準則,決定排名網頁的結果。

Google不止索引和緩衝HTML檔案,亦索引13種其他檔案類型,例如PDFWord檔案、Excel試算表,以及純文字檔案。除了文字檔案,其他檔案的是先轉換為HTML版本後快取的。所以藉助Google可以不需要有這些檔案的相應程式就可以看見這些非網頁檔案,如Word或是Excel。

Google創新的搜尋技術和典雅的使用者介面設計使Google從第一代搜尋引擎中脫穎而出。Google並非只使用關鍵字代理搜尋技術,它將自身建立在進階PageRank™(網頁級別)技術基礎之上。這項專利技術可確保始終將最重要的搜尋結果首先呈現給使用者。網頁級別可對網頁的重要性進行客觀的分析。用於計算網頁級別的公式包含5億個變數和20多億個項。網頁級別利用巨大的網路連結結構對網頁進行組織整理。當從網頁A連結到網頁B時,Google就認為「網頁A投了網頁B一票」。Google還對投票的網頁進行分析。Google複雜的自動搜尋方法和結構設計被認為可以避免任何人為感情因素提供公正的搜尋結果。隨著搜尋引擎最佳化(SEO)和各種針對PageRank的交換連結的行為的流行,Google的PageRank及公正性也越來越受到人們的質疑。

使用者能自訂搜尋引擎。他們能設定一個預設語言或使用"SafeSearch"過濾技術,設定在每頁上被顯示的結果多少。Google受爭議的放置永久cookie在使用者的機器上以儲存這些資訊,這使他們能夠了解過去使用者的搜尋內容。任何一次搜尋請求(只有頭10個關鍵字被查詢),每次最多查詢頭1000個結果(以每一頁最多100個結果的方式顯示)。

儘管它有極大的索引數目,仍然有相當多數量的資料庫的資料只能是從網站訪問到,而不是藉由連接。這所謂的深網暫時不能被Google資料庫所覆蓋,舉例來說包含了圖書館目錄,官方的法定(政府)公文,電話簿等。

(關於PageRank™的介紹,參見Google的Why Use Google頁頁面存檔備份,存於網際網路檔案館))

Google跳舞

Google跳舞是一種經常被討論的現象,Google跳舞指的是Google月底大量更新資料庫和演算法的幾天時間,因為可以發現,這幾天對Google搜尋關鍵字如www.yahoo.com得到的結果數是不一樣的。在跳舞期間,一個站點的等級可能在短時間裡戲劇般的改變,而且不同的Google伺服器(舉例來說:www.google.com, www2.google.com, www3.google.com, www.google.co.uk, www.google.com.hk 等)可能為相同的關鍵字提供不同的結果。跳舞似乎當是googlebot機器人抓取網頁期間隨即發生的。快速更新的網站,進階別的網頁和新聞網站是最經常被檢查的,雖然新聞不一定如此。小的調節在每月里持續進行以確定網頁級別。在一些情況下,可能需要二到三個月讓新建頁面出現在搜尋結果里。從2003年的夏季開始,每月的搜尋,索引和等級更新被不間斷的持續更新所取代。這種改變大大減少了Google搜尋結果的不穩定性。2003年11月15日,Google似乎進行了有史以來最重要的一次演算法升級,後來被稱為「佛羅里達更新」。在這次更新中,幾乎所有商業領域的關鍵字都受到了影響,尤其是一些熱門的關鍵字,Google搜尋的結果頁完全變了個樣兒,很多頭一天還排在首位的網站被遠遠甩到了500名之後。

Google目前的主要挑戰之一是,它的演算法和結果越是得到網路使用者的信賴,商業網站為了利益而暗中破壞結果的風險就越戲劇般的增加。一些搜尋引擎最佳化公司已經開始嘗試使用各種不同的技巧提升Google網頁評級,以使他們客戶的網站更多的被搜尋到。Google已經設法減少了一些已知的使用這種方法的網站的Google頁面評級。

由於Google實際上已經成為國際上最流行的搜尋引擎,很多網站管理員十分熱衷於跟蹤他們網站在Google上的左側排名,並試圖解釋他們排名變化的原因。現在已有不少網站提供排名Google搜尋引擎最佳化(Search Engine Optimization,SEO)服務,如在一些高流量的討論區內加入商業網站的連結,從而使該網站在Google的排名提高。這種措施的確有一定成效,但這種收取客戶金錢,在第三者的討論區上展示廣告,對討論區的讀者造成困擾,也侵害了討論區的商業利益。

還有一種被普遍採用的技術是很多網站使用一個相同的關鍵字連接到某一個特定的網站,以使使用者在Google搜尋這個關鍵字的時候,這個網站的排名會出現在結果的較前面。這種方法被稱為Google炸彈。現在Google演算法更新的頻率非常快,據猜測,現在演算法公式中涉及的變數有300多個,PageRank™在整個Google演算法中的影響力已經下降到20%左右,最終平衡的演算法中最重要的變數所占的比例不會超過10%,單純靠技術手段提升排名的網站已經禁不住時間的考驗。

Google發布了一系列的文章((頁面存檔備份,存於網際網路檔案館))以指導站長們提升他們網站的頁面評級。

SearchWiki

SearchWiki是Google搜尋引擎Web 2.0化的一個體現,讓登錄的使用者得以參與搜尋結果的評定。在每個搜尋結果中新增了「調升」、「移除」與「評論」的按鈕:「調升」允許使用者將某搜尋結果提升到前方;「移除」則可以刪除某搜尋結果;「評論」則可以針對某搜尋結果留下意見。為防止惡作劇與破壞損害了搜尋結果可信度,以上的變動都會記錄下登錄使用者名稱,而且其他登錄使用者也能看到誰做了什麼改變。

典型的Web 2.0概念網站維基百科創始人吉米·威爾士亦曾提出透過讓使用者參與評定以集使用者群力加強搜尋結果有效度的想法,其具體實現即為Wikia Search

隱私

2022年4月底,Google表示使用者可以要求該公司將他們的位址和電話號碼從搜尋結果中刪除。[6]

搜尋產品

除了搜尋網頁工具,Google還提供搜尋圖像、網路論壇、新聞、影片、當地搜尋、地圖、桌面搜尋等服務。2006年,Google已經索引了250億個網頁與及13億張圖像。

Google還有並非直接與搜尋相關的產品。例如Gmail是一個電子郵件服務,但仍包括搜尋功能;Google Browser Sync不提供任何搜尋工具,旨在組織使用者的瀏覽時間。

Google隨打即搜

Google隨打即搜(Instant Search)是Google於2010年9月8日發布的一個新的搜尋技術[7],是一項搜尋增強功能,能夠使使用者在輸入內容的同時顯示搜尋結果,而不需要點擊搜尋按鈕或者按下確認鍵。這樣一來,使用者在輸入內容的同時就可瀏覽到相關的搜尋結果頁,大大節約了搜尋消耗的時間[8]

Google隨打即搜可以在使用者即使不知道要尋找什麼,其聯想查詢也對搜尋操作有引導幫助,最熱門的聯想查詢詞語會以灰色的文字形式直接地顯示在搜尋方塊里,這樣當使用者一看到所需的搜尋結果時,就可以停止輸入了。[9]而使用者也可以選擇停用這一功能。[10]

對行動裝置的支援

對於大多區域、語言,Google隨打即搜可以在應用Android 2.2+或者iOS 4+系統的行動裝置上作為測試版功能來使用。[11]

審查

色情或其他有冒犯性的搜尋關鍵字不會被納入隨打即搜。出版物2600: The Hacker Quarterly英語2600: The Hacker Quarterly編譯了Google Instant不會搜尋的關鍵字列表[12],即Google Instant不會給出含有這些關鍵字的隨打即搜搜尋結果。[13][14]

搜尋結果即時預覽

Google在搜尋結果中提供即時預覽功能,可在點擊搜尋結果前預覽對應的網頁。使用者在搜尋結果右側的灰色箭頭滑鼠懸停,右側空白處便會以圖片的形式給出相應的網頁即時預覽。在部分預覽中,預覽圖片上的相關程度較高的部分文字會突顯於顯示網頁上,從而幫助使用者更好地了解查詢字詞在網頁中將要出現的位置。[15]

預覽中還包含兩個連結,一個是快取網頁,另一個是類似結果。[15]

不過,有些搜尋結果可能不會提供預覽。[15]

行動服務

Google針對AndroidiOS系統的行動裝置,提供下載包含行動搜尋、Google助理等多樣服務的Google app[註 1],在Android系統搭載Google Play服務下內建並可更新[17][註 2]

2015年4月,Google宣佈實施移動搜尋演算法調整的工作,Google會優先顯示對移動端進行優化的網頁內容。這個調整全面影響所有網頁的移動搜尋排序。[18]截至2018年12月,在所有搜尋結果中,超過一半的網頁使用行動優先索引,這意味著谷歌搜尋結果更偏重行動端網站,而不是PC端網站。[19]

使用技巧

google搜尋方法 [20]
inurl: 搜尋網頁連接中包含的關鍵字
site: 搜尋特定域名的網頁
link: 搜尋鏈結到指定網址的網頁

事件

故障

2009年1月31日晚間10時46分(UTC+8)左右,Google搜尋引擎的中英文等搜尋的結果全部加上了「這個網站可能會損害您的電腦。」。其間,Google的網站管理員中心無法訪問,顯示「Server Error(伺服器故障)」。並且有短暫的修復,之後問題仍然存在。此現象約至11時18分(UTC+8)結束,前後至少30分鐘。後Google在官方部落格中證實,這是人為失誤,由於惡意網址庫中不慎包含了位址「/」,導致所有包含「/」的網址皆被認為包含可能傷害電腦的軟體。[21]在這個故障後,Google News也出現了一些微小的問題。

駭客襲擊

2013年8月26日,幾名巴勒斯坦的駭客劫持了「Google巴勒斯坦」的域名然後使其重新導向至他們的網站,並在其網頁上寫了抗議文字。[22][23]

與澳大利亞政府的法律糾紛

2021年1月22日,澳大利亞政府擬定一項法案,要求GoogleFacebook等公司向澳大利亞當地的新聞出版商付款後,才能展示新聞內容。澳洲議會在2月25日正式通過備受爭議的《新聞媒體與數字平台強制議價法》(News Media and Digital Platforms Mandatory Bargaining Code)。美國網路巨頭谷歌曾警告,一旦新法實施,該公司會將其搜尋引擎服務撤出澳大利亞。[24]因此,在澳大利亞地區的Google搜尋頁面上出現黃標警告[25],目前該警告標識已移除。

擬停止在香港地區提供搜尋服務

2021年7月6日,香港政府修訂《個人資料(私隱)條例》從而打擊人肉搜尋行為。FacebookGoogleTwitter公司警告香港政府,若繼續推動修訂個人資料條例,將會停止在香港提供服務。[26]10月8日,隱私條例修訂生效。[27]

Google搜尋在中國大陸

Google.com曾經多次被中國官方以未公開理由封鎖。2009年6月18日,中央電視台焦點訪談》節目批評谷歌的搜尋詞語聯想的功能傳播色情低俗資訊。在輸入普通的詞語如「母親」時聯想到淫穢內容,一時間谷歌備受中國官媒指責。而據谷歌Trends功能顯示,6月10日來自北京的IP惡意刷入近百次黃色詞語,使黃色詞彙搜尋量猛增,17日後此關鍵字逐漸回落至0。2009年6月24日21時左右,北京的網際網路使用者無法訪問Google.com和Gmail,但使用代理伺服器等手段(俗稱翻牆)可以正常訪問,約兩小時後,Google服務恢復訪問[28]

2010年1月14日,Google旗下的Gmail遭到可能來自中國的駭客入侵,並企圖下載中國人權活動人士的電子郵件。Google後來宣布,Google.cn的搜尋服務將關閉,轉由香港域名面向中國大陸使用者提供簡體中文服務。

此後,中國大陸使用者訪問Google時,常被防火長城干擾[29],並於2014年開始完全無法登入[30]

國際化

Google可以搜尋很多的語言,並且提供了多種語言的介面[31]

為了達到幽默效果,Google還提供了以下幾種語言的介面:

註釋

  1. ^ 前稱「Google搜尋應用程式」(Google Search app)[16]
  2. ^ Google app與Google Workspace舊稱「Google Apps」容易混淆,須注意兩者區別。

參考文獻

  1. ^ WHOIS - google.com. [2007-08-10]. (原始內容存檔於2012-05-20). 
  2. ^ The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Science Department, Stanford University, Stanford, CA. [January 27, 2009]. (原始內容存檔於2012-03-30). 
  3. ^ Alexa Google traffic results. Alexa. [2009-11-15]. (原始內容存檔於2007-11-11). 
  4. ^ Search Engine Market Share Worldwide. StatCounter Global Stats. [2023-03-18] (英語). 
  5. ^ 存档副本. [2013-01-07]. (原始內容存檔於2012-05-30). 
  6. ^ 谷歌保障用戶私隱新政策 准刪搜索結果中個人信息. 星島日報. 
  7. ^ Google Instant Launch Event. [2012-08-10]. (原始內容存檔於2012-08-09). 
  8. ^ “Google即搜即得可为每次搜索节省2到5秒的时间”. [2012-08-10]. (原始內容存檔於2012-08-12). 
  9. ^ 联想查询更智能. [2012-08-10]. (原始內容存檔於2012-08-12). 
  10. ^ 可以停用Google即搜即得吗?. [2012-08-10]. (原始內容存檔於2012-08-12). 
  11. ^ Google即搜即得能否在移动设备上使用?. [2012-08-10]. (原始內容存檔於2012-08-12). 
  12. ^ 2600.com: Google Blacklist - Words That Google Instant Doesn't Like. [2016-11-28]. (原始內容存檔於2017-01-10). 
  13. ^ CNN: Which words does Google Instant blacklist?. [2016-11-28]. (原始內容存檔於2016-03-28). 
  14. ^ The Huffington Post: Google Instant Censorship: The Strangest Terms Blacklisted By Google. [2016-11-28]. (原始內容存檔於2010-10-03). 
  15. ^ 15.0 15.1 15.2 即时预览 - Google网页搜索帮助. [2012-08-10]. (原始內容存檔於2012-05-05). 
  16. ^ Google搜尋應用程式 Windows 8 專用版. [2021-06-09]. (原始內容存檔於2021-06-08). 
  17. ^ Google搜尋說明. [2021-06-08]. (原始內容存檔於2021-06-07). 
  18. ^ Google正式調整移動搜索算法:優先展示移動端優化的網頁 閱讀整篇文章. [2022-05-08]. (原始內容存檔於2022-05-08). 
  19. ^ 谷歌:超过一半搜索结果已转向移动优先索引. 
  20. ^ 善用GOOGLE -- 從入門到精通. [2016-05-19]. (原始內容存檔於2016-05-25). 
  21. ^ Google的官方博客声明. [2009-01-31]. (原始內容存檔於2009-02-02). 
  22. ^ Google巴勒斯坦网站首页遭黑客篡改. 新華網. 2013-08-27 [2013-08-29]. (原始內容存檔於2013-08-29). 
  23. ^ Google巴勒斯坦网站被黑. cnBeta. 2013-08-27 [2013-08-29]. (原始內容存檔於2013-08-29). 
  24. ^ 谷歌威胁撤出澳大利亚,一场牵扯新闻业营收纠纷. BBC中文網. [2021-01-22]. (原始內容存檔於2022-05-02). 
  25. ^ 最近用Google搜索时出现了不寻常!谷歌和澳媒扛上了吗?(组图). 大魚新聞. [2021-08]. [失效連結]
  26. ^ 「起底」刑法化,Facebook、Twitter、Google 警告撤出香港,公署否認影響言論自由. engadget中文網. [2021-07-06]. (原始內容存檔於2021-07-23). 
  27. ^ 政府正式刊憲生效 私隱公署及警方將加強執法. 2021-10-08 [2022-08-27]. (原始內容存檔於2022-08-27). 
  28. ^ Kathrin Hille and Richard Waters. China blocks Google website. FT.com. June 24, 2009 [2009-06-25]. (原始內容存檔於2019-10-17) (英語). 
  29. ^ Levin, Dan. 谷歌服务在中国遭遇大规模干扰. 紐約時報中文網. 2014-06-03 [2016-10-03]. (原始內容存檔於2015-08-05) (中文). 自2010年以來,谷歌服務一直受到不同程度的干擾。 
  30. ^ 天安门事件前夕谷歌被封锁; 镜像网站提供不受审查的访问. GreatFire.org. 2014-06-02 [2016-10-03]. (原始內容存檔於2016-03-31) (中文). 
  31. ^ 让Google说您的语言. Google. [2010-06-23]. (原始內容存檔於2010-04-15). 

外部連結

參見