維基百科:失效鏈接

同多數大型網站一樣,維基百科也時常遭遇失效鏈接這一現象,即常用作參考和引用的外部連結,由於所引用的網站消失、變更內容或者移動,導致內容變得不相關或者鏈接直接損壞。這對維基百科的可靠性列明來源的要求來說,是個極大的威脅。

防止失效鏈接顯然比修復或減少失效鏈接要容易得多。因此,對於失效鏈接的防止鞏固了百科全書。該指導給出了預防失效鏈接的一些策略。這其中包括使用網絡存檔服務,以及審慎地使用引用模板。

但是,失效鏈接不可能完全被根除,因此該指引還給出如何減少失效鏈接的方法,如尋找之前的存檔鏈接和使用替代來源。

請不要僅僅因為來源鏈接失效,就刪除事實性的信息。 Wikipedia:可供查證方針並沒有要求所有信息都需有效鏈接佐證,也沒有要求來源必須來自網絡。

除了在外部連結部分,未用來支持條目內容的網址外,不要僅僅因為網址失效,就刪除它。有相關的復原、修複選項和工具。

防止鏈接失效

當你撰寫條目時,可以採取多種方式防止鏈接失效。首先,你可以儘可能多地使用引用模板中的參數,記錄參考的作者、來源、出版者、發布日期等信息,而不是簡單地放置一個鏈接。如果將來鏈接失效,這些額外的信息可以幫助其他維基百科人(編者或讀者)找到原始文本的新來源,無論是來自網絡還是印刷資料。如果只有一個簡單的URL地址,這就不太可能了。本地或者學校的圖書館是尋找線下信息的好去處。許多當地圖書館有室內的查閱處,或者電子數據庫、館內借閱協議,這樣一些難以查找的來源變得更易取得。

網絡存檔服務

網絡存檔服務可以存檔網頁的目前狀態,供以後查閱。最常用的服務有:Wayback Machine(經常自行主動抓取)和 archive.is。這兩個服務都可以按用戶請求保存頁面。此外,搜尋引擎提供的頁庫存檔功能也能用來存取某些失效連結,不過需注意搜尋引擎也會定期清除放置過久的網頁存檔。這些服務都在收集和存儲網絡頁面,以防將來原頁面被移動、修改、刪除或者需要付費訪問。當引用頁面極為不穩定或者時常變動時,比如時效性很強的新聞報道或者財務困難的公司支持的頁面,網絡存檔的重要性愈發凸顯。一旦你找到了網絡頁面的存檔網絡地址,只需要在引用模板中加入archive-url=archive-date=參數標明存檔的URL和存檔時間即可。模板會自動將存檔鏈接加入到參考中。 例如:

不過,並不是所有的網絡頁面都可以存檔。網絡管理員或者出版商可能會使用robots.txt拒絕存檔,或者用複雜的JavaScriptflash和其他代碼使得頁面內容難以輕易被複製。在此種情況下,可以採用存儲數據的替代方案。有時存檔服務所在的國家的IP可能會被一些網站拒絕訪問,又或者某些網站設立了登錄牆login wall),造成存檔失敗或存檔到跳轉頁面,此時建議使用別的存檔服務英語Wikipedia:List of web archives on Wikipedia

網頁存檔服務對比

網頁存檔服務對比

以下列出上面提到的三個存檔服務的詳細特徵。「書籤」提供一個便於使用的書籤小程序,「格式」提供URL存檔格式,而「存在」則給出如何構造URL尋找已有鏈接的存檔。

  • Wayback MachineWP:WAYBACK
    • 書籤javascript:void(open('https://web.archive.org/save/'+document.location))
    • 格式https://archive.org/web/YYYYMMDDHHMMS/URL
    • 存在https://archive.org/web/*/URL(也可以使用通配符 * 匹配 URL 前綴);bot可使用API
    • 支持 HTML、PDF 和純文本等多種格式,另有一個通用的存檔庫可以自行上載文件。
    • 具有主動爬蟲功能,抓取和訪問均受 robots.txt 限制(因此已經抓取的頁面也可能無法訪問)。
  • WebCiteWP:WEBCITE
    • 書籤javascript:void(open('http://www.webcitation.org/archive?url='+encodeURIComponent(document.location)+'&email=USER_EMAIL_HERE'))
      • 請在實際使用時將USER_EMAIL_HERE改為實際郵件地址。
    • 格式http://www.webcitation.org/query?url=URIEncode(URL)&date=YYYY-MM-DD
    • 存在:按格式請求,但不指定日期。
    • 處理完成後會發送郵件到指定的郵件地址。僅在抓取時受 robots.txt 限制。
  • archive.isWP:ARCHIVEIS英語WP:ARCHIVEIS
    • 書籤javascript:void(open('https://archive.fo/?run=1&url='+encodeURIComponent(document.location)))
    • 格式http://archive.is/URL; http://archive.is/时间/URL 時間格式
      • 注意 archive.is 會對於 URL 的不同 #fragment 後綴分開看待。
    • 存在:對 URL 使用不帶時間的格式;另可以使用通配符 * 匹配子域名和 URL 前綴。對Bot支持Memento Project API。
    • 支持 HTML 和純文本,保存樣式、圖像、腳本和網頁截圖,以及保存腳本請求的內容。不支持 PDF,存檔大小限制 50M。
    • 能夠將經由 webcache 或其他存檔服務商存檔的內容分進原頁面的存檔列表,適合在原始資料剛剛消失但還能在網頁快照中找到時使用。
    • archive.is會不帶"robot"標籤抓取內容,因此對於在美國擁有版權的內容可能構成未經許可轉載,以至於違反DMCA。對於這些內容請謹慎使用。

可替代方案

大多數引用模板里含有quote=參數,此參數用來存放從來源材料中引用的少量文本。這對於沒有網絡存檔可用的來源極其有用,這亦可防患選定的網絡存檔服務出現問題。 例如:

當使用quote參數存儲參考文本時,請儘可能選擇最精煉、關係最密切的材料。將來源的所有文本都存儲進來不符合合理使用方針,因此請務必選取最重要的、最能支持文中論述的部分。

引述文本也可以在原來源消失的時候,幫助其他人更方便地尋找其他在線版本來源。

如果可用的話,公有領域的材料可以放置到維基文庫中。

修復失效鏈接

還有很多方法可以修復失效鏈接。一般來說,網頁因為遷移到新的服務器上,或是站點維護會被移動。網站目錄可以幫你方便地查找到移動的頁面。在搜索引擎中對站內進行標題查找,也可能會找到該頁。例如上例,可以使用Google這樣搜索:site:http://freakonomics.blogs.nytimes.com/ "Wall Street Journal Paywall Sturdier Than Suspected"

如果這樣還不行,請前往存檔服務尋找該頁的存檔版本。

減少失效鏈接

有時,所有修復鏈接的嘗試都會以失敗告終。此種情況下,請考慮尋找替代來源替換之前的失效鏈接,這樣就不至於影響到條目的可查證性。有關常見話題的替代來源十分容易尋找。可能只需要簡單地使用搜索引擎查詢一下,就能夠找到一個合適的替代來源,但是請特別注意,不要引用維基百科及其鏡像站點的內容,這將有損可供查證的原則。

但是有的時候無法找到合適的替代來源,或者需要付出更多的查找精力,例如前往圖書館或者使用需付費的數據庫。在此種情況下,可以前往Wikipedia:互助客棧詢問其他維基百科編者。或者,你也可以嘗試聯繫專家,或者對與之相關專題有興趣的編者。

保留失效鏈接

一個失效、未存檔的鏈接可能還有用處。這樣的鏈接至少意味着,相關信息(可能)過去曾經是可供查證的,而此鏈接可能提供給有更多資源或更為專業的用戶足夠多的信息去尋找參考資料。而且失效鏈接可能會自行恢復。有了失效鏈接,也可以查出它是否在其他地方被引用過,或者可以聯繫該來源的最初負責人。例如,如果 http://www.cs.yale.edu/~EliYale/Defense-in-Depth-PhD-thesis.pdf[失效連結] 失效,那麼編者可以聯繫耶魯大學計算機科學部門。請直接在失效鏈接後放置{{dead link}}模板進行標識。

參見