維基百科:來源覆蓋度檢查
本頁簡而言之:平均每100個漢字就應當有一個註腳列明來源;如果超過200個漢字對應一個註腳,可能意味着條目存在潛在的問題。 |
維基百科可供查證方針和列明來源指引清晰的闡述了編者最好以註腳的形式列出來源。可以近似的將每個註腳對應的平均正文長度作為來源覆蓋度的指標;每個註腳平均正文長度越長,則來源覆蓋度越低,反之則來源覆蓋度越高。
一般而言,一個好的條目,最好能做到每個可能被質疑的論斷都有來源支撐。這可以大致理解為,平均每100個漢字(300位元組)就應當有一個註腳列明來源,而如果超過200個漢字(600位元組)對應一個註腳,可能意味着條目存在潛在的問題。這個結論並不絕對,存在一些不適用的情形。可以通過自動化工具進行來源覆蓋度檢查。相關數據也顯示,典範條目和優良條目通常有着較高的來源覆蓋度,而一些相對低質素的條目則更可能有着較低的來源覆蓋度。
100個漢字和200個漢字
「100個漢字」的結論來自於以下推理:每個可能被質疑的論斷都應有來源支撐;而在現代漢語中,每個論斷通常可以用大約100個漢字闡述清楚。這一估算實際上比較保守,很多情況下更少的漢字就足夠了;可以參考本論述的導言部分,大約300個漢字,對應了至少6個論斷,平均每個論斷50個漢字。可能存在一些章節,特別是敘述某個過程時,一個來源足以支撐;也可能一些敏感的論斷,其中每個小的事實都需要一個來源支撐。然而,根據統計原理,當一個條目有足夠多數量(通常至少20個)的論斷時,更可能(更高概率)發生的情形是,有的章節需要更多來源,有的章節需要較少來源,但平均值相對固定。
類似的,我們還可以進一步假設每個論斷對應的註腳數量服從泊松分佈,那麼超過200個漢字沒有註腳則很有可能意味着條目存在潛在的問題,需要仔細甄別。可能揭示的問題有:
- 來源缺失,例如整段內容無來源
- 點列式條目或過多瑣碎內容,且沒有列明來源
- 原創研究
- ……
不適用的情形
條目的導言不受來源覆蓋度的要求。根據格式手冊序言章節列明來源的要求,複雜的、正在發生的、或有爭議的主題可能需要列明來源;其他的則列出少量甚或不用列出。因此,常見的情形是導言中甚少列出來源。
請避免引證過頭。來源覆蓋度的假設是每個斷言都有一個來源支撐,在這一前提下平均100個漢字有一個註腳;如果出現引證過頭的情形,雖然平均下來100個漢字有一個註腳,但是其實條目中的某些論斷是沒有來源支撐的。
來源覆蓋度檢查只適用於條目;例如,本論述沒有參照任何來源。
自動化工具
來源覆蓋度檢查提供了一個自動化工具,可以通過複製貼上的方式檢查一段Wiki標記式語言的來源覆蓋度。當發現一處註腳對應了超過200個漢字(600位元組)時,工具會自動加以提醒。目前工具只支援<ref>和{{r}}的形式;其餘形式,例如{{notetag}}和{{harvnb}}的用戶通常也比較熟悉列明來源的要求,較少需要使用工具輔助判斷。
相關數據
下面列出了一些典範條目和優良條目使用自動化工具得到的來源覆蓋度檢查結果。請注意,其中的單位是位元組,需要除以3方可得到漢字字數。
- 言論的邊界的版本46752667
- 正文長度:15285 ;註腳數量:97 ;每個註腳平均正文長度:158
- 注意:發現一處註腳對應了 678 個字元,從以下位置開始:是一本由記者安...(序言章節不受要求)
- 德宏芒市機場的版本47623195
- 正文長度:19507 ;註腳數量:131 ;每個註腳平均正文長度:149
- 注意:發現一處註腳對應了 653 個字元,從以下位置開始:==設施==...(圖片代碼佔據多個位元組)
另一方面,對由於來源不足被復原的優良條目來源覆蓋度檢查,明顯存在問題。
- 藍調的版本30572329
- 正文長度:26473 ;註腳數量:7 ;每個註腳平均正文長度:3782
- 注意:發現一處註腳對應了 630 個字元,從以下位置開始:是一種基於五聲音...
- 注意:發現一處註腳對應了 1185 個字元,從以下位置開始:今天的藍調可以看作是...
- 注意:發現一處註腳對應了 10806 個字元,從以下位置開始:與當時的其它音樂紀錄...(將近4000字沒有來源)
- 注意:發現一處註腳對應了 1099 個字元,從以下位置開始:寫 道,兩位演唱家都...