Scrapy

Scrapy
開發者	Scrapinghub, Ltd.（英語：Scrapinghub, Ltd.）
首次發佈	2008年6月26日
當前版本	2.4.1（2020年11月17日，3年前）
原始碼庫	github.com/scrapy/scrapy;
程式語言	Python
作業系統	Windows、macOS、Linux
類型	網絡爬蟲
許可協議	BSD許可證
網站	scrapy.org

Scrapy（/ˈskreɪpi/ SKRAY-pee^[2]是一個用Python編寫的自由且開源的網絡爬蟲框架。它在設計上的初衷是用於爬取網絡數據，但也可用作使用API來提取數據，或作為生成目的的網絡爬蟲^[3]。該框架目前由網絡抓取的開發與服務公司Scrapinghub公司（英語：Scrapinghub Ltd.）維護。

Scrapy項目圍繞「蜘蛛」（spiders）建構，蜘蛛是提供一套指令的自包含的爬網程序（crawlers）。遵循其他如Django框架的一次且僅一次精神^[4]，允許開發者重用代碼將便於構建和拓展大型的爬網項目。Scrapy也提供一個爬網shell，開發者可用它測試對網站的效果。^[5]

使用Scrapy的知名公司和產品有：Lyst^[6]^[7]、Parse.ly（英語：Parse.ly）^[8]、Sayone Technologies（英語：Sayone Technologies）^[9]、Sciences Po Medialab^[10]、Data.gov.uk（英語：Data.gov.uk）的世界政府數據網站^[11]等。

歷史

Scrapy誕生於網絡聚合和電子商務公司Mydeco，它由Mydeco和Insophia公司的員工開發和維護。2008年8月首次以BSD許可證公開發布，2015年6月發佈有里程碑意義的1.0版本^[12]。2011年，Scrapinghub成為新的官方維護者^[13]^[14]。

參考文獻

^ Release notes — Scrapy documentation. doc.scrapy.org. [18 November 2020]. （原始內容存檔於2020-01-28）（英語）.
^ How do you pronounce "Scrapy"? （頁面存檔備份，存於互聯網檔案館））
^ Scrapy at a glance （頁面存檔備份，存於互聯網檔案館）.
^ Frequently Asked Questions. [28 July 2015]. （原始內容存檔於2020-11-11）.
^ Scrapy shell. [28 July 2015]. （原始內容存檔於2020-10-31）.
^ Bell, Eddie; Heusser, Jonathan. Scalable Scraping Using Machine Learning. [28 July 2015]. （原始內容存檔於2016-10-09）.
^ Scrapy | Companies using Scrapy. [2020-12-08]. （原始內容存檔於2020-11-12）.
^ Montalenti, Andrew. Web Crawling & Metadata Extraction in Python. [2020-12-08]. （原始內容存檔於2020-09-19）.
^ Scrapy Companies. Scrapy website. [2020-12-08]. （原始內容存檔於2020-11-12）.
^ Hyphe v0.0.0: the first release of our new webcrawler is out!. [2020-12-08]. （原始內容存檔於2016-06-13）.
^ Ben Firshman [@bfirsh]. World Govt Data site uses Django, Solr, Haystack, Scrapy and other exciting buzzwords bit.ly/5jU3La #opendata #datastore (推文). 21 January 2010 –透過Twitter.
^ Medina, Julia. Scrapy 1.0 official release out! . scrapy-users (郵件列表). 19 June 2015 [2018-09-13]. （原始內容存檔於2011-01-22）.
^ Pablo Hoffman. List of the primary authors & contributors. 2013 [18 November 2013]. （原始內容存檔於2017-05-29）.
^ Interview Scraping Hub （頁面存檔備份，存於互聯網檔案館）.

外部連結

官方網站

參見

robots.txt：放在網頁伺服器上，告知網絡蜘蛛哪些頁面內容可取得或不可取得。
網絡爬蟲

[1] Release notes — Scrapy documentation. doc.scrapy.org. [18 November 2020]. （原始內容存檔於2020-01-28）（英語）.

[2] How do you pronounce "Scrapy"? （頁面存檔備份，存於互聯網檔案館））

[3] Scrapy at a glance （頁面存檔備份，存於互聯網檔案館）.

[4] Frequently Asked Questions. [28 July 2015]. （原始內容存檔於2020-11-11）.

[5] Scrapy shell. [28 July 2015]. （原始內容存檔於2020-10-31）.

[6] Bell, Eddie; Heusser, Jonathan. Scalable Scraping Using Machine Learning. [28 July 2015]. （原始內容存檔於2016-10-09）.

[7] Scrapy | Companies using Scrapy. [2020-12-08]. （原始內容存檔於2020-11-12）.

[8] Montalenti, Andrew. Web Crawling & Metadata Extraction in Python. [2020-12-08]. （原始內容存檔於2020-09-19）.

[9] Scrapy Companies. Scrapy website. [2020-12-08]. （原始內容存檔於2020-11-12）.

[10] Hyphe v0.0.0: the first release of our new webcrawler is out!. [2020-12-08]. （原始內容存檔於2016-06-13）.

[11] Ben Firshman [@bfirsh]. World Govt Data site uses Django, Solr, Haystack, Scrapy and other exciting buzzwords bit.ly/5jU3La #opendata #datastore (推文). 21 January 2010 –透過Twitter.

[12] Medina, Julia. Scrapy 1.0 official release out! . scrapy-users (郵件列表). 19 June 2015 [2018-09-13]. （原始內容存檔於2011-01-22）.

[list-13] Pablo Hoffman. List of the primary authors & contributors. 2013 [18 November 2013]. （原始內容存檔於2017-05-29）.

[14] Interview Scraping Hub （頁面存檔備份，存於互聯網檔案館）.

[2]

[3]

[1]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]