Scrapy
Scrapy(/ˈskreɪpi/ SKRAY-pee[2]是一個用Python編寫的自由且開源的網絡爬蟲框架。它在設計上的初衷是用於爬取網絡數據,但也可用作使用API來提取數據,或作為生成目的的網絡爬蟲[3]。該框架目前由網絡抓取的開發與服務公司Scrapinghub公司維護。
開發者 | Scrapinghub, Ltd. |
---|---|
首次發佈 | 2008年6月26日 |
當前版本 | 2.4.1(2020年11月17日[1]) |
原始碼庫 | |
程式語言 | Python |
作業系統 | Windows、macOS、Linux |
類型 | 網絡爬蟲 |
許可協議 | BSD許可證 |
網站 | scrapy |
Scrapy項目圍繞「蜘蛛」(spiders)建構,蜘蛛是提供一套指令的自包含的爬網程序(crawlers)。遵循其他如Django框架的一次且僅一次精神[4],允許開發者重用代碼將便於構建和拓展大型的爬網項目。Scrapy也提供一個爬網shell,開發者可用它測試對網站的效果。[5]
使用Scrapy的知名公司和產品有:Lyst[6][7]、Parse.ly[8]、Sayone Technologies[9]、Sciences Po Medialab[10]、Data.gov.uk的世界政府數據網站[11]等。
歷史
Scrapy誕生於網絡聚合和電子商務公司Mydeco,它由Mydeco和Insophia公司的員工開發和維護。2008年8月首次以BSD許可證公開發布,2015年6月發佈有里程碑意義的1.0版本[12]。2011年,Scrapinghub成為新的官方維護者[13][14]。
參考文獻
- ^ Release notes — Scrapy documentation. doc.scrapy.org. [18 November 2020]. (原始內容存檔於2020-01-28) (英語).
- ^ How do you pronounce "Scrapy"? (頁面存檔備份,存於互聯網檔案館))
- ^ Scrapy at a glance (頁面存檔備份,存於互聯網檔案館).
- ^ Frequently Asked Questions. [28 July 2015]. (原始內容存檔於2020-11-11).
- ^ Scrapy shell. [28 July 2015]. (原始內容存檔於2020-10-31).
- ^ Bell, Eddie; Heusser, Jonathan. Scalable Scraping Using Machine Learning. [28 July 2015]. (原始內容存檔於2016-10-09).
- ^ Scrapy | Companies using Scrapy. [2020-12-08]. (原始內容存檔於2020-11-12).
- ^ Montalenti, Andrew. Web Crawling & Metadata Extraction in Python. [2020-12-08]. (原始內容存檔於2020-09-19).
- ^ Scrapy Companies. Scrapy website. [2020-12-08]. (原始內容存檔於2020-11-12).
- ^ Hyphe v0.0.0: the first release of our new webcrawler is out!. [2020-12-08]. (原始內容存檔於2016-06-13).
- ^ Ben Firshman [@bfirsh]. World Govt Data site uses Django, Solr, Haystack, Scrapy and other exciting buzzwords bit.ly/5jU3La #opendata #datastore (推文). 21 January 2010 –透過Twitter.
- ^ Medina, Julia. Scrapy 1.0 official release out! . scrapy-users (郵件列表). 19 June 2015 [2018-09-13]. (原始內容存檔於2011-01-22).
- ^ Pablo Hoffman. List of the primary authors & contributors. 2013 [18 November 2013]. (原始內容存檔於2017-05-29).
- ^ Interview Scraping Hub (頁面存檔備份,存於互聯網檔案館).
外部連結
參見
- robots.txt:放在網頁伺服器上,告知網絡蜘蛛哪些頁面內容可取得或不可取得。
- 網絡爬蟲