在 Scrapy 中要抓取和解析一些邏輯內(nèi)容和提取網(wǎng)站的鏈接,其實(shí)都是需要在 Spider 中完成的。在上一篇文章中我們介紹了Scarpy框架的簡(jiǎn)單使用,后面一些文章我們要陸續(xù)介紹框架里面的Spider、配置、管道、中間件等。scrapy 框架分為spider爬蟲和CrawlSpider(規(guī)則爬蟲),本篇文章主要介紹Spider爬蟲的使用。
spider
在實(shí)現(xiàn) Scrapy 爬蟲項(xiàng)目時(shí),最核心的類就是 Spider 類了,它定義了如何爬取某個(gè)網(wǎng)站的流程和解析方式。簡(jiǎn)單來(lái)講,Spider 要做的事就是如下兩件。
• 定義爬取網(wǎng)站的動(dòng)作
• 分析爬取下來(lái)的網(wǎng)頁(yè)
對(duì)于 Spider 類來(lái)說(shuō),整個(gè)爬取循環(huán)如下所述。
• 以初始的 URL 初始化 Request,并設(shè)置回調(diào)函數(shù)。 當(dāng)該 Request 成功請(qǐng)求并返回時(shí),將生成 Response,并作為參數(shù)傳給該回調(diào)函數(shù)。
• 在回調(diào)函數(shù)內(nèi)分析返回的網(wǎng)頁(yè)內(nèi)容。返回結(jié)果可以有兩種形式,一種是解析到的有效結(jié)果返回字典或 Item 對(duì)象。下一步可經(jīng)過(guò)處理后(或直接)保存,另一種是解析得下一個(gè)(如下一頁(yè))鏈接,可以利用此鏈接構(gòu)造 Request 并設(shè)置新的回調(diào)函數(shù),返回 Request。
• 如果返回的是字典或 Item 對(duì)象,可通過(guò) Feed Exports 等形式存入到文件,如果設(shè)置了 Pipeline 的話,可以經(jīng)由 Pipeline 處理(如過(guò)濾、修正等)并保存。
• 如果返回的是 Reqeust,那么 Request 執(zhí)行成功得到 Response 之后會(huì)再次傳遞給 Request 中定義的回調(diào)函數(shù),可以再次使用選擇器來(lái)分析新得到的網(wǎng)頁(yè)內(nèi)容,并根據(jù)分析的數(shù)據(jù)生成 Item。
通過(guò)以上幾步循環(huán)往復(fù)進(jìn)行,便完成了站點(diǎn)的爬取。
我們以星巴克網(wǎng)站為例,為大家介紹Spider類,首先創(chuàng)建項(xiàng)目和創(chuàng)建爬蟲,具體步驟如下:
scrapy startproject starbuckspro
進(jìn)入starbuckspro中,執(zhí)行scrapy genspider starbucks https://www.starbucks.com.cn
此時(shí)我們就可以看到,有爬蟲文件產(chǎn)生如圖:
此時(shí)大家看到類:StarbucksSpider繼承自scrapy.Spider,這個(gè)類是最簡(jiǎn)單最基本的 Spider 類,任何其他的 Spider 必須繼承這個(gè)類,包括后文要說(shuō)明的一些特殊 Spider 類也都是繼承自它。這個(gè)類里提供了 startrequests () 方法的默認(rèn)實(shí)現(xiàn),讀取并請(qǐng)求 starturls 屬性,并根據(jù)返回的結(jié)果調(diào)用 parse () 方法解析結(jié)果。另外它還有一些基礎(chǔ)屬性,下面對(duì)其進(jìn)行講解:
name: 爬蟲名稱,是定義 Spider 名字的字符串。Spider 的名字定義了 Scrapy 如何定位并初始化 Spider,所以其必須是唯一的。如果該 Spider 爬取單個(gè)網(wǎng)站,一個(gè)常見的做法是以該網(wǎng)站的域名名稱來(lái)命名 Spider。
allowed_domains:允許爬取的域名,是可選配置,不在此范圍的鏈接不會(huì)被跟進(jìn)爬取。
start_urls:起始 URL 列表,當(dāng)我們沒有實(shí)現(xiàn) start_requests () 方法時(shí),默認(rèn)會(huì)從這個(gè)列表開始抓取。
當(dāng)然還有custom_settings和settings,可以進(jìn)行一些設(shè)置或者獲取一些全局的設(shè)置。而crawler屬性是由 from_crawler () 方法設(shè)置的,代表的是本 Spider 類對(duì)應(yīng)的 Crawler 對(duì)象。
除了一些基礎(chǔ)屬性,Spider 還有一些常用的方法:
start_requests ():此方法用于生成初始請(qǐng)求,它必須返回一個(gè)可迭代對(duì)象,此方法會(huì)默認(rèn)使用 start_urls 里面的 URL 來(lái)構(gòu)造 Request,而且 Request 是 GET 請(qǐng)求方式。如果我們想在啟動(dòng)時(shí)以 POST 方式訪問某個(gè)站點(diǎn),可以直接重寫這個(gè)方法,發(fā)送 POST 請(qǐng)求時(shí)我們使用 FormRequest 即可。
parse ():當(dāng) Response 沒有指定回調(diào)函數(shù)時(shí),該方法會(huì)默認(rèn)被調(diào)用,它負(fù)責(zé)處理 Response,處理返回結(jié)果,并從中提取出想要的數(shù)據(jù)和下一步的請(qǐng)求,然后返回。該方法需要返回一個(gè)包含 Request 或 Item 的可迭代對(duì)象。
closed ():當(dāng) Spider 關(guān)閉時(shí),該方法會(huì)被調(diào)用,在這里一般會(huì)定義釋放資源的一些操作或其他收尾操作。
當(dāng)前星巴克的菜單頁(yè)面如上圖,我們要爬取里面的所有菜單名稱和圖片。parse()方法在 Response 沒有指定回調(diào)函數(shù)時(shí),會(huì)默認(rèn)被調(diào)用。所以里面的參數(shù)response就是我們獲取的頁(yè)面結(jié)果,我們要從頁(yè)面中提取想要的菜單名稱和圖片鏈接地址進(jìn)行保存。于是我們要重寫parse()方法和定義Item.py文件
Item
在抓取數(shù)據(jù)的過(guò)程中,主要要做的事就是從雜亂的數(shù)據(jù)中提取出結(jié)構(gòu)化的數(shù)據(jù)。Scrapy的Spider可以把數(shù)據(jù)提取為一個(gè)Python中的字典,雖然字典使用起來(lái)非常方便,對(duì)我們來(lái)說(shuō)也很熟悉,但是字典有一個(gè)缺點(diǎn):缺少固定結(jié)構(gòu)。在一個(gè)擁有許多爬蟲的大項(xiàng)目中,字典非常容易造成字段名稱上的語(yǔ)法錯(cuò)誤,或者是返回不一致的數(shù)據(jù)。
所以Scrapy中,定義了一個(gè)專門的通用數(shù)據(jù)結(jié)構(gòu):Item。這個(gè)Item對(duì)象提供了跟字典相似的API,并且有一個(gè)非常方便的語(yǔ)法來(lái)聲明可用的字段。
我們的Item的代碼內(nèi)容如下(因?yàn)橹恍枰4婷Q和圖片鏈接即可):
構(gòu)建items.py文件完成后,還需要進(jìn)一步處理爬取的數(shù)據(jù),這就需要修改該項(xiàng)目中的pipelines.py文件。
Pipeline
Item Pipeline 是項(xiàng)目管道。也是保存結(jié)構(gòu)數(shù)據(jù)的地。它的調(diào)用發(fā)生在 Spider 產(chǎn)生 Item 之后。當(dāng) Spider 解析完 Response 之后,Item 就會(huì)傳遞到 Item Pipeline,被定義的 Item Pipeline 組件會(huì)順次調(diào)用,完成一連串的處理過(guò)程,比如數(shù)據(jù)清洗、存儲(chǔ)等。 它的主要功能有:
• 清洗 HTML 數(shù)據(jù)
• 驗(yàn)證爬取數(shù)據(jù),檢查爬取字段
• 查重并丟棄重復(fù)內(nèi)容
• 將爬取結(jié)果儲(chǔ)存到數(shù)據(jù)庫(kù)
定義Item非常簡(jiǎn)單,只需要繼承scrapy.Item類,并將所有字段都定義為scrapy.Field類型即可。Field對(duì)象可用來(lái)對(duì)每個(gè)字段指定元數(shù)據(jù)。
其中經(jīng)常使用的方法就是processitem () ,被定義的 Item Pipeline 會(huì)默認(rèn)調(diào)用這個(gè)方法對(duì) Item 進(jìn)行處理。比如,我們可以進(jìn)行數(shù)據(jù)處理或者將數(shù)據(jù)寫入到數(shù)據(jù)庫(kù)等操作。它必須返回 Item 類型的值或者拋出一個(gè) DropItem 異常。 processitem () 方法的參數(shù)有如下兩個(gè)。
• item,是 Item 對(duì)象,即被處理的 Item
• spider,是 Spider 對(duì)象,即生成該 Item 的 Spider
所以我們的Pipeline代碼如下(將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中):
注意在settings.py中設(shè)置當(dāng)前的Pipeline。
為了避免被發(fā)現(xiàn)爬蟲我們還可以在settings.py中,如下設(shè)置:
準(zhǔn)備活動(dòng)完成后,我們開始編寫我們的爬蟲文件,爬取頁(yè)面的分析如下圖
執(zhí)行爬蟲通過(guò)命令:scrapy crawl starbucks,則最后的下載數(shù)據(jù)結(jié)果如下: