網(wǎng)絡(luò)爬蟲,英文名為Spider,又稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在數(shù)據(jù)分析應(yīng)用中,更多的將爬蟲稱為數(shù)據(jù)采集程序,是一種按照一定的規(guī)則,自動(dòng)地抓取網(wǎng)絡(luò)信息的程序或者腳本。
• 原則上,只要是客戶端(瀏覽器)能做的事情,爬蟲都能夠做
• 爬蟲也只能獲取客戶端(瀏覽器)所展示出來的數(shù)據(jù)
網(wǎng)絡(luò)中的數(shù)據(jù)可以是由web服務(wù)器【Nginx/Apache】,數(shù)據(jù)庫服務(wù)【MySQL/Redis/MongoDB】,索引庫,大數(shù)據(jù),視頻/圖片庫,云存儲(chǔ)【阿里云的OSS】等提供的,最主要的來源是Web服務(wù)器
不過,大家一定要注意哦,可爬取的數(shù)據(jù)必須是公開的,非盈利的,如:如果侵入人家非公開的網(wǎng)絡(luò),人家會(huì)通過ip定位到你,屬于違法行為的哦,再或者,一些理財(cái)?shù)木W(wǎng)站,如果爬取數(shù)據(jù),肯定是不可以的,如果小伙伴們不聽話,非要去爬取,那任何人都是保護(hù)不了你的哦,狗頭保命~~~
有名的爬蟲案件:簡(jiǎn)歷大數(shù)據(jù)公司“巧達(dá)科技”被一鍋端、“車來了”涉嫌偷數(shù)據(jù)被警方立案等