閱讀本文大概需要15分鐘。這是快速入門爬蟲的第一篇,本系列文章將帶領(lǐng)你從0基礎(chǔ)開始,一步一步,從采集一個(gè)簡單的網(wǎng)頁,到復(fù)雜的列表,多頁數(shù)據(jù),Ajax頁面,瀑布流等等,直到應(yīng)對常見封IP,驗(yàn)證碼等防采集措施,包括采集淘寶,京東,微信,大眾點(diǎn)評等熱門網(wǎng)站。由淺入深,循序漸進(jìn)的深入網(wǎng)頁數(shù)據(jù)采集領(lǐng)域,相信認(rèn)真學(xué)完本系列,你也會成為采集大神,有能力把互聯(lián)網(wǎng)變成自己的數(shù)據(jù)庫(這一段提到了Ajax等專業(yè)數(shù)據(jù),你可能不懂,但有個(gè)好消息:到目前為止你不需要了解這些技術(shù)概念)。
學(xué)習(xí)本篇內(nèi)容,你需要先掌握以下知識:
- 會上網(wǎng),知道什么是網(wǎng)頁,什么是網(wǎng)址,什么是瀏覽器。
- 會使用windows XP,windows 7,windows 8.1,windows 10等操作系統(tǒng),會使用Excel。
- 沒有了,如果1、2點(diǎn)有不懂的,我墻裂建議你百度一下。
- 什么是爬蟲,什么是網(wǎng)頁采集器,八爪魚采集器是什么。
- 使用八爪魚采集器采集一個(gè)新聞網(wǎng)頁,獲取一條新聞數(shù)據(jù)。
好了,能讀到這里我相信上面的要求對你而言太容易達(dá)到了。因?yàn)橛辛税俣取⒅踹@些知識平臺,我相信查詢一個(gè)名詞很容易,除非你是伸手黨。但是往往這些名詞的解釋過于專業(yè),同時(shí)又提到更多專業(yè)術(shù)語,容易讓人困惑,所以我這里給出的解釋不一定那么專業(yè)嚴(yán)謹(jǐn),但是卻通俗易懂。
- 什么是爬蟲:我們講的不是真正的動(dòng)物或者小蟲子,而是一些自動(dòng)化的程序或者軟件,會自動(dòng)瀏覽網(wǎng)頁,并從網(wǎng)頁上獲取內(nèi)容。百度就是一個(gè)典型的爬蟲,百度從各個(gè)網(wǎng)站上自動(dòng)瀏覽網(wǎng)頁,然后把網(wǎng)頁內(nèi)容存起來,給我們提供了一個(gè)搜索的工具,我們輸入關(guān)鍵詞,百度就會搜索爬蟲保存的網(wǎng)頁內(nèi)容,羅列相關(guān)網(wǎng)站當(dāng)做搜索結(jié)果。
- 什么是網(wǎng)頁采集器:我這里講的網(wǎng)頁采集器專門指會根據(jù)用戶的指令或者設(shè)置,從指定的網(wǎng)頁上獲取用戶指定內(nèi)容的工具軟件。嚴(yán)格來講,我這里說的網(wǎng)頁采集器也是爬蟲的一種。
- 八爪魚采集器:八爪魚采集器就是一種網(wǎng)頁采集器,用戶可以設(shè)置從哪個(gè)網(wǎng)站爬取數(shù)據(jù),爬取那些數(shù)據(jù),爬取什么范圍的數(shù)據(jù),什么時(shí)候去爬取數(shù)據(jù),爬取的數(shù)據(jù)如何保存等等。

接下來,讓我們從一個(gè)最簡答的任務(wù)開始,采集一篇新聞(一個(gè)網(wǎng)頁),上手操作一下如何采集數(shù)據(jù)。 開始采集之前,你需要下載并安裝八爪魚采集器,八爪魚采集器目前僅支持windows操作系統(tǒng),如果你正在使用Mac電腦或者Linux操作系統(tǒng),請更換一臺電腦,或者在Mac、Linux上安裝windows虛擬機(jī),然后在windows虛擬機(jī)上安裝八爪魚采集器。你可以百度如何安裝虛擬機(jī),我稍后會專門寫一篇文章講解如何通過虛擬機(jī)來安裝八爪魚采集器。 1. 下載八爪魚采集器:免費(fèi)下載 – 八爪魚采集器,網(wǎng)址:http://www.bazhuayu.com/download。注意:截止本文發(fā)稿時(shí),八爪魚采集器最新版本為7.1.6。八爪魚官網(wǎng)同時(shí)提供了6.4.5版本和7.1.6版本的下載鏈接(注意下載按鈕下面的小字鏈接)。
你也可以直接點(diǎn)擊這個(gè)鏈接下載八爪魚采集器最新版本:http://www.bazhuayu.com/Download/DownloadHandler?version=new&from=minor,我建議大家總是下載最新版本,八爪魚大概每個(gè)月升級1-2次,因此后續(xù)可能有更新的版本,但是就本教程的內(nèi)容而言,新版本的主要操作學(xué)習(xí)過程不會有大變化,但是新版本通常性能更好,穩(wěn)定性更高。 注:如果安裝過程碰到任何問題,請點(diǎn)擊鏈接:八爪魚論壇安裝問題板塊,查看常見問題及解決方法。如果您使用的是window xp操作系統(tǒng),則可能需要安裝一個(gè)windows系統(tǒng)組件:.NET Framework 3.5 SP1,簡稱.NET 3.5。八爪魚采集器需要.NET3.5 SP1支持,Win 7/8/10已經(jīng)內(nèi)置支持,無需下載,但XP系統(tǒng)需要安裝,軟件會在安裝時(shí)自動(dòng)檢測是否安裝了.NET 3.5 SP1,如果沒有安裝則會自動(dòng)從微軟官方在線安裝,國內(nèi)在線安裝速度很慢,建議先從以下鏈接下載安裝.NET 3.5 SP1,然后再安裝八爪魚采集器。點(diǎn)擊這里下載.NET3.5 SP1 離線安裝包。2. 安裝八爪魚采集器:下載后是一個(gè)zip文件,解壓縮,然后運(yùn)行里面的 OctopusSetup7.1.6.11022.exe,這個(gè)安裝文件。
不同版本可能名字具體不一樣,但是下載的zip壓縮文件中只有這一個(gè)exe文件,其他還有幾個(gè)txt文件。安裝過程很簡單,20秒左右就安裝完成了。安裝完成后,點(diǎn)擊安裝完成界面的“立即體驗(yàn)”按鈕,或者在桌面上雙擊“八爪魚采集器”快捷方式,就可以啟動(dòng)八爪魚采集器了。 3. 注冊并登陸八爪魚賬號,八爪魚客戶端需要登陸才能使用,不過好消息是,使用一個(gè)手機(jī)號或者郵箱就可以免費(fèi)注冊。點(diǎn)擊八爪魚采集器客戶端登錄界面的“免費(fèi)注冊”鏈接:

或者你也可以直接到八爪魚網(wǎng)站免費(fèi)注冊:注冊八爪魚 – 八爪魚采集器,網(wǎng)址:http://www.bazhuayu.com/signup。使用注冊的用戶名和密碼登錄后,將默認(rèn)打開八爪魚采集器主界面:

1. 復(fù)制上面的網(wǎng)址,打開網(wǎng)頁瀏覽器(IE,火狐,Chrome、safari等等),把網(wǎng)址粘貼到瀏覽器地址欄,打開這個(gè)網(wǎng)頁。 2. 選中標(biāo)題部分的文字,按鼠標(biāo)右鍵或者Ctrl+C復(fù)制選中文字,新建一個(gè)Excel文件,打開,并且粘貼到第一個(gè)單元格,然后復(fù)制時(shí)間,粘貼到第二個(gè)單元格,然后復(fù)制正文,粘貼到第三個(gè)單元格。為了讓別人知道這些數(shù)據(jù)列都是什么,你可能會給三列分別加上列名,如:標(biāo)題,時(shí)間,正文。結(jié)果如圖:


因?yàn)椴僮鞑襟E較多,下面是一個(gè)1分鐘的視頻給大家詳細(xì)看看操作過程。可以看到系統(tǒng)在新打開的頁面上自動(dòng)打開了網(wǎng)頁,采集了三個(gè)數(shù)據(jù)列,名字就是我們之前設(shè)定的,完成后提示我們導(dǎo)出數(shù)據(jù),我們選擇導(dǎo)出到Excel 2007,保存到桌面,然后打開Excel,是不是跟我們上面手動(dòng)復(fù)制的數(shù)據(jù)效果一模一樣?(其實(shí)本身很簡單的,因?yàn)槭?基礎(chǔ)入門,我就講的特別詳細(xì),如果覺得啰嗦歡迎大家給我留言提修改意見,請暫時(shí)忽略本教程沒有提到的內(nèi)容,我們在后續(xù)的文章中會講解)https://www.zhihu.com/video/911035850404560896 這個(gè)很容易理解吧,這也正是八爪魚設(shè)計(jì)最為精妙的地方,不像其他采集工具,需要你去理解計(jì)算機(jī)內(nèi)部如何工作,八爪魚就像是一個(gè)機(jī)器人,我們要做的就是訓(xùn)練這個(gè)機(jī)器人,教他按照我們設(shè)定的步驟一步一步像人一樣去采集數(shù)據(jù),唯一的區(qū)別就是,八爪魚是程序,他會不知疲倦的,全自動(dòng)的工作。
小結(jié): 首先恭喜你!你已經(jīng)入門了,從完全不懂爬蟲,到自己成功采集了一篇新聞數(shù)據(jù),保存到了Excel中,這是個(gè)非常大的進(jìn)步!除非你不看教程已經(jīng)可以做到這個(gè)結(jié)果,否則不要因?yàn)檫@個(gè)教程太簡單而不去實(shí)踐操作,我們后面會學(xué)習(xí)更多,但是都離不開這里學(xué)習(xí)的基礎(chǔ),而且采集其他任何網(wǎng)站,采集更多數(shù)據(jù),其實(shí)都是一樣的過程,只是采集的設(shè)置過程可能更復(fù)雜而已。如果你想跑,請先學(xué)會走。
如果你有任何問題和想法想和我交流,請?jiān)谙旅嬖u論區(qū)留言。你也可以關(guān)注我的知乎與我互動(dòng):點(diǎn)擊前往關(guān)注“劉寶強(qiáng)的知乎”。同時(shí)歡迎你關(guān)注我的知乎專欄獲取新文章通知:點(diǎn)擊前往關(guān)注“小白的數(shù)據(jù)夢工廠”
聲明:本文由網(wǎng)站用戶香香發(fā)表,超夢電商平臺僅提供信息存儲服務(wù),版權(quán)歸原作者所有。若發(fā)現(xiàn)本站文章存在版權(quán)問題,如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,請聯(lián)系我們刪除。