八爪魚爬蟲使用教程?八爪魚爬取數(shù)據(jù)的方法分享

先自我介紹一下,我是八爪魚采集器的創(chuàng)始人劉寶強(qiáng),八爪魚是全球領(lǐng)先的網(wǎng)頁數(shù)據(jù)采集平臺,為全球70萬企業(yè)和個(gè)人每天采集上億條數(shù)據(jù)。恭喜你在眾多的爬蟲入門方式中選擇了八爪魚,這是一個(gè)非常好的起點(diǎn),你將從一開始就站在巨人的肩膀上!
閱讀本文大概需要15分鐘。
這是快速入門爬蟲的第一篇,本系列文章將帶領(lǐng)你從0基礎(chǔ)開始,一步一步,從采集一個(gè)簡單的網(wǎng)頁,到復(fù)雜的列表,多頁數(shù)據(jù),Ajax頁面,瀑布流等等,直到應(yīng)對常見封IP,驗(yàn)證碼等防采集措施,包括采集淘寶,京東,微信,大眾點(diǎn)評等熱門網(wǎng)站。由淺入深,循序漸進(jìn)的深入網(wǎng)頁數(shù)據(jù)采集領(lǐng)域,相信認(rèn)真學(xué)完本系列,你也會成為采集大神,有能力把互聯(lián)網(wǎng)變成自己的數(shù)據(jù)庫(這一段提到了Ajax等專業(yè)數(shù)據(jù),你可能不懂,但有個(gè)好消息:到目前為止你不需要了解這些技術(shù)概念)。
學(xué)習(xí)本篇內(nèi)容,你需要先掌握以下知識:
  1. 會上網(wǎng),知道什么是網(wǎng)頁,什么是網(wǎng)址,什么是瀏覽器。
  2. 會使用windows XP,windows 7,windows 8.1,windows 10等操作系統(tǒng),會使用Excel。
  3. 沒有了,如果1、2點(diǎn)有不懂的,我墻裂建議你百度一下。
學(xué)習(xí)本篇內(nèi)容,你將會掌握以下內(nèi)容:
  1. 什么是爬蟲,什么是網(wǎng)頁采集器,八爪魚采集器是什么。
  2. 使用八爪魚采集器采集一個(gè)新聞網(wǎng)頁,獲取一條新聞數(shù)據(jù)。

好了,能讀到這里我相信上面的要求對你而言太容易達(dá)到了。因?yàn)橛辛税俣取⒅踹@些知識平臺,我相信查詢一個(gè)名詞很容易,除非你是伸手黨。但是往往這些名詞的解釋過于專業(yè),同時(shí)又提到更多專業(yè)術(shù)語,容易讓人困惑,所以我這里給出的解釋不一定那么專業(yè)嚴(yán)謹(jǐn),但是卻通俗易懂。
  1. 什么是爬蟲:我們講的不是真正的動(dòng)物或者小蟲子,而是一些自動(dòng)化的程序或者軟件,會自動(dòng)瀏覽網(wǎng)頁,并從網(wǎng)頁上獲取內(nèi)容。百度就是一個(gè)典型的爬蟲,百度從各個(gè)網(wǎng)站上自動(dòng)瀏覽網(wǎng)頁,然后把網(wǎng)頁內(nèi)容存起來,給我們提供了一個(gè)搜索的工具,我們輸入關(guān)鍵詞,百度就會搜索爬蟲保存的網(wǎng)頁內(nèi)容,羅列相關(guān)網(wǎng)站當(dāng)做搜索結(jié)果。
  2. 什么是網(wǎng)頁采集器:我這里講的網(wǎng)頁采集器專門指會根據(jù)用戶的指令或者設(shè)置,從指定的網(wǎng)頁上獲取用戶指定內(nèi)容的工具軟件。嚴(yán)格來講,我這里說的網(wǎng)頁采集器也是爬蟲的一種。
  3. 八爪魚采集器:八爪魚采集器就是一種網(wǎng)頁采集器,用戶可以設(shè)置從哪個(gè)網(wǎng)站爬取數(shù)據(jù),爬取那些數(shù)據(jù),爬取什么范圍的數(shù)據(jù),什么時(shí)候去爬取數(shù)據(jù),爬取的數(shù)據(jù)如何保存等等。
換句話說,八爪魚是一個(gè)網(wǎng)頁采集器,網(wǎng)頁采集器是一種專門的爬蟲工具。參考下圖:  
八爪魚爬蟲使用教程?八爪魚爬取數(shù)據(jù)的方法分享
  好,概念講完,對概念還不明白或者有不同想法嗎?沒關(guān)系,可以在評論區(qū)給我留言,我會回復(fù)。
接下來,讓我們從一個(gè)最簡答的任務(wù)開始,采集一篇新聞(一個(gè)網(wǎng)頁),上手操作一下如何采集數(shù)據(jù)。 開始采集之前,你需要下載并安裝八爪魚采集器,八爪魚采集器目前僅支持windows操作系統(tǒng),如果你正在使用Mac電腦或者Linux操作系統(tǒng),請更換一臺電腦,或者在Mac、Linux上安裝windows虛擬機(jī),然后在windows虛擬機(jī)上安裝八爪魚采集器。你可以百度如何安裝虛擬機(jī),我稍后會專門寫一篇文章講解如何通過虛擬機(jī)來安裝八爪魚采集器。 1. 下載八爪魚采集器:免費(fèi)下載 – 八爪魚采集器,網(wǎng)址:http://www.bazhuayu.com/download。注意:截止本文發(fā)稿時(shí),八爪魚采集器最新版本為7.1.6。八爪魚官網(wǎng)同時(shí)提供了6.4.5版本和7.1.6版本的下載鏈接(注意下載按鈕下面的小字鏈接)。
你也可以直接點(diǎn)擊這個(gè)鏈接下載八爪魚采集器最新版本:http://www.bazhuayu.com/Download/DownloadHandler?version=new&from=minor,我建議大家總是下載最新版本,八爪魚大概每個(gè)月升級1-2次,因此后續(xù)可能有更新的版本,但是就本教程的內(nèi)容而言,新版本的主要操作學(xué)習(xí)過程不會有大變化,但是新版本通常性能更好,穩(wěn)定性更高。 注:如果安裝過程碰到任何問題,請點(diǎn)擊鏈接:八爪魚論壇安裝問題板塊,查看常見問題及解決方法。如果您使用的是window xp操作系統(tǒng),則可能需要安裝一個(gè)windows系統(tǒng)組件:.NET Framework 3.5 SP1,簡稱.NET 3.5。八爪魚采集器需要.NET3.5 SP1支持,Win 7/8/10已經(jīng)內(nèi)置支持,無需下載,但XP系統(tǒng)需要安裝,軟件會在安裝時(shí)自動(dòng)檢測是否安裝了.NET 3.5 SP1,如果沒有安裝則會自動(dòng)從微軟官方在線安裝,國內(nèi)在線安裝速度很慢,建議先從以下鏈接下載安裝.NET 3.5 SP1,然后再安裝八爪魚采集器。點(diǎn)擊這里下載.NET3.5 SP1 離線安裝包。
2. 安裝八爪魚采集器:下載后是一個(gè)zip文件,解壓縮,然后運(yùn)行里面的 OctopusSetup7.1.6.11022.exe,這個(gè)安裝文件。
不同版本可能名字具體不一樣,但是下載的zip壓縮文件中只有這一個(gè)exe文件,其他還有幾個(gè)txt文件。
安裝過程很簡單,20秒左右就安裝完成了。安裝完成后,點(diǎn)擊安裝完成界面的“立即體驗(yàn)”按鈕,或者在桌面上雙擊“八爪魚采集器”快捷方式,就可以啟動(dòng)八爪魚采集器了。 3. 注冊并登陸八爪魚賬號,八爪魚客戶端需要登陸才能使用,不過好消息是,使用一個(gè)手機(jī)號或者郵箱就可以免費(fèi)注冊。點(diǎn)擊八爪魚采集器客戶端登錄界面的“免費(fèi)注冊”鏈接:  
八爪魚爬蟲使用教程?八爪魚爬取數(shù)據(jù)的方法分享
 
或者你也可以直接到八爪魚網(wǎng)站免費(fèi)注冊:注冊八爪魚 – 八爪魚采集器,網(wǎng)址:http://www.bazhuayu.com/signup。
使用注冊的用戶名和密碼登錄后,將默認(rèn)打開八爪魚采集器主界面:  
八爪魚爬蟲使用教程?八爪魚爬取數(shù)據(jù)的方法分享
  關(guān)于八爪魚采集器界面各個(gè)功能講解,我會單獨(dú)寫文章介紹,這里我們模擬采集一條新聞,常見的新聞網(wǎng)頁一般包括新聞標(biāo)題,發(fā)布時(shí)間,正文等等,八爪魚專門為大家提供了一些網(wǎng)頁用來練習(xí),例如:http://www.skieer.com/guide/demo/simplemovies2.html,這個(gè)網(wǎng)頁非常簡單,甚至有些簡陋,不過都沒關(guān)系,假設(shè)這就是一個(gè)新聞的網(wǎng)頁,我們的目標(biāo)就是采集這條新聞的標(biāo)題,時(shí)間和正文,并且把采集到的數(shù)據(jù)保存到一個(gè)Excel文件中。 在開始采集前,我想先給大家介紹一下八爪魚采集器的工作原理注意,這個(gè)非常重要!理解了原理,所有采集都是一層窗戶紙,一捅就破,如果不理解,你將事倍功半,只知道怎么做,不知道為什么這么做。 八爪魚采集的核心原理是:模擬人瀏覽網(wǎng)頁,復(fù)制數(shù)據(jù)的行為,通過記錄和模擬人的一系列上網(wǎng)行為,代替人眼瀏覽網(wǎng)頁,代替人手工復(fù)制網(wǎng)頁數(shù)據(jù),從而實(shí)現(xiàn)自動(dòng)化從網(wǎng)頁采集數(shù)據(jù),然后通過不斷重復(fù)一系列設(shè)定的動(dòng)作流程,實(shí)現(xiàn)全自動(dòng)采集大量數(shù)據(jù)。 根據(jù)這個(gè)原理,假設(shè)你不使用采集工具,如何獲取上面這個(gè)新聞網(wǎng)頁的數(shù)據(jù),并把數(shù)據(jù)保存到excel文件中呢,我想你會這么做:
1. 復(fù)制上面的網(wǎng)址,打開網(wǎng)頁瀏覽器(IE,火狐,Chrome、safari等等),把網(wǎng)址粘貼到瀏覽器地址欄,打開這個(gè)網(wǎng)頁。 2. 選中標(biāo)題部分的文字,按鼠標(biāo)右鍵或者Ctrl+C復(fù)制選中文字,新建一個(gè)Excel文件,打開,并且粘貼到第一個(gè)單元格,然后復(fù)制時(shí)間,粘貼到第二個(gè)單元格,然后復(fù)制正文,粘貼到第三個(gè)單元格。為了讓別人知道這些數(shù)據(jù)列都是什么,你可能會給三列分別加上列名,如:標(biāo)題,時(shí)間,正文。結(jié)果如圖:  
八爪魚爬蟲使用教程?八爪魚爬取數(shù)據(jù)的方法分享
  這個(gè)我相信是個(gè)人都會,那么,如何讓八爪魚采集這個(gè)頁面呢?同樣也是幾乎一樣的上面的兩個(gè)步驟。 1. 復(fù)制上面的網(wǎng)址,打開八爪魚采集器,點(diǎn)擊首頁自定義采集下面的“立即使用”按鈕,然后把網(wǎng)址粘貼到網(wǎng)址輸入框,點(diǎn)擊保存,系統(tǒng)會自動(dòng)打開網(wǎng)頁。  
八爪魚爬蟲使用教程?八爪魚爬取數(shù)據(jù)的方法分享
  2. 在八爪魚打開網(wǎng)頁后,用鼠標(biāo)選中(出現(xiàn)藍(lán)色背景色時(shí)點(diǎn)擊鼠標(biāo)做點(diǎn)就可以選中藍(lán)色區(qū)域?qū)?yīng)的文字)標(biāo)題,八爪魚會在右邊黃色區(qū)域彈出操作提示,我們選擇“采集該元素的文本”就相當(dāng)于告訴八爪魚復(fù)制標(biāo)題文本一樣。同樣,對時(shí)間和正文做同樣的操作,然后我們打開上面的“流程”開關(guān),看到左邊出現(xiàn)了一個(gè)流程圖,上面有兩步,第一步打開網(wǎng)頁,第二步提取數(shù)據(jù),右邊現(xiàn)在顯示的是提取的三個(gè)數(shù)據(jù)字段,系統(tǒng)已經(jīng)自動(dòng)識別第二個(gè)是時(shí)間,我們把第一個(gè),第三個(gè)的字段名字修改一下。然后點(diǎn)擊下面的確定按鈕,采集過程就設(shè)置好了。當(dāng)然這個(gè)時(shí)候還是我們手動(dòng)設(shè)置的,然后點(diǎn)擊上面的“開始采集按鈕”,選擇“本地采集”,看一下系統(tǒng)是如何自動(dòng)按照我們設(shè)定的過程采集數(shù)據(jù)的。
因?yàn)椴僮鞑襟E較多,下面是一個(gè)1分鐘的視頻給大家詳細(xì)看看操作過程。可以看到系統(tǒng)在新打開的頁面上自動(dòng)打開了網(wǎng)頁,采集了三個(gè)數(shù)據(jù)列,名字就是我們之前設(shè)定的,完成后提示我們導(dǎo)出數(shù)據(jù),我們選擇導(dǎo)出到Excel 2007,保存到桌面,然后打開Excel,是不是跟我們上面手動(dòng)復(fù)制的數(shù)據(jù)效果一模一樣?(其實(shí)本身很簡單的,因?yàn)槭?基礎(chǔ)入門,我就講的特別詳細(xì),如果覺得啰嗦歡迎大家給我留言提修改意見,請暫時(shí)忽略本教程沒有提到的內(nèi)容,我們在后續(xù)的文章中會講解)
https://www.zhihu.com/video/911035850404560896 這個(gè)很容易理解吧,這也正是八爪魚設(shè)計(jì)最為精妙的地方,不像其他采集工具,需要你去理解計(jì)算機(jī)內(nèi)部如何工作,八爪魚就像是一個(gè)機(jī)器人,我們要做的就是訓(xùn)練這個(gè)機(jī)器人,教他按照我們設(shè)定的步驟一步一步像人一樣去采集數(shù)據(jù),唯一的區(qū)別就是,八爪魚是程序,他會不知疲倦的,全自動(dòng)的工作。
小結(jié): 首先恭喜你!你已經(jīng)入門了,從完全不懂爬蟲,到自己成功采集了一篇新聞數(shù)據(jù),保存到了Excel中,這是個(gè)非常大的進(jìn)步!除非你不看教程已經(jīng)可以做到這個(gè)結(jié)果,否則不要因?yàn)檫@個(gè)教程太簡單而不去實(shí)踐操作,我們后面會學(xué)習(xí)更多,但是都離不開這里學(xué)習(xí)的基礎(chǔ),而且采集其他任何網(wǎng)站,采集更多數(shù)據(jù),其實(shí)都是一樣的過程,只是采集的設(shè)置過程可能更復(fù)雜而已。如果你想跑,請先學(xué)會走。
如果你有任何問題和想法想和我交流,請?jiān)谙旅嬖u論區(qū)留言。你也可以關(guān)注我的知乎與我互動(dòng):點(diǎn)擊前往關(guān)注“劉寶強(qiáng)的知乎”。同時(shí)歡迎你關(guān)注我的知乎專欄獲取新文章通知:點(diǎn)擊前往關(guān)注“小白的數(shù)據(jù)夢工廠”

聲明:本文由網(wǎng)站用戶香香發(fā)表,超夢電商平臺僅提供信息存儲服務(wù),版權(quán)歸原作者所有。若發(fā)現(xiàn)本站文章存在版權(quán)問題,如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,請聯(lián)系我們刪除。

(0)
上一篇 2023年2月24日 19:58:00
下一篇 2023年2月24日 20:08:02

相關(guān)推薦

發(fā)表回復(fù)

您的電子郵箱地址不會被公開。 必填項(xiàng)已用*標(biāo)注

主站蜘蛛池模板: 亚洲成a人一区二区三区| 国产麻豆剧传媒精品国产AV| 国产精品白浆无码流出| 久久国产亚洲精品| 涂了媚药的玉势| 国产人妖视频一区二区破除| 99久久国产综合精品成人影院| 日本精品久久久久中文字幕| 亚洲精品tv久久久久久久久| 色欲综合久久中文字幕网| 国产精品爆乳奶水无码视频 | 欧美精品三级在线| 国产99在线a视频| 男女一进一出抽搐免费视频| 怡红院美国分院一区二区| 乱子轮熟睡1区| 潦草影视2021手机| 四虎永久成人免费| 午夜性色吃奶添下面69影院| 夫妇交换性3中文字幕| 久久精品成人一区二区三区| 渣男渣女抹胸渣男渣女app| 国产一区二区三区精品视频| 香蕉久久综合精品首页| 好男人www社区| 久久久无码精品亚洲日韩按摩 | 免费看三级电影| AV无码小缝喷白浆在线观看| 日本边添边摸边做边爱的网站| 亚洲欧美乱日韩乱国产| 精品爆乳一区二区三区无码AV | 最近高清中文国语在线观看| 伊人久久大香线蕉av色婷婷色 | 夫妇交换性三中文字幕| 久久久久久久伊人电影| 欧美一级片观看| 亚洲视频免费在线看| 美女视频黄a视频全免费网站一区 美女视频黄a视频全免费网站色 | 看黄a大片免费| 国产精品欧美一区二区三区| 一级做a爰片久久毛片|