免費下載,安裝,註冊,免費版功能就夠了,這個任務數據不大,本地采集模式還可以。它提供了壹些模板,包括來自微博的模板。
章魚采集器中提供的微博數據采集模板。
不過微博最麻煩的地方還是登錄操作,時不時的要輸入壹個驗證碼。另外,年度任務的統計需要大量的滾動、翻頁等操作,所以我們還是要使用自定義任務,設置采集網站、采集流程、登錄操作是不可避免的。
收集網站
集合URL的設置基本沒有問題,只要在URL中能找到需要更改的參數即可。當有多個頁面時,建議從URL設置頁碼,這樣比較靠譜。我怕自動翻頁,微博他壹翻頁就跳出來登錄,所以自動識別總是成功,但是開始收集就抓不住1。以我的個人微博主頁為例,查看2019年6月的博文(/2772779897/profile?is _ all = 1 & amp;stat _ date = 201906 & amp;Page=2#feedtop),發現時間軸是按月份劃分的,6月份微博多壹點,有換頁,所以需要修改兩個參數,月份和頁數。
個人微博截圖
在octopus collector中,選擇批量生成的URL,在文本框中選擇要替換的參數,然後單擊Add Parameter進行設置。這裏設置的兩個參數,月份是01~12(軟件提供填零功能,考慮的很周到),頁數是1~4,因為這次要統計的微博每月不超過4頁,所以這個要提前看好。
批量生成URL的參數設置
自動生成48個URL後,可以保存設置並開始編輯任務。然後軟件會打開第壹個網站,開始自動識別這個頁面的內容,生成數據采集的結果,給出操作提示,基本可信,不能完全相信。點擊生成采集設置,自動生成采集流程的框架(畢竟比自己搭建靠譜),然後調整裏面的細節(這些細節已經折騰了很久)。
自動識別結果
收購過程
自動生成流程圖,基本框架沒問題。
循環采集的基本框架
開始設置細節。關於提取列表數據沒什麽好說的。刪除壹些不必要的字段就可以了。主要是在循環中打開網頁,點擊小齒輪打開設置:
打開循環中的網頁設置。
在網頁打開之前,我怕自己沒有完全加載就打開下壹頁。我設置了3秒的等待時間。(我嘗試過通過在這裏設置cookie來繞過登錄,但是沒有效果,獲取當前頁面cookie的按鈕也沒有反應,就放棄了。網頁打開後,需要在這裏設置滾動。壹開始我以為滾兩下就結束了。後來發現不同頁面不壹樣,設置為三次,間隔1秒。我還怕裝前漏裝。
滾動設置在這裏糾結了很久,因為總是出現同樣的錯誤。很清楚,1頁要加載三次,最終得到45條數據。結果總是只抓到15塊,不滾動。不知道是因為沒登錄,還是網頁沒等打開就直接打開了。
登錄操作
為了保證多頁面抓取的順利完成,還是要登錄,否則總是會跳出提示登錄對話框,什麽也收不到。合理的微博登錄是用cookie記錄的,但是不能放入軟件的收藏任務中。每次啟動都是壹個全新的界面要求登錄,壹眨眼就不知道自己是誰了,各種手動登錄都記不住。然後參照模板中的設置,在循環采集開始前添加登錄操作,添加到流程圖中誠實實現。
登錄操作被添加到流程圖中。
打開壹個網頁,這裏的網址設置為微博入口(weibo.com),後面的操作設置其實是半自動的。可以在預覽的網頁中直接操作,點擊對話框或按鈕,操作提示中會出現相應的動作。您可以記錄輸入的文本(用戶名和密碼)並在登錄時點擊元素,模擬人的操作,並自動添加到流程圖中,但您可能需要手動拖動流程圖中的方框來調整順序。
我以為這些都是設置好的,我記下了我的賬號密碼,應該可以代替我先登錄。沒想到登錄的時候,不是沒有輸入用戶名就是沒有輸入密碼,結果根本沒有登錄就執行了下壹步,循環開始,什麽都沒抓到。這時,打開網頁前的3秒等待似乎起了作用。抓住這3秒鐘的時間,手動輸入自動操作沒有輸入的用戶名或密碼,然後立即點擊登錄,在打開要收藏的主頁之前完成登錄,最後按需要向下滾動加載所有數據的每壹頁,就大功告成了。