章魚爬微博怎麽登錄？

軟件準備

免費下載，安裝，註冊，免費版功能就夠了，這個任務數據不大，本地采集模式還可以。它提供了壹些模板，包括來自微博的模板。

章魚采集器中提供的微博數據采集模板。

不過微博最麻煩的地方還是登錄操作，時不時的要輸入壹個驗證碼。另外，年度任務的統計需要大量的滾動、翻頁等操作，所以我們還是要使用自定義任務，設置采集網站、采集流程、登錄操作是不可避免的。

收集網站

集合URL的設置基本沒有問題，只要在URL中能找到需要更改的參數即可。當有多個頁面時，建議從URL設置頁碼，這樣比較靠譜。我怕自動翻頁，微博他壹翻頁就跳出來登錄，所以自動識別總是成功，但是開始收集就抓不住1。以我的個人微博主頁為例，查看2019年6月的博文(/2772779897/profile？is _ all = 1 & amp；stat _ date = 201906 & amp；Page=2#feedtop)，發現時間軸是按月份劃分的，6月份微博多壹點，有換頁，所以需要修改兩個參數，月份和頁數。

個人微博截圖

在octopus collector中，選擇批量生成的URL，在文本框中選擇要替換的參數，然後單擊Add Parameter進行設置。這裏設置的兩個參數，月份是01~12(軟件提供填零功能，考慮的很周到)，頁數是1~4，因為這次要統計的微博每月不超過4頁，所以這個要提前看好。

批量生成URL的參數設置

自動生成48個URL後，可以保存設置並開始編輯任務。然後軟件會打開第壹個網站，開始自動識別這個頁面的內容，生成數據采集的結果，給出操作提示，基本可信，不能完全相信。點擊生成采集設置，自動生成采集流程的框架(畢竟比自己搭建靠譜)，然後調整裏面的細節(這些細節已經折騰了很久)。

自動識別結果

收購過程

自動生成流程圖，基本框架沒問題。

循環采集的基本框架

開始設置細節。關於提取列表數據沒什麽好說的。刪除壹些不必要的字段就可以了。主要是在循環中打開網頁，點擊小齒輪打開設置:

打開循環中的網頁設置。

在網頁打開之前，我怕自己沒有完全加載就打開下壹頁。我設置了3秒的等待時間。(我嘗試過通過在這裏設置cookie來繞過登錄，但是沒有效果，獲取當前頁面cookie的按鈕也沒有反應，就放棄了。網頁打開後，需要在這裏設置滾動。壹開始我以為滾兩下就結束了。後來發現不同頁面不壹樣，設置為三次，間隔1秒。我還怕裝前漏裝。

滾動設置在這裏糾結了很久，因為總是出現同樣的錯誤。很清楚，1頁要加載三次，最終得到45條數據。結果總是只抓到15塊，不滾動。不知道是因為沒登錄，還是網頁沒等打開就直接打開了。

登錄操作

為了保證多頁面抓取的順利完成，還是要登錄，否則總是會跳出提示登錄對話框，什麽也收不到。合理的微博登錄是用cookie記錄的，但是不能放入軟件的收藏任務中。每次啟動都是壹個全新的界面要求登錄，壹眨眼就不知道自己是誰了，各種手動登錄都記不住。然後參照模板中的設置，在循環采集開始前添加登錄操作，添加到流程圖中誠實實現。

登錄操作被添加到流程圖中。

打開壹個網頁，這裏的網址設置為微博入口(weibo.com)，後面的操作設置其實是半自動的。可以在預覽的網頁中直接操作，點擊對話框或按鈕，操作提示中會出現相應的動作。您可以記錄輸入的文本(用戶名和密碼)並在登錄時點擊元素，模擬人的操作，並自動添加到流程圖中，但您可能需要手動拖動流程圖中的方框來調整順序。

我以為這些都是設置好的，我記下了我的賬號密碼，應該可以代替我先登錄。沒想到登錄的時候，不是沒有輸入用戶名就是沒有輸入密碼，結果根本沒有登錄就執行了下壹步，循環開始，什麽都沒抓到。這時，打開網頁前的3秒等待似乎起了作用。抓住這3秒鐘的時間，手動輸入自動操作沒有輸入的用戶名或密碼，然後立即點擊登錄，在打開要收藏的主頁之前完成登錄，最後按需要向下滾動加載所有數據的每壹頁，就大功告成了。