當前位置:菜譜大全網 - 食譜 - 八達通數據采集器的內置功能有哪些?

八達通數據采集器的內置功能有哪些?

章魚數據采集器內置函數很多,壹時半會難以完成。只能根據妳的實際需求來使用,滿足妳的需求就夠了。其他功能對妳來說都是多余的,但是妳慢慢研究就會發現它有多強大,什麽都能做!處處給妳驚喜。

讓我簡單說壹下:

1入門詞匯介紹

1.1.1整數

積聚

分系統是支付八達通增值服務的壹種方式。其主要用途包括:通過Octopus collector采集導出數據,在規則市場下載規則,在數據市場下載數據包。不同的帳戶類型在中可用

使用上述增值業務時會有不同的收費策略。具體的收費策略和區別在後面的版本說明中詳細解釋。積分可以通過官方購買八達通專業版或旗艦版每月給予,也可以

可以單獨購買積分,也可以通過關註、簽到、分享規則、關註微信、綁定社交賬號等方式獲得積分。

1.1.2法則

Rule是Octopus用來按照人工操作流程配置程序的程序規則。配置軟件後,您可以根據您配置的規則而不是手動步驟來收集數據。

1.1.3雲加速

Octopus系統采用分布式集群部署,每個集群由大量的雲節點組成,單個節點的收集能力相當於壹臺PC。通過八爪魚後臺的版本資源分配策略,分配多少雲節點資源可以享受數倍加速,高版本的賬號加速次數更高。

1.1.4雲優先級

如果多個用戶* * *共享壹個雲集群的資源,那麽集群的規模是有上限的。如果同時向雲集群提交太多任務,導致資源擁塞,那麽Octopus系統會根據不同的用戶賬號版本進行默認排序,版本高優先級高的優先獲得資源分配的權益。暫時沒有分配資源的任務將被排隊。

1.1.5網址

URL是指正常網站的網址。

1.1.6單機采集

單機采集是指不占用雲集群的資源,只能通過章魚客戶端所在的PC工作。工作過程中,計算機和軟件都需要運行,停電或斷網都會導致數據采集任務的中斷。

1.1.7雲采集

采集是指使用Octopus提供的服務器集群工作,7*24小時工作,客戶端完成任務設置並提交給雲服務進行雲采集後即可關閉。

軟件,關電腦離線采集,真正實現無人值守。另外,雲采集可以通過雲服務器集群的分布式部署模式提高采集效率,多個節點可以同時工作。

有效避免各種網站的IP屏蔽策略。

1.1.8定時采集

定時采集是指用戶在設置八達通的采集規則時,定時啟動采集程序。

1.1.9 URL循環

URL循環是指設置octopus在已建立的URL中循環收集。

自動導出1.1.10

自動導出意味著用戶設置導出。

1.1.1 Cookie

1)

曲奇出生了

當用戶打開瀏覽器發出頁面請求時,web服務器只是簡單地響應,然後關閉與用戶的連接。因此當用戶向web服務器發起打開網頁的請求時,

等等,不管是不是第壹次打開同壹個網頁,web服務器都會把這個請求當作第壹次,這樣的缺陷可想而知,比如每次打開登錄頁面都要輸入用戶。

名稱和密碼。為了彌補這個缺陷,Cookie應運而生。

2) cookie概述

Cookie是服務器臨時存儲在您計算機上的壹段信息,以便服務器可以識別您的計算機。當您瀏覽網站時,web服務器會先向您的計算發送少量數據。

在飛機上,cookie會幫妳記錄妳在網站上輸入的文字(如用戶名和密碼)等操作。下次妳打開同壹個網站。web服務器將首先查找它。

留下的cookie信息,如果有的話,會根據cookie的內容判斷用戶,給妳發送特定的web內容。

餅幹是如何工作的

1.1.12 XPATH

XPATH:它是壹種路徑查詢語言。簡單來說,就是用壹個路徑表達式找到我們需要的數據位置。

XPATH是專門用來在XML中沿路徑查找數據的,但是Octopus Collector中有壹套針對HTML的XPATH引擎,使得直接通過XPATH準確查找定位網頁中的數據成為可能。

1.1.13 HTML

1)

HTML概念

HTML:超文本標記語言是壹種用來描述網頁的語言。主要用於控制數據的顯示和外觀。HTML文檔也稱為網頁。

2) HTML結構

壹個完整的HTML文件至少包括

符號,這些標簽是成對的,開始的標簽是

設置頁面的背景顏色和圖像。

2章魚基本流程教程

2.1打開網頁

該步驟根據設置的URL打開網頁,壹般是網頁采集過程的第壹步,用於打開指定的網站或網頁。如果有多個相似的網站需要分別打開來執行相同的收集過程,那麽它們應該作為第壹個子步驟放在循環內部。

1)網頁地址

網址壹般可以從IE等網頁瀏覽器的地址欄復制,比如:

2)使用當前循環項

與循環步驟結合使用,用於重復打開多個相似的網頁,然後執行同壹組過程。在循環中打開網頁時,它應該是循環步驟的第壹個子步驟。如果勾選此項,則不需要手動設置網頁地址,網頁地址會自動顯示循環設置的URL列表的當前循環項。

3)阻止彈出窗口

用於阻止網頁上的彈出廣告。如果打開的網頁偶爾會變成另壹個廣告頁面,您可以使用此選項來阻止廣告頁面彈出。

4)超時

加載網頁之前等待的最長時間。如果網頁打開緩慢或者長時間打不開,進程最多等待指定的超時,然後不管網頁是否加載都直接執行下壹步。盡量避免設置過長的超時,因為這會影響采集速度。

5)滾動到底部

打開網頁後,個別網頁不會顯示所有數據。您需要滾動鼠標滾輪或將滾動條拖動到底部來加載未顯示的數據。使用此選項可以在頁面加載後滾動到底部。

6)激活重試

如果網頁沒有成功打開預期頁面,如顯示服務器錯誤(500)、訪問頻率過快等。,或者跳轉到正常執行時不應出現的其他頁面,可以使用該選項重試,但必須配合以下重試參數。請註意,以下任何判斷都將導致重試。

7)結果頁面的URL包括

如果出現的頁面的URL中總是出現壹個特殊的字符串,比如500.htm通常出現在找不到頁面的時候,妳可以用這個選項判斷期望的頁面沒有打開,需要再試壹次。

8)結果頁面文本包含

如果頁面文本中總是出現特殊字符串,比如“訪問頻率過快”,可以使用該選項判斷期望的頁面沒有打開,需要重試。

9)結果頁面文本不包含

如果正常打開壹個網頁,會出現壹個特殊的字符串,但不正常打開時不會出現,可以判斷沒有打開預期的頁面,需要重試。

10)最大重試次數

為了避免無限制的重復嘗試,請使用此選項來限制重復嘗試的最大次數。如果重試次數達到最大允許次數,但仍然失敗,該過程將停止重試並繼續下壹步。

11)重試時間間隔

兩次重試之間的等待時間,壹般來說,當打開網頁出現錯誤時,很有可能立即重試也是同樣的錯誤,如果等待得當可能會成功打開期望的網頁,但要盡量避免設置過長的等待時間,因為這樣會影響采集速度。

2.2點擊元素

這壹步就是在網頁上的指定元素上點擊鼠標左鍵,比如點擊按鈕,點擊超鏈接等等。

1)使用當前循環項。

比賽

使用循環步驟反復點擊循環中設置的多個元素,適用於循環單個固定元素、循環固定元素列表和循環可變元素列表。

如果選中該選項,則不需要設置被點擊的元素,被點擊的元素會自動顯示該循環設置的當前循環項。當使用此選項時,它應該用作循環步驟的子步驟,但不壹定是第壹個子元素。

2)在新標簽頁中打開

諸如

如果您希望在單擊元素時在新選項卡而不是當前頁面中打開該元素,請選中此選項。

壹般情況下,當需要循環打開壹個頁面上的多個超鏈接時,需要勾選此選項來保留列表頁,以便點擊列表頁上的下壹個超鏈接;但是如果妳循環點擊下壹頁,

不要選中此選項來打開當前頁面的下壹頁。

3)滾動到底部

單個網頁在加載後不會顯示所有數據。您需要滾動鼠標滾輪或將滾動條拖動到底部來加載未顯示的數據。加載頁面後,使用此選項滾動到底部。

4)異步加載數據

異步加載,也稱為Ajax,是壹種無需重新加載網頁即可刷新本地數據的技術。因此,該進程無法檢測網頁加載的完成,因此無法決定何時執行下壹步。使用此選項,流程將在等待設置的超時後默認數據已加載,然後繼續執行後續流程步驟。此選項需要與異步加載超時結合使用。

5)異步加載超時

等待異步加載完成。單擊元素後,流程將開始計時。達到超時期限後,將執行下壹個流程步驟。該選項需要與異步加載結合使用。通常,使用此選項時,無法勾選“在新標簽頁中打開”。

6)激活重試

如果網頁沒有成功打開預期頁面,如顯示服務器錯誤(500)、訪問頻率過快等。,或者跳轉到正常執行時不應出現的其他頁面,可以使用該選項重試,但必須配合以下重試參數。請註意,以下任何判斷都將導致重試。

7)結果頁面的URL包括

如果出現的頁面的URL中總是出現壹個特殊的字符串,比如500.htm通常出現在找不到頁面的時候,妳可以用這個選項判斷期望的頁面沒有打開,需要再試壹次。

8)結果頁面文本包含

如果頁面文本中總是出現特殊字符串,比如“訪問頻率過快”,可以使用該選項判斷期望的頁面沒有打開,需要重試。

9)結果頁面文本不包含

如果正常打開壹個網頁,會出現壹個特殊的字符串,但不正常打開時不會出現,可以判斷沒有打開預期的頁面,需要重試。

10)最大重試次數

為了避免無限制的重復嘗試,請使用此選項來限制重復嘗試的最大次數。如果重試次數達到最大允許次數,但仍然失敗,該過程將停止重試並繼續下壹步。

11)重試時間間隔

兩次重試之間的等待時間,壹般來說,當打開網頁出現錯誤時,很有可能立即重試也是同樣的錯誤,如果等待得當可能會成功打開期望的網頁,但要盡量避免設置過長的等待時間,因為這樣會影響采集速度。

2.3輸入文本

在這壹步中,在輸入框中輸入指定的文本,如輸入搜索關鍵字、輸入賬號等。

將設定的文本輸入到網頁上的輸入框中,例如在使用搜索引擎時輸入關鍵詞。

2.4提取數據

此步驟根據數據提取模板的配置從網頁中提取數據,也可以配置為提取網址、網頁標題或生成壹些數據,如當前時間。

1)抓取模板

此步驟根據數據提取模板的配置從網頁中提取數據,也可以配置為提取網址、網頁標題或生成壹些數據,如當前時間。

2)姓名

為捕獲的數據字段命名,如新聞標題和新聞文本。

3)提取的數據

從網頁中提取的數據將在本專欄中顯示捕獲的示例。

4)描述

關於此數據字段的壹些描述性信息。

5)使用當前循環項

比賽

結合循環步驟,用於從循環中的多個元素集合中重復提取數據,適用於循環單個固定元素、循環固定元素列表和循環可變元素列表。

如果選中此選項,將根據抓取規則從循環設置的元素中提取樣本數據。使用此選項時,數據提取步驟應作為循環步驟的子步驟,但不壹定是第壹個子元素。

2.5周期

1)該步驟用於重復執行壹系列步驟,根據配置不同支持多種模式。

循環修復單個元素,如在每個頁面中單擊下壹步按鈕;

2)循環固定列表,如循環處理頁面中指定的多個元素;

3)循環變量列表,在需要循環處理多個頁面,但每頁要處理的元素數量不固定時使用;

4)循環URL列表,主要用於循環打開壹批指定URL的網頁,然後執行相同的處理步驟。

1)循環註意事項

1)元素在IFRAME中。

如果循環中的元素集在IFRAME中,請選中此框並在下面的IFAMEXPah中填寫IFRAME的XPATH。

2)IFAMEXPah

元素所在的IFRAME的路徑。此設置僅在選中“IFRAME中的元素”時生效。

3)固定元件

循環地對壹個元素執行特定的操作,比如點擊下壹頁,向下滾動下拉列等。當翻到最後壹頁或下拉列表到達最後壹項時,當前循環將自動結束。

4)固定元素列表

對列表中的元素逐個執行特定的操作,比如在循環中單擊,從中提取數據,將鼠標懸停在元素上。當所有元素被循環時,當前循環將自動結束。

5)動態元素列表

當元素列表不固定時,可以指定壹個動態路徑(多個元素符合這個路徑,即可以根據這個路徑定位多個元素),系統會先根據指定的路徑找到壹個元素列表,然後執行與'固定元素列表'相同的操作。

6) URL列表

用打開網頁的功能,指定壹個URL列表,並確保在循環中打開網頁的使用被勾選,這樣就可以逐個打開URL列表中的鏈接。

7)循環執行的次數等於

當循環執行了指定的次數後,退出循環。

2.6雙下拉列表

基礎

Step用於切換下拉列表。

1)從期權訂單/到期權訂單

默認為空,意思是從下拉列表的第壹個順序切換到最後壹個,但是有時候需要跳過第壹個選項,從第二個或者中間的某個地方切換下拉列表。

使用這兩個選項來控制切換的開始和結束順序。例如,假設有五個下拉選項,您需要從第二個順序切換到第四個順序,則“從選項順序”設置為2,“到”

選項順序”設置為4。

2)跳過值/至值

默認為空,表示下拉列表根據設置依次切換。但是,如果在切換過程中需要跳過某個下拉項,您可以使用此設置來控制跳過的範圍。

例如,假設下拉列表中有五個選項,值分別為10、11、12、13和14,如果需要跳過12,則將跳過值設置為14。

Over值是12,To值設置為13。

3)使用當前循環項

與循環步驟壹起使用,將重復循環中的指定下拉列表切換到下壹個選項。

4)異步加載數據

異步加載又稱Ajax,是壹種無需重新加載網頁就能刷新本地數據的技術,因此進程無法檢測到網頁加載的完成,因此無法決定何時執行下壹步。

使用此選項,流程將等待設定的超時時間,並且默認數據已經加載,以便繼續後續的流程步驟。此選項需要與異步加載超時結合使用。

5)異步加載超時

等待異步加載完成。單擊元素後,流程將開始計時。達到超時期限後,將執行下壹個流程步驟。該選項需要與異步加載壹起使用。

6)激活重試

如果網頁沒有成功打開預期頁面,如顯示服務器錯誤(500)、訪問頻率過快等。,或者跳轉到正常執行過程中不應出現的其他頁面,可以使用此選項重試。

但是,它必須使用以下重試參數來執行。請註意,以下任何壹種判斷情況都會導致重試。

7)結果頁面的URL包括

如果出現的頁面的URL中總是出現壹個特殊的字符串,比如500.htm通常出現在找不到頁面的時候,妳可以用這個選項判斷期望的頁面沒有打開,需要再試壹次。

8)結果頁面文本包含

如果頁面文本中總是出現特殊字符串,比如“訪問頻率過快”,可以使用該選項判斷期望的頁面沒有打開,需要重試。

9)結果頁面文本不包含

如果正常打開壹個網頁,會出現壹個特殊的字符串,但不正常打開時不會出現,可以判斷沒有打開預期的頁面,需要重試。

10)最大重試次數

為了避免無限制的重復嘗試,請使用此選項來限制重復嘗試的最大次數。如果重試次數達到最大允許次數,但仍然失敗,該過程將停止重試並繼續下壹步。

11)重試時間間隔

兩次重試之間的等待時間,壹般情況下,當打開網頁出現錯誤時,很可能立即重試也是同樣的錯誤,如果等待得當,有可能成功打開預期的網頁,但應盡量避免設置過久。

等待時間,因為這樣會影響采集速度。

2.7條件分支

這壹步將從左到右選擇第壹個符合條件的分支並執行它。

1)總是

不設置決策條件,分支始終滿足執行條件。

2)當頁面包含文本時

當指定的文本包含在頁面中時,分支滿足執行條件。

3)當頁面包含元素時

當頁面包含指定的元素時,分支滿足執行條件,並與元素XPATH結合使用。

4)元素XPATH

決策條件元素的XPATH路徑

5)在IFRAME中

如果確定條件元素在IFRAME中,請檢查此項,並在下面的IFAMEXPah中填寫IFRAME的XPATH。

6)IFAMEXPah

元素所在的IFRAME的路徑。此設置僅在選中“IFRAME中的元素”時生效。

2.8鼠標懸停

此步驟用於將鼠標懸停在指定元素上。

1)使用當前循環項。

與循環步驟壹起使用,將鼠標反復懸停在循環中指定的元素上,然後執行以下過程。

2) Ajax加載數據

埃阿斯

也稱為異步加載,是壹種無需重新加載網頁即可刷新本地數據的技術,因此進程無法檢測到加載網頁的完成,無法決定何時執行下壹步。

當鼠標懸停在壹些元素上時,許多網頁會異步添加壹些數據,並在頁面上顯示出來。使用該選項,進程將等待設置的超時和默認數據已被加載,以便繼續後續的執行。

流程步驟。此選項需要與異步加載超時結合使用。

3)異步加載超時

等待異步加載完成。單擊元素後,流程將開始計時。達到超時期限後,將執行下壹個流程步驟。該選項需要與異步加載壹起使用。

2.9如何下載采集規則

為了避免重復配置收集規則,八達通收集器內置了規則市場,用戶可以共享配置的收集規則並互相幫助。

在規則市場下載規則的好處是顯而易見的,妳不必花時間研究和配置收集過程。很多網站的收藏規則都可以在規則市場搜索到,下載運行後即可收藏。

八達通收集器需要下載規則。具體操作步驟是:打開章魚收集器->;收藏規則->;規則市場。

3.0如何使用規則

1)

使用從規則市場下載的規則

通常,從規則市場下載的規則是帶有。otd後綴,下載的規則文件會在以後的版本中自動導入。在以前的版本中,您需要手動導入下載的規則文件。

手動導入模式:雙擊八達通規則文件(。OTD)打開導入向導,或者打開octopus collector快速啟動-& gt;

導入規則,然後按照向導提示導入規則。但有時會下載到後綴為的壓縮文件中。壓縮文件包含多個。otd規則文件解壓後,所以需要先解壓再導入。

2)使用接收到的規則

通過電子郵件或其他即時通訊軟件接收的規則可以參考上壹節中的說明手動導入。