火車(chē)頭采集器是一款非常好用的互聯(lián)網(wǎng)爬蟲(chóng)工具,采用VisualC#編寫(xiě)產(chǎn)品,專(zhuān)業(yè)用于互聯(lián)網(wǎng)的數(shù)據(jù)抓取、分析、處理、挖掘。軟件綠色安全,安裝便捷,其主要被用于進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)處理,可以靈活迅速地抓取網(wǎng)頁(yè)中大量非結(jié)構(gòu)化的文本。
火車(chē)頭采集器提供一站式高效采集服務(wù),通過(guò)一系列的分析處理,支持多類(lèi)型
數(shù)據(jù)庫(kù),采用多線程采集方式,準(zhǔn)確挖掘出所需數(shù)據(jù),其強(qiáng)大的識(shí)別系統(tǒng),積累了大量用戶和良好口碑,能夠準(zhǔn)確識(shí)別各種編碼文字,滿足不同的數(shù)據(jù)處理需求。
火車(chē)頭采集器菜單功能介紹:
火車(chē)采集器功能介紹和使用技巧圖2
1.新建分組
選擇所屬分組,新建一個(gè)任務(wù)分組,確定分組名稱和備注。
2.新建任務(wù)
新建一個(gè)任務(wù),確定所屬分組,填寫(xiě)任務(wù)名稱并保存。
3.Web發(fā)布配置
定義登陸一個(gè)
網(wǎng)站以及向該網(wǎng)站提交數(shù)據(jù)。涉及到網(wǎng)站編碼設(shè)定,登錄信息的獲取,欄目列表的獲取。
4.Web發(fā)布模塊
獲取欄目列表,可以定義網(wǎng)站登錄,獲取網(wǎng)頁(yè)隨機(jī)值,內(nèi)容發(fā)布參數(shù),構(gòu)造發(fā)布數(shù)據(jù)等高級(jí)功能。
5.數(shù)據(jù)庫(kù)發(fā)布配置
定義數(shù)據(jù)庫(kù)鏈接信息的設(shè)置以及數(shù)據(jù)庫(kù)模塊的選擇。
6.數(shù)據(jù)庫(kù)發(fā)布模塊
用于編輯數(shù)據(jù)庫(kù)的發(fā)布模塊,火車(chē)采集器可選四種數(shù)據(jù)庫(kù)類(lèi)型,方便我們將數(shù)據(jù)發(fā)布到配置好的數(shù)據(jù)庫(kù)中。在采集器模塊文件夾中加載,在文本輸入框中填寫(xiě)sql語(yǔ)句。
7.計(jì)劃任務(wù)
設(shè)置列表中采集任務(wù)的啟動(dòng)計(jì)劃,保存設(shè)置后,任務(wù)即可按照設(shè)置執(zhí)行。
8.插件管理
插件是可以用來(lái)擴(kuò)展火車(chē)采集器功能的程序,支持三種類(lèi)型的插件,可用于擴(kuò)展http請(qǐng)求,并可以分別進(jìn)行測(cè)試。
9.http二級(jí)代理
可以讓網(wǎng)絡(luò)用戶去取得所需要的網(wǎng)絡(luò)信息?梢酝黄谱陨韎p的訪問(wèn)限制訪問(wèn)國(guó)外站點(diǎn),訪問(wèn)一些單位或團(tuán)體內(nèi)部資源。
火車(chē)采集器功能介紹和使用技巧圖3
火車(chē)采集器功能介紹和使用技巧圖4
火車(chē)頭采集器使用技巧:
采集規(guī)則制作的第一步驟,進(jìn)行起始網(wǎng)址設(shè)置,點(diǎn)擊向?qū)砑,出現(xiàn)如下界面。
有批量網(wǎng)址,普通網(wǎng)址,文本導(dǎo)入3種方式。
火車(chē)采集器功能介紹和使用技巧圖5
1、普通網(wǎng)址:不做任何解析,以一行一個(gè)的形式直接加入網(wǎng)址。
2、批量網(wǎng)址:以通用的表達(dá)式,批量生成網(wǎng)址。
3、文本導(dǎo)入:文本為一行一個(gè)的網(wǎng)址,以文本導(dǎo)入的形式。
如需轉(zhuǎn)換原有數(shù)據(jù)庫(kù)請(qǐng)勾選“轉(zhuǎn)換內(nèi)容庫(kù)”,否則數(shù)據(jù)庫(kù)內(nèi)容將被清空.
- 軟件性質(zhì):國(guó)產(chǎn)軟件
- 授權(quán)方式:免費(fèi)版
- 軟件語(yǔ)言:簡(jiǎn)體中文
- 軟件大。23789 KB
- 下載次數(shù):4850 次
- 更新時(shí)間:2021/6/10 8:41:53
- 運(yùn)行平臺(tái):WinAll...
- 軟件描述:火車(chē)采集器是使用人數(shù)比較多的互聯(lián)網(wǎng)數(shù)據(jù)挖掘軟件。能采集99%的網(wǎng)頁(yè),就算網(wǎng)頁(yè)需要... [立即下載]