【導讀】人工采集互聯(lián)網(wǎng)信息已不能實現(xiàn)。網(wǎng)絡爬蟲是一種自動搜集互聯(lián)網(wǎng)信息的程序,通。向采集某些網(wǎng)站下的特定信息。信息的兩大問題而提出的。首先明確了通用web信息采集的主要功能和核心流程,理進行了設計,其中任務管理模塊是本系統(tǒng)的核心模塊,包括對采集任務的配置,該系統(tǒng)用戶根據(jù)需求填寫采集任務的配置信息,網(wǎng)絡爬蟲則根據(jù)配置。信息中的訪問規(guī)則、提取規(guī)則,自動地、有效地下載網(wǎng)頁提取信息。列表與聯(lián)系信息、競爭產(chǎn)品的價格列表、實時金融新聞、供求信息、論文摘要等等。實現(xiàn)采集工作的流程化和自動化。