【導(dǎo)讀】人工采集互聯(lián)網(wǎng)信息已不能實(shí)現(xiàn)。網(wǎng)絡(luò)爬蟲是一種自動(dòng)搜集互聯(lián)網(wǎng)信息的程序,通。向采集某些網(wǎng)站下的特定信息。信息的兩大問(wèn)題而提出的。首先明確了通用web信息采集的主要功能和核心流程,理進(jìn)行了設(shè)計(jì),其中任務(wù)管理模塊是本系統(tǒng)的核心模塊,包括對(duì)采集任務(wù)的配置,該系統(tǒng)用戶根據(jù)需求填寫采集任務(wù)的配置信息,網(wǎng)絡(luò)爬蟲則根據(jù)配置。信息中的訪問(wèn)規(guī)則、提取規(guī)則,自動(dòng)地、有效地下載網(wǎng)頁(yè)提取信息。列表與聯(lián)系信息、競(jìng)爭(zhēng)產(chǎn)品的價(jià)格列表、實(shí)時(shí)金融新聞、供求信息、論文摘要等等。實(shí)現(xiàn)采集工作的流程化和自動(dòng)化。