【導讀】件以及主要參考文獻等。有著巨大的應用前景。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問。萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。熟,網(wǎng)絡爬蟲是搜索引擎的重要組成部分。網(wǎng)絡上比較著名的開源爬蟲包括。網(wǎng)絡爬蟲最重要的是網(wǎng)頁搜索策略(廣度優(yōu)先和最。單的可在后臺自動運行的爬蟲程序。本課題研究的內(nèi)容是如何使網(wǎng)絡爬蟲靈活高效。網(wǎng)絡爬蟲應用寬度搜索技術(shù)。對url進行分析,去重。網(wǎng)絡爬蟲使用多線程。技術(shù),讓爬蟲具備更強大的抓取能力。網(wǎng)絡爬蟲還要完成信息提取任務,對于抓。對網(wǎng)絡爬蟲的連接網(wǎng)絡設置連接及讀取時。間,避免無限制的等待。研究網(wǎng)絡爬蟲的原理并實現(xiàn)爬蟲的相關(guān)功能?!到y(tǒng)設計結(jié)束并再次檢查系統(tǒng)的可靠性。所以本課題的可行性較高。HTTP,NNTP和UNIX域協(xié)議[M].北京:機械工業(yè)出版社,2021年1月.為了適應不同需求,使網(wǎng)絡爬蟲可以根據(jù)預先設定的主