【導(dǎo)讀】導(dǎo)下進(jìn)行的研究工作及取得的成果。盡我所知,除文中特別加以標(biāo)注和致。含我為獲得及其它教育機(jī)構(gòu)的學(xué)位或?qū)W歷而使用過的材料。明并表示了謝意。以贏利為目的前提下,學(xué)校可以公布論文的部分或全部?jī)?nèi)容。蟲關(guān)鍵技術(shù)是對(duì)URL進(jìn)行分析和去重。為使網(wǎng)絡(luò)爬蟲具備更高效的抓取能力,因而使用了多線程技。同時(shí)為了避免無限制的等待,應(yīng)該對(duì)網(wǎng)絡(luò)爬蟲連接網(wǎng)絡(luò)及讀取時(shí)間最大值進(jìn)行設(shè)定。目標(biāo)是研究并實(shí)現(xiàn)一個(gè)實(shí)現(xiàn)簡(jiǎn)單的可在后臺(tái)自動(dòng)運(yùn)行的爬蟲程序。從行為上來看,它更近似于主題網(wǎng)絡(luò)爬蟲。