freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于多線(xiàn)程的網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(更新版)

  

【正文】 ....................................................................................................... 21 URL 判重 .................................................................................................................... 22 URL 保存 .................................................................................................................... 22 網(wǎng)頁(yè)抓取 .......................................................................................................................... 22 網(wǎng)頁(yè)相關(guān)度 ...................................................................................................................... 22 什么是網(wǎng)頁(yè)標(biāo)題 ......................................................................................................... 22 算法實(shí)現(xiàn)步驟和算法描述: ...................................................................................... 23 HttpClient 類(lèi)庫(kù)與 Jericho HTML Parser 類(lèi)庫(kù) .................................................................... 23 HttpClient .................................................................................................................... 23 Jericho Html Parser ...................................................................................................... 23 多線(xiàn)程設(shè)計(jì) ...................................................................................................................... 24 5 系統(tǒng)實(shí)現(xiàn) ................................................................................................................................. 25 實(shí)現(xiàn)工具 .......................................................................................................................... 25 系統(tǒng)模塊實(shí)現(xiàn) ................................................................................................................... 25 URL 隊(duì)列 .................................................................................................................... 25 網(wǎng)頁(yè)下載 .................................................................................................................... 26 提取 URL ................................................................................................................... 27 Spider 類(lèi) ..................................................................................................................... 28 數(shù)據(jù)庫(kù)操作 ................................................................................................................. 29 成都學(xué)院學(xué)士學(xué)位論文(設(shè)計(jì)) III 6 系統(tǒng)運(yùn)行測(cè)試 ......................................................................................................................... 30 系統(tǒng)運(yùn)行測(cè)試 ................................................................................................................... 30 系統(tǒng)分析 .......................................................................................................................... 32 結(jié) 論 .......................................................................................................................................... 33 參考文獻(xiàn) .................................................................................................................................... 34 致 謝 .......................................................................................................................................... 35 成都學(xué)院學(xué)士學(xué)位論文(設(shè)計(jì)) 1 緒 論 隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的日臻成熟并被廣泛的應(yīng)用到社會(huì)生活的各個(gè)領(lǐng)域,網(wǎng)絡(luò)上的信息呈爆炸式增長(zhǎng),并由此誕生了大量的數(shù)據(jù),人類(lèi)進(jìn)入了一個(gè)“大數(shù)據(jù)時(shí)代”。為使網(wǎng)絡(luò)爬蟲(chóng)具備更高效的抓取能力,因而使用了多線(xiàn)程技術(shù)。 本 科 畢 業(yè) 論 文 題 目 基于多線(xiàn)程的網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn) 成都學(xué)院學(xué)士學(xué)位論文(設(shè)計(jì)) 畢業(yè)設(shè)計(jì)(論文)原創(chuàng)性聲明和使用授權(quán)說(shuō)明 原創(chuàng)性聲明 本人鄭重承諾:所呈交的畢業(yè)設(shè)計(jì)(論文),是我個(gè)人在指導(dǎo)教師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)關(guān)鍵技術(shù)是對(duì) URL 進(jìn)行分析和 去重。 Java。爬蟲(chóng)程序就是用來(lái)獲取網(wǎng)頁(yè)的程序。目前幾種比較常用的自動(dòng)獲取資源實(shí)現(xiàn)策略:廣度優(yōu)先的爬蟲(chóng)程序,Repetitive 爬蟲(chóng)程序,定義爬行爬蟲(chóng)程序,深層次爬行爬蟲(chóng)程序。而本課題的主要就是怎樣更高效的獲取網(wǎng)頁(yè),并通過(guò)所給條件篩選得到人們所需要的網(wǎng)頁(yè)。 所有搜索引擎的鼻祖,是 1990 年由 Montreal 的 McGill University 三名學(xué)生( Alan Emtage、 Peter Deutsch、 Bill Wheelan)發(fā)明的 Archie( Archie FAQ)。電腦“機(jī)器人”( Computer Robot)是指某個(gè)能以人類(lèi)無(wú)法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。到 1993 年底,一些基于此原理的搜索引擎開(kāi)始紛紛涌現(xiàn),但是早期的搜索引擎只是以搜索工具在數(shù)據(jù)庫(kù)中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無(wú)信息關(guān)聯(lián)度可言。 研究現(xiàn)狀和發(fā)展趨勢(shì) 因?yàn)樗阉饕娴纳虡I(yè)化應(yīng)用帶來(lái) 了巨大的商業(yè)價(jià)值,所以作為搜索引擎的核心部分的網(wǎng)絡(luò)爬蟲(chóng)技術(shù),也理所應(yīng)當(dāng)?shù)某蔀榱藝?guó)內(nèi)外研究 的熱點(diǎn)。同時(shí) , 支持根據(jù)語(yǔ)義信息提出的查詢(xún)。動(dòng)態(tài) URL 簡(jiǎn)單的說(shuō)就是帶有問(wèn)號(hào)、等號(hào)及參數(shù)的網(wǎng)址就是動(dòng)態(tài) URL,動(dòng)態(tài) URL不利于搜索引擎蜘蛛的爬行和抓取。它最初是由蒂姆這比較適合于小型的網(wǎng)站,因?yàn)槿绻辔募挤旁诟夸浵碌脑?huà),制作和維護(hù) 起來(lái)比較麻煩。因此 URL 是與因特網(wǎng)相連的機(jī)器上的任何可訪(fǎng)問(wèn) 對(duì)象 的一個(gè)指針。請(qǐng)求方法常用的有 GET、HEAD、 POST。 無(wú)狀態(tài): HTTP 協(xié)議是無(wú)狀態(tài)協(xié)議。*39。數(shù)據(jù)被包含在請(qǐng)求體中。 HTTP 服務(wù)器至少應(yīng)該實(shí)現(xiàn) GET 和 HEAD 方法,其他方法都是可 選的。 所有狀態(tài)碼的第一個(gè) 數(shù)字代表了響應(yīng)的五種狀態(tài)之一。也可以把它理解為代碼運(yùn)行的上下文。 在一些等待的任務(wù)實(shí)現(xiàn)上如用戶(hù)輸入、文件讀寫(xiě)和網(wǎng)絡(luò)收發(fā)數(shù)據(jù)等,線(xiàn)程就比較有用了。 Java 多線(xiàn)程編程 計(jì)算機(jī)程序得以執(zhí)行的三個(gè)要素是: CPU,程序代碼,可存取的數(shù)據(jù)。創(chuàng)建一個(gè)線(xiàn)程。創(chuàng)建一個(gè)隸屬于 group 線(xiàn)程組,目標(biāo)為 target 的線(xiàn)程。 JAVA 的線(xiàn)程從產(chǎn)生到消失 ,可分為 5 種狀態(tài):新建( New),可運(yùn)行( Runnable),運(yùn)行( Running),成都學(xué)院學(xué)士學(xué)位論文(設(shè)計(jì)) 10 阻塞( Blocked)以及死亡( Dead)。 線(xiàn)程調(diào)度程序會(huì)根據(jù)調(diào)度情況,將正在運(yùn)行中的線(xiàn)程設(shè)置為 Runnable 狀態(tài),例如,有一個(gè)比當(dāng)前運(yùn)行狀態(tài)線(xiàn)程更高運(yùn)行等級(jí)的線(xiàn)程進(jìn)入 Runnable 狀態(tài),就可能將當(dāng)前運(yùn)行的線(xiàn)程從 Running 狀態(tài)“踢出” ,讓它回到 Runnable 狀態(tài)。所以 JAVA 中的每個(gè)對(duì)象都有自己的鎖。 TCP/IP 定義了電子設(shè)備如何連入因特網(wǎng),以及數(shù)據(jù)如何在它們之 間傳輸?shù)臉?biāo)準(zhǔn)。 IPv4( 通常稱(chēng)之 IP)自 20 世紀(jì) 80 年代早期以來(lái)一直是網(wǎng)際協(xié)議族的主力協(xié)議。大多數(shù)因特網(wǎng)應(yīng)用程序使用 TCP。 (一) 客戶(hù)端網(wǎng)絡(luò)編程步驟 客戶(hù)端 (Client)是指網(wǎng)絡(luò)編程中首先發(fā)起連接的程序,客戶(hù)端一般實(shí)現(xiàn)程 序界面和基本邏輯實(shí)現(xiàn),成都學(xué)院學(xué)士學(xué)位論文(設(shè)計(jì)) 12 在進(jìn)行實(shí)際的客戶(hù)端編程時(shí),無(wú)論客戶(hù)端復(fù)雜還是簡(jiǎn)單,以及客戶(hù)端實(shí)現(xiàn)的方式,客戶(hù)端的編程主要由三個(gè)步驟實(shí)現(xiàn): 建立網(wǎng)絡(luò)連接 客戶(hù)端網(wǎng)絡(luò)編程的第一步都是建立網(wǎng)絡(luò)連接。服務(wù)器端的編程步驟和客戶(hù)端不同,是由四個(gè) 步驟實(shí)現(xiàn),依次是: 監(jiān)聽(tīng)端口 服務(wù)器端屬于被動(dòng)等待連接,所以服務(wù)器端啟動(dòng)以后,不需要發(fā)起連接,而只需要監(jiān)聽(tīng)本地計(jì)算機(jī)的某個(gè)固定端口即可。當(dāng)然,服務(wù)器端的數(shù)據(jù)交換也是可以多次進(jìn)行的。該類(lèi)的功能是代表一個(gè) IP 地址,并且將 IP 地址和域 名相關(guān)的操作方法包含在該類(lèi)的內(nèi)部。 在客戶(hù)端網(wǎng)絡(luò)編程中,首先需要建立連接,在 Java API 中以 類(lèi)的對(duì)象代表網(wǎng)絡(luò)連接,所以建立客戶(hù)端網(wǎng)絡(luò)連接,也就是創(chuàng)建 Socket 類(lèi)型的對(duì)象,該對(duì)象代表網(wǎng)絡(luò)連接,示例如下: Socket socket1 = new Socket(“”,10000)。這里獲得的只是最基本的輸出流和輸入流對(duì)象,還可以根據(jù)前面學(xué)習(xí)到的 IO 知識(shí),使用流的嵌套將這些獲得到的基本流對(duì)象轉(zhuǎn)換成需要的裝飾流對(duì)象,從而方便數(shù)據(jù)的操作。 普通 字符 包括大小寫(xiě)的字母和數(shù)字,而 元字符 則具有特殊的含義 。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對(duì)簡(jiǎn)單 , 屬于盲目搜索 。具體的算法 (1) 頂點(diǎn) V 入隊(duì)列。 深度 優(yōu)先搜索 深度優(yōu)先搜索所遵循的搜索策略是盡可能“深”地搜索圖 . 在深度優(yōu)先搜索中 , 對(duì)于最新發(fā)現(xiàn)的頂點(diǎn) , 如果它還有以此為起點(diǎn)而未探測(cè)到的邊 , 就 沿此邊繼續(xù) 下去 . 當(dāng)結(jié)點(diǎn) v 的所有邊都己被探尋成都學(xué)院學(xué)士學(xué)位論文(設(shè)計(jì)) 16 過(guò) , 搜索將回溯到發(fā)現(xiàn)結(jié)點(diǎn) v 有那條邊的始結(jié)點(diǎn) . 這一過(guò)程一直進(jìn)行到已發(fā)現(xiàn)從源結(jié)點(diǎn)可達(dá)的所有結(jié)點(diǎn)為止 。 定義 2:主題網(wǎng)絡(luò)爬蟲(chóng)就是根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留主題相關(guān)的鏈接并將其放入待抓取的 URL 隊(duì)列中;然后根據(jù)一定的搜索策略從隊(duì)列中
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1