freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于多線程的網(wǎng)絡爬蟲的設計與實現(xiàn)畢業(yè)論文(更新版)

2025-09-03 14:58上一頁面

下一頁面
  

【正文】 ....................................................................................................... 21 URL 判重 .................................................................................................................... 22 URL 保存 .................................................................................................................... 22 網(wǎng)頁抓取 .......................................................................................................................... 22 網(wǎng)頁相關度 ...................................................................................................................... 22 什么是網(wǎng)頁標題 ......................................................................................................... 22 算法實現(xiàn)步驟和算法描述: ...................................................................................... 23 HttpClient 類庫與 Jericho HTML Parser 類庫 .................................................................... 23 HttpClient .................................................................................................................... 23 Jericho Html Parser ...................................................................................................... 23 多線程設計 ...................................................................................................................... 24 5 系統(tǒng)實現(xiàn) ................................................................................................................................. 25 實現(xiàn)工具 .......................................................................................................................... 25 系統(tǒng)模塊實現(xiàn) ................................................................................................................... 25 URL 隊列 .................................................................................................................... 25 網(wǎng)頁下載 .................................................................................................................... 26 提取 URL ................................................................................................................... 27 Spider 類 ..................................................................................................................... 28 數(shù)據(jù)庫操作 ................................................................................................................. 29 成都學院學士學位論文(設計) III 6 系統(tǒng)運行測試 ......................................................................................................................... 30 系統(tǒng)運行測試 ................................................................................................................... 30 系統(tǒng)分析 .......................................................................................................................... 32 結 論 .......................................................................................................................................... 33 參考文獻 .................................................................................................................................... 34 致 謝 .......................................................................................................................................... 35 成都學院學士學位論文(設計) 1 緒 論 隨著計算機和網(wǎng)絡技術的日臻成熟并被廣泛的應用到社會生活的各個領域,網(wǎng)絡上的信息呈爆炸式增長,并由此誕生了大量的數(shù)據(jù),人類進入了一個“大數(shù)據(jù)時代”。為使網(wǎng)絡爬蟲具備更高效的抓取能力,因而使用了多線程技術。 本 科 畢 業(yè) 論 文 題 目 基于多線程的網(wǎng)絡爬蟲的設計與實現(xiàn) 成都學院學士學位論文(設計) 畢業(yè)設計(論文)原創(chuàng)性聲明和使用授權說明 原創(chuàng)性聲明 本人鄭重承諾:所呈交的畢業(yè)設計(論文),是我個人在指導教師的指導下進行的研究工作及取得的成果。實現(xiàn)網(wǎng)絡爬蟲關鍵技術是對 URL 進行分析和 去重。 Java。爬蟲程序就是用來獲取網(wǎng)頁的程序。目前幾種比較常用的自動獲取資源實現(xiàn)策略:廣度優(yōu)先的爬蟲程序,Repetitive 爬蟲程序,定義爬行爬蟲程序,深層次爬行爬蟲程序。而本課題的主要就是怎樣更高效的獲取網(wǎng)頁,并通過所給條件篩選得到人們所需要的網(wǎng)頁。 所有搜索引擎的鼻祖,是 1990 年由 Montreal 的 McGill University 三名學生( Alan Emtage、 Peter Deutsch、 Bill Wheelan)發(fā)明的 Archie( Archie FAQ)。電腦“機器人”( Computer Robot)是指某個能以人類無法達到的速度不間斷地執(zhí)行某項任務的軟件程序。到 1993 年底,一些基于此原理的搜索引擎開始紛紛涌現(xiàn),但是早期的搜索引擎只是以搜索工具在數(shù)據(jù)庫中找到匹配信息的先后次序排列搜索結果,因此毫無信息關聯(lián)度可言。 研究現(xiàn)狀和發(fā)展趨勢 因為搜索引擎的商業(yè)化應用帶來 了巨大的商業(yè)價值,所以作為搜索引擎的核心部分的網(wǎng)絡爬蟲技術,也理所應當?shù)某蔀榱藝鴥韧庋芯?的熱點。同時 , 支持根據(jù)語義信息提出的查詢。動態(tài) URL 簡單的說就是帶有問號、等號及參數(shù)的網(wǎng)址就是動態(tài) URL,動態(tài) URL不利于搜索引擎蜘蛛的爬行和抓取。它最初是由蒂姆這比較適合于小型的網(wǎng)站,因為如果太多文件都放在根目錄下的話,制作和維護 起來比較麻煩。因此 URL 是與因特網(wǎng)相連的機器上的任何可訪問 對象 的一個指針。請求方法常用的有 GET、HEAD、 POST。 無狀態(tài): HTTP 協(xié)議是無狀態(tài)協(xié)議。*39。數(shù)據(jù)被包含在請求體中。 HTTP 服務器至少應該實現(xiàn) GET 和 HEAD 方法,其他方法都是可 選的。 所有狀態(tài)碼的第一個 數(shù)字代表了響應的五種狀態(tài)之一。也可以把它理解為代碼運行的上下文。 在一些等待的任務實現(xiàn)上如用戶輸入、文件讀寫和網(wǎng)絡收發(fā)數(shù)據(jù)等,線程就比較有用了。 Java 多線程編程 計算機程序得以執(zhí)行的三個要素是: CPU,程序代碼,可存取的數(shù)據(jù)。創(chuàng)建一個線程。創(chuàng)建一個隸屬于 group 線程組,目標為 target 的線程。 JAVA 的線程從產(chǎn)生到消失 ,可分為 5 種狀態(tài):新建( New),可運行( Runnable),運行( Running),成都學院學士學位論文(設計) 10 阻塞( Blocked)以及死亡( Dead)。 線程調度程序會根據(jù)調度情況,將正在運行中的線程設置為 Runnable 狀態(tài),例如,有一個比當前運行狀態(tài)線程更高運行等級的線程進入 Runnable 狀態(tài),就可能將當前運行的線程從 Running 狀態(tài)“踢出” ,讓它回到 Runnable 狀態(tài)。所以 JAVA 中的每個對象都有自己的鎖。 TCP/IP 定義了電子設備如何連入因特網(wǎng),以及數(shù)據(jù)如何在它們之 間傳輸?shù)臉藴省?IPv4( 通常稱之 IP)自 20 世紀 80 年代早期以來一直是網(wǎng)際協(xié)議族的主力協(xié)議。大多數(shù)因特網(wǎng)應用程序使用 TCP。 (一) 客戶端網(wǎng)絡編程步驟 客戶端 (Client)是指網(wǎng)絡編程中首先發(fā)起連接的程序,客戶端一般實現(xiàn)程 序界面和基本邏輯實現(xiàn),成都學院學士學位論文(設計) 12 在進行實際的客戶端編程時,無論客戶端復雜還是簡單,以及客戶端實現(xiàn)的方式,客戶端的編程主要由三個步驟實現(xiàn): 建立網(wǎng)絡連接 客戶端網(wǎng)絡編程的第一步都是建立網(wǎng)絡連接。服務器端的編程步驟和客戶端不同,是由四個 步驟實現(xiàn),依次是: 監(jiān)聽端口 服務器端屬于被動等待連接,所以服務器端啟動以后,不需要發(fā)起連接,而只需要監(jiān)聽本地計算機的某個固定端口即可。當然,服務器端的數(shù)據(jù)交換也是可以多次進行的。該類的功能是代表一個 IP 地址,并且將 IP 地址和域 名相關的操作方法包含在該類的內部。 在客戶端網(wǎng)絡編程中,首先需要建立連接,在 Java API 中以 類的對象代表網(wǎng)絡連接,所以建立客戶端網(wǎng)絡連接,也就是創(chuàng)建 Socket 類型的對象,該對象代表網(wǎng)絡連接,示例如下: Socket socket1 = new Socket(“”,10000)。這里獲得的只是最基本的輸出流和輸入流對象,還可以根據(jù)前面學習到的 IO 知識,使用流的嵌套將這些獲得到的基本流對象轉換成需要的裝飾流對象,從而方便數(shù)據(jù)的操作。 普通 字符 包括大小寫的字母和數(shù)字,而 元字符 則具有特殊的含義 。該算法的設計和實現(xiàn)相對簡單 , 屬于盲目搜索 。具體的算法 (1) 頂點 V 入隊列。 深度 優(yōu)先搜索 深度優(yōu)先搜索所遵循的搜索策略是盡可能“深”地搜索圖 . 在深度優(yōu)先搜索中 , 對于最新發(fā)現(xiàn)的頂點 , 如果它還有以此為起點而未探測到的邊 , 就 沿此邊繼續(xù) 下去 . 當結點 v 的所有邊都己被探尋成都學院學士學位論文(設計) 16 過 , 搜索將回溯到發(fā)現(xiàn)結點 v 有那條邊的始結點 . 這一過程一直進行到已發(fā)現(xiàn)從源結點可達的所有結點為止 。 定義 2:主題網(wǎng)絡爬蟲就是根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關的鏈接,保留主題相關的鏈接并將其放入待抓取的 URL 隊列中;然后根據(jù)一定的搜索策略從隊列中
點擊復制文檔內容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1