freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于多線程的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)畢業(yè)論文(文件)

2025-07-30 14:58 上一頁面

下一頁面
 

【正文】 Socket socket2 = new Socket(“”,80)。正是由于這種高度的封裝,一方面簡化了 Java 語言網(wǎng)絡(luò)編程的難度,另外也使得使用 Java 語言進行網(wǎng)絡(luò)編程時無法深入到網(wǎng)絡(luò)的底層,所以使用 Java 語言進行網(wǎng)絡(luò)底層系統(tǒng)編程很困難,具體點說, Java 語言無法實現(xiàn)底層的網(wǎng)絡(luò)嗅探以及獲得 IP 包結(jié)構(gòu)等 信息。 按照前面的介紹,網(wǎng)絡(luò)通訊的方式有 TCP 和 UDP 兩種,其中 TCP 方式的網(wǎng)絡(luò)通訊是指在通訊的過程中保持連接,有點類似于打電話,只需要撥打一次號碼 (建立一次網(wǎng)絡(luò)連接 ),就可以多次通話(多次傳輸數(shù)據(jù) )。該包中既包含基礎(chǔ)的網(wǎng)絡(luò)編程類,也包含封裝后的專門處理 WEB 相關(guān)的處理類。在數(shù)據(jù)交換完成以后,關(guān)成都學(xué)院學(xué)士學(xué)位論文(設(shè)計) 13 閉和客戶端的連接。服務(wù)器端的數(shù)據(jù)交換步驟是首先接收客戶端發(fā)送過來的數(shù)據(jù),然后進行邏輯處理,再把處理以后的結(jié)果數(shù)據(jù)發(fā)送給客戶端。這個端口就是服務(wù)器端開放給客戶端的端口,服務(wù)器端程序運行的本地計算機的 IP 地址就是服務(wù)器端程序的 IP 地址。 關(guān)閉網(wǎng)絡(luò)連接 在數(shù)據(jù)交換完成以后,關(guān)閉網(wǎng)絡(luò)連接,釋放程序占用的端口、內(nèi)存等系統(tǒng)資源,結(jié)束網(wǎng)絡(luò)編程。在建立網(wǎng)絡(luò)連接時需要指定連接到的服務(wù)器的 IP地址和端口號,建立完成以后,會形成一條虛擬的連接,后續(xù)的操作就可以通過該連接實現(xiàn)數(shù)據(jù)交換了。當然, B/S 結(jié)構(gòu)的編程中只需要實現(xiàn)服務(wù)器端即可。 TCP 的可靠連接得益于它的三次握手原 理。 TCP 是一個面向連接的協(xié)議,為用戶進程提供可靠的全雙工字節(jié)流。它使用 32 位地址。 而最主要的是 TCP 協(xié)議和 IP 協(xié)議。協(xié)議采用了 4 層的層級結(jié)構(gòu),每一層都呼叫它的下一層所提供的網(wǎng)絡(luò)來完成自己的需求。 Java 網(wǎng)絡(luò) 編程 網(wǎng)絡(luò)編程就是兩個或多個設(shè)備之間的數(shù)據(jù)交換,其實更具體的說,網(wǎng)絡(luò)編程就是兩個或多個程序之間的數(shù)據(jù)交換,和普通的單機程序相比,網(wǎng)絡(luò)程序最大的不同就是需要交換數(shù)據(jù)的程序運行在不同的計算機上,這樣就造成了數(shù)據(jù)交換的復(fù)雜。這樣 使它在共享的線程之間可以相互協(xié)調(diào)。多數(shù) JAVA 同步是以對象鎖定為中心的。 Java 線程會以以下三種方式之一結(jié)束: run()方法的末尾; Exception 或 Error; 個 Deprecated 的 stop()方法。當線程的 run 方法運行完畢,線程將被拋棄 ,進入死亡狀態(tài)。其中, Running 狀態(tài)并非屬于 JAVA 規(guī)范中定義的線程狀態(tài),也就是說, 在 JAVA 規(guī)范中,并沒有將運行( Running)狀態(tài)真正的設(shè)置為一個狀態(tài),它屬于可運行狀態(tài)的一種。 我們也可以 通過實現(xiàn) Runnable 接口并實現(xiàn)接口中定義的唯一方法 run(),可以創(chuàng)建一個線程。 通常,我們可以將一個類繼承 Thread,然后,覆蓋 Thread 中的 run()方法,這樣讓這個類本身也就成了線程。 Thread(String name)。 Thread(Runnable target)。它由 JVM 創(chuàng)建并調(diào)用 JAVA 應(yīng)用程序的 main方法。在 JAVA 語言中,多線程的機制是通過虛擬 CPU 來實現(xiàn)的。 “ Bug”,因此要小心使用。在這種情況下可以釋放一些珍貴的資源如內(nèi)存占用等等。 (摘自百度百科 [5]) 優(yōu)點 使用線程可以把占據(jù)時間長的程序中的任務(wù)放到后臺去處理。所以線程基本上是輕量級的進程,它負責(zé)在單個程序里執(zhí)行多任務(wù)。每個進程包含一到多個線程。 而當網(wǎng)絡(luò)爬蟲必須根據(jù)返回的狀態(tài)代碼就行相應(yīng)的處理。相連,如 ? name = XXX amp。當然,所有的方法支持的實現(xiàn)都應(yīng)當符合下述的方法各自的語義定義。 CONNECT HTTP/ 協(xié)議中預(yù)留給能夠?qū)⑦B接改為管道方式的代理服務(wù)器。 POST 請求可能會導(dǎo)致新的資源的建立和 /或已有資源的修改。注意: GET 方法不應(yīng)當被用于產(chǎn)生“副作用”的操作中,例如在web 。的請求來測試服務(wù)器的功能性。 同樣也分為三部分,第一部分叫 request line, 第二部分叫 request header,第三部分是 body. header 和 body 之間也有 個空行, 結(jié)構(gòu)如 圖 22: 圖 22 Response 消息結(jié)構(gòu) HTTP/versionnumber 表示 HTTP 協(xié)議的版本號, statuscode 和 message 請看下節(jié) [HTTP 狀態(tài)代成都學(xué)院學(xué)士學(xué)位論文(設(shè)計) 7 碼 ]的詳細解釋 . 請求方法 HTTP/ 協(xié)議中共定義了八種方法(有時也叫“動作”)來表明 RequestURI 指定的資源的不同操作方式: 本系統(tǒng)主要研究 Get 請求的特點。無狀態(tài)是指協(xié)議對于事務(wù)處理沒有記憶能力。 無 連接:無連接的含義是限制每次連接只處理一個請求。每種方法規(guī)定了客戶與服務(wù)器聯(lián)系的類型不同。是萬維網(wǎng)( world wide web)交換信息的基礎(chǔ)。 URL 的一般形式是: URL 的訪問方式 ://主機 :端口 /路徑 網(wǎng)絡(luò)爬蟲就是通過提取和分析出網(wǎng)頁中的 URL 地址,對相應(yīng)網(wǎng)絡(luò)進行爬取。URL 給資源的位置提供一種抽象的識別方法,并用這種方法給資源定位。而樹型結(jié)構(gòu)的意義是在一級目錄下分為多個頻道或者稱之 為目錄,然后目錄下面再放上屬于這個頻道的頁面,首頁、頻道首頁、頻道下的內(nèi)容就好比樹干、樹枝、樹葉的關(guān)系。 URL 結(jié)構(gòu)一般分為兩個部分,一個是物理結(jié)構(gòu),一個是邏輯結(jié)構(gòu)。伯納斯-李發(fā)明用來作為萬維網(wǎng)的地址的。對搜索引擎來說只對 301 跳轉(zhuǎn)相對來說比較友好,對其他形式的跳轉(zhuǎn)都是比較敏感,例如: JavaScript 跳轉(zhuǎn)、 Meta Refresh 跳轉(zhuǎn)、 Flash 跳轉(zhuǎn)、 302 跳轉(zhuǎn)。 Flash。 登陸要求。 網(wǎng)絡(luò)爬蟲的發(fā)展趨勢隨著 AJAX/ 等 技術(shù)的 流行,如何抓取 AJAX 等動態(tài)頁面成了搜索引成都學(xué)院學(xué)士學(xué)位論文(設(shè)計) 4 擎急需解決的問題,如果搜索引擎依舊采用“爬”的機制,是無法抓取到 AJAX 頁面的有效數(shù)據(jù)的。通用搜索引擎的目標是盡可能大的網(wǎng)絡(luò)覆蓋率,通用搜索引擎大多提供基于關(guān)鍵字的檢索。 對于網(wǎng)絡(luò)爬蟲的研究從上世紀九十年代就開始了目前爬蟲技術(shù)已經(jīng)相當成熟。從此搜索引擎進入了高速發(fā)展時期。而 RBSE 是第一個在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎。 ALIWEB不使用“機器人”程序,而是靠網(wǎng)站主動提交信息來建立 自己的鏈接索引,類似于現(xiàn)在我們熟知的Yahoo。由于專門用于檢索信息的“機器人”程序成都學(xué)院學(xué)士學(xué)位論文(設(shè)計) 3 象蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,因此, 搜索引擎的“機器人”程序就被稱為“蜘蛛”程序。 Jug head 是后來另一個 Gopher 搜索工具。 Alan Emtage 等想到了開發(fā)一個可以用文件名查找文件的系統(tǒng),于是便有了 Archie。高效,優(yōu)秀的爬蟲程序可以使人們在互聯(lián)網(wǎng)上尋找到更及時,更準確的信息。隨著互連網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)信息量呈現(xiàn)出爆炸性增長的趨勢,當今這個時代被稱為“大數(shù)據(jù)”時代。高效,優(yōu)秀的自動獲取資源程序可以使人們在互聯(lián)網(wǎng)上尋找到更及時,更準確的信息。此外 , 還有根據(jù)概率論進行可用Web 頁的數(shù)量估算 ,?用于評估互聯(lián)網(wǎng) Web 規(guī)模的抽樣爬蟲程序 ; 采用爬行深度、頁面導(dǎo)入鏈接量分析等方法 , 限制從程序下載不相關(guān)的 Web 頁的選擇性爬行程序等等。 WEB 資源自動獲取技術(shù)程序就是用來搜集網(wǎng)頁的程序。網(wǎng)絡(luò)爬蟲,是一種按照一定的規(guī)則,自動的抓取因特網(wǎng)信息的程序或者腳本。用戶通過輸入自己感興趣的關(guān)鍵字就能獲得與之相關(guān)的網(wǎng)頁。 MultiThreading 成都學(xué)院學(xué)士學(xué)位論文(設(shè)計) I 目 錄 緒 論 ............................................................................................................................................1 1 概述 ..........................................................................................................................................2 研究目的和意義 .................................................................................................................2 網(wǎng)絡(luò)爬蟲的歷史 .................................................................................................................2 研究現(xiàn)狀和發(fā)展趨勢 ..........................................................................................................3 2 網(wǎng)絡(luò)爬蟲相關(guān)技術(shù) ....................................................................................................................5 URL ....................................................................................................................................5 HTTP 協(xié)議 ..........................................................................................................................5 HTTP 協(xié)議簡介 .............................................................................................................5 HTTP 消息的結(jié)構(gòu) .........................................................................................................6 請求方法 ......................................................................................................................7 HTTP 狀態(tài)代碼 .............................................................................................................8 Java 多線程 .........................................................................................................................8 定義 .............................................................................................................................8 優(yōu)點 .............................................................................................................................8 不足 .............................................................................................................................8 Java 多線程編程 ............................................................................................................9 Java 網(wǎng)絡(luò)編程 ................................................................................................................... 11 TCP/IP ........................................................................................................................ 11 網(wǎng)絡(luò)編程步驟 ................
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1