freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡(luò)爬蟲技術(shù)探究畢業(yè)設(shè)計-在線瀏覽

2025-05-03 00:16本頁面
  

【正文】 源的同時,也存在著種種的不足之處。 ( 2) 查全 率低 : 搜索引擎的索引能力正在越來越落后于網(wǎng)絡(luò)的快速增長速度。有調(diào)查發(fā)現(xiàn),幾個不同搜索引擎檢索到的第一個文件在網(wǎng)上存在的平均時間是 186 天。 因而,人們提出了對搜索引擎新的要求 : ( l) 運行在常規(guī)的軟 /硬件設(shè)備之上 ; ( 2) 只采集某一特定學(xué)科或特定主題的 Web 信息資源 ; ( 3) 能夠方便地對專題和學(xué)科進行配置。 主題 爬蟲 就是針對性的為某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價值的信息和相關(guān)服務(wù)。由于 主題 爬蟲 分類細(xì)致精確、數(shù)據(jù)全面深入、更新及時,并且運用了人工分類以及特征提取等智能化策略,因此它將更加有效和準(zhǔn)確。具備普通爬蟲的功能,即通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面 (通常是首頁 )開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址 尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。因此,主題爬蟲得到越來越多研究者的關(guān)注。在時間上的優(yōu)勢保證了網(wǎng)頁的及時更新。 系統(tǒng) 意義 網(wǎng)絡(luò)爬蟲的 工作是不停的抓取互聯(lián)網(wǎng)上資源的信息,隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。但是,這些通用性搜索引擎也存在著一定的局限性,為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資 4 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 源的網(wǎng)絡(luò)爬蟲應(yīng)運而生。網(wǎng)絡(luò)爬蟲的準(zhǔn)確高效直接關(guān)系到搜索引擎的功能是否強大 [3]。 ( 2)開始初期的實現(xiàn),主要實現(xiàn)的功能是:網(wǎng)頁抓取、 URLs 提取、頁面內(nèi)容解析、數(shù)據(jù)存儲等。 論文結(jié)構(gòu) 本論文主要介紹的網(wǎng)絡(luò)爬蟲的開放過程,全文共分為五章: 第一章緒論,簡要的介紹了系統(tǒng)的開放背景級研究現(xiàn)狀,以及文本的工作概要; 第二章系統(tǒng)需求分析,主要介紹了系統(tǒng)所要 解決的問題,以及系統(tǒng)的體系結(jié)構(gòu)和類結(jié)構(gòu); 第三章系統(tǒng)總體設(shè)計,主要是介紹了系統(tǒng)實現(xiàn)的主要算法策略,以及具體的功能劃分; 第四章系統(tǒng)實現(xiàn),主要介紹了實現(xiàn)的各個功能的具體代碼的分析; 第五章系統(tǒng)測試,主要是對整個系統(tǒng)進行各個模塊的測試,是否符合要求 ; 第六章總結(jié)與展望,主要講述了整個系統(tǒng)完成后的心得以及系統(tǒng)的一些缺陷。 5 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 2 需求分析 系統(tǒng)非功能性需求 所謂非功能性需求是指為滿足用戶業(yè)務(wù)需求必須具有且除功能需求外的特性。本系統(tǒng)的非功能性需求主要包括以下幾個方面: ( 1)易用性 本系統(tǒng)在功能完善的情況下,用戶界面盡量做到簡潔友好、便于操作,并應(yīng)有效地防止誤操作的發(fā)生。 ( 3)通用性 本系統(tǒng)可以適應(yīng)各種系統(tǒng)環(huán)境,滿足了不同類型用戶的需求。 ( 2) Servlet 處理程序:主要用于接收傳來的初始 URL ,然后再調(diào)用 Spider 主程序。 ( 4)數(shù)據(jù)庫管理:主要用于存放抓取的數(shù)據(jù)保存以便用戶的檢索。 6 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 圖 21 爬蟲工作原理流程圖 網(wǎng)絡(luò)爬蟲是搜索引擎的核心部分,其名稱出自 Spider 的意譯 ,具有相同詞義的詞語還有 Spider,robots,bots,wanderer 等等。網(wǎng)絡(luò)爬蟲是一個功能很強的自動提取網(wǎng)頁的程序 ,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁 ,是搜索引擎的重要組成。它遍歷 Web 空間 ,不斷從一個站點移動到另一個站點 ,自動建立索引 ,并加入到 網(wǎng)頁數(shù)據(jù)庫中。 下面將詳細(xì)分析爬蟲的工作流程,通過流程圖來描述爬蟲的工作原理, 本網(wǎng)絡(luò)爬蟲工作原理 如下。 ( 2) 創(chuàng)建爬蟲程序,啟動爬蟲程序 。如果獲取到的 URL 為相對地址, 則 需要轉(zhuǎn)換為絕 對地址,然后 在判斷是否為站外地址,是則 淘汰站外 URLs,如果是不能訪問的地址如 錯誤 URLs 或者不能解析的 URL 地址 ,則也要刪除掉。 ( 4) 繼續(xù) 重復(fù)的 執(zhí)行步驟 ( 3) ,直到結(jié)束條件 滿足后則 停止 繼續(xù)爬行 。 網(wǎng)絡(luò)爬蟲的主要目的就是爬取用戶需要的內(nèi)容,即盡可能的爬取有關(guān)內(nèi)容的頁面,盡可能減少抓取無關(guān)頁面,對非主題的網(wǎng)頁進行剔除,確保網(wǎng)頁的質(zhì)量。一是對已經(jīng)下載到本地的網(wǎng)頁進行主題相關(guān)性判斷,將相關(guān)的網(wǎng)頁保存,無關(guān)的丟棄。在設(shè)計的過程中,要考慮到以下幾點 : ( 1) 穩(wěn)定性 : 設(shè)計的總體結(jié)構(gòu)要合理,保證系統(tǒng)能夠穩(wěn)定運行。 8 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 ( 3) 靈活性 : 對系統(tǒng)的各個配置參數(shù)進行修改,使系統(tǒng)能夠更好地運行。 基于以上原則,本文對主題爬蟲的結(jié)構(gòu),數(shù)據(jù)結(jié)構(gòu)、 存儲文件和所采用的主題采集策略進行了詳細(xì)設(shè)計。 開發(fā)平臺 此系統(tǒng)開發(fā)選用的平臺是 Java Server Page(簡稱 JSP)+SQL Server 數(shù)據(jù)庫,它適應(yīng)于 Windows 操作系統(tǒng)并能很好的與其應(yīng)用程序結(jié)合,而且 SQL Server 數(shù)據(jù)庫也易操作,從而大大降低了編程難度。 ( 2)采用了 的環(huán)境。 ( 4)使用 Myeclipse 工具開發(fā)。 開發(fā)語言 JSP 頁面由 HTML 代碼和嵌入其中的 Java 代碼所組成。JSP 的技術(shù)的優(yōu)勢: ( 1)一次編寫, 到處運行。 ( 2)系統(tǒng)的多平臺支持。相比 ASP/PHP 的局限性是顯而易見的。 Java 語言是成熟的、強大的、易擴充的編程語言。 JSP 在執(zhí)行前先被編譯成字節(jié)碼,字節(jié)碼由 Java 虛擬機解釋執(zhí)行,比源碼解釋效率高。由于 JSP 技術(shù)是一種開放的、跨平臺的結(jié)構(gòu),因此 Web 服務(wù)器、平臺及其他組件能很容易升級或切換,且不會影響 JSP 基本的應(yīng)用程序。 Java 已經(jīng)有了許多非常優(yōu)秀的開發(fā)工具,而且許多可以免費得到,并且其中許多已經(jīng)可以順利的運行于多種平臺之下。它執(zhí)行效率高,可在多用戶之間有效的分配可用資源,比如:內(nèi)存、網(wǎng)絡(luò)帶寬和磁盤 I/O 等。 本章小結(jié) 這章主要是明確系統(tǒng)開發(fā)的需求分析,明確系統(tǒng)要實現(xiàn)的功能,確立系統(tǒng)的功能模塊,按照系統(tǒng)開發(fā)的流程,先確立系統(tǒng)要實現(xiàn)的功能模塊,最后確立系統(tǒng)的用戶需求的定位, 本需求分析報告的目的是規(guī)范化本軟件的編寫,旨在于提高軟件開發(fā)過程中的能見度,便于對軟件開發(fā)過程中的控制與管理,同時提出了 網(wǎng)絡(luò)爬蟲 軟件開發(fā)過程,便于 程序員 與 操作者 之間的交流、協(xié)作,并作為工作成果的原始依據(jù),同時也表明 了本軟件的共性,以期能夠獲得更大范圍的應(yīng)用 。如圖 31 所示 。 網(wǎng)絡(luò)爬蟲系統(tǒng)的前臺結(jié)構(gòu)如圖 32 所示 。 圖 33 系統(tǒng)后臺結(jié)構(gòu) 廣度優(yōu)先隊列管理:該隊列主要是用于臨時存放解析出來的 URL, 本系統(tǒng)通過UrlNode 類實現(xiàn) URL 隊列的管理。 數(shù)據(jù)存儲管理:本系統(tǒng)數(shù)據(jù)存儲是用 Snatch()方法實現(xiàn),該方法將提取的內(nèi)容存儲到數(shù)據(jù)庫中。 URL 解析管理:該模塊主要是用于從種子 URL 中不斷的解析 URLs,并放到隊列中。 網(wǎng)絡(luò)爬蟲系統(tǒng)前臺 前臺搜索 前臺爬行 顯示搜索結(jié)果 調(diào)用后臺主程序 網(wǎng)絡(luò)爬蟲系統(tǒng)后臺 廣度優(yōu)先隊列管理 數(shù)據(jù)存儲管理 頁面讀取提取管理 URL解析管理 URL合法檢測管理 數(shù)據(jù)庫連接管理 12 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 URL 合法檢測管理:該模塊的作用是檢測解析出來的 URL 是否合法:即是否是站內(nèi)地址、不能訪問的地址、文件地址和已訪問地址。廣度優(yōu)先算法的實行理論是覆蓋更多的節(jié)點,所以此爬 蟲程序選擇了廣度優(yōu)先算法。實現(xiàn)的策略基本是:首先是獲取最初始 URL 所對應(yīng) HTML 代碼里面所有的 URLs,當(dāng)然都是合法的,非法的 URLs 都會通過檢查類剔除掉。通過這種循環(huán)的獲取方式實現(xiàn)廣度優(yōu)先爬行。 圖 3- 4 爬行策略樹 形圖 如圖 34,假如 a 代表初始 的 URL, b、 c、 d 為以 a 獲取的 3 個 URLs, e、 f、 g為以 b 獲取的 URLs, h、 i、 j 為以 c 獲取的 URLs, 以此類推。當(dāng)獲取到 b 的 URLs 之后,并不會馬上去解析這些 URLs,而是先解析同 b 在同一層中的c、 d 對應(yīng)的 URLs。 可以看到爬蟲策略樹形圖是一個類似二叉樹形的樹形結(jié)構(gòu)。對 服務(wù)器的負(fù)載相應(yīng)也明顯減輕了許多 。現(xiàn)實起來也比其他的算法來的容易的。 廣度優(yōu)先算法的等待隊列設(shè)計如圖 35 所示。第一個方框是將初始 A AB C D B C C D B A E F G E F G H I J K L M O N P 14 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 URL: a 加入到等待隊列。第三個方框為,解析 b 對應(yīng) HTML 獲取 URLs: efg,同時刪除 URL: b。通過這樣的存儲方法實現(xiàn)廣度爬行算法 [7]。 DNS 的解析過程的具體步驟如下 : ( 1) DNS 客戶機提出域名解析請求,并將該請求發(fā)送給本地的 DNS 服務(wù)器 。 并行存儲 單一線程下載一個網(wǎng)頁通常需要幾秒鐘,為了充分利用網(wǎng)絡(luò)帶寬和系統(tǒng)資源,網(wǎng)絡(luò)爬 蟲需要打開許多 Socket 以便在同一時間連接到許多不同的 HTTP 服務(wù)器。 15 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 由于網(wǎng)絡(luò)爬蟲的性能受網(wǎng)絡(luò)和磁盤所限,多 CPU的機器一般用處不是很大 [8]。多線程可以大大提高應(yīng)用程序的可用性和性能。最簡單的方法是使用阻塞系統(tǒng)調(diào)用,它暫??蛻舳诉M程,直到請求完成,數(shù)據(jù)在用戶指定的緩沖區(qū)可用。線程不是為每個請求動態(tài)生成的,而是提前分配的固定的線程數(shù)。每個線程管理自己的控制狀態(tài)和堆棧,但共享數(shù)據(jù)域。并發(fā)線程 /進程有兩個問題。第二,當(dāng)線程 或 進程完成網(wǎng)頁抓取,并開始修改文件存放庫和索引時,他們可能會導(dǎo)致大量的交叉,隨機在磁盤上讀寫,從而降低磁盤的查詢時間。為了防止上述問題,眾多的抓取線程 或 進程必須使用一個共享的內(nèi)存緩沖,信號量和互斥鎖。 ( 2) 非阻塞 Socket 和事件處理 另一種辦法是使用非阻塞 Socket。 系統(tǒng)每隔一段時間對他們實行一次輪詢 ,以判斷是否可以進行讀寫操作。 Select()事實上可以同時監(jiān)控幾個 Socket,暫停請求進程,直到有 Socket 可以讀或?qū)憽? 16 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 中文分詞技術(shù) 中文自動分詞是網(wǎng)頁分析的前提。在提取特征項時,中文信息文本中,詞與詞之間沒有天然的分隔符,中文詞匯大多是由兩個或兩個以上的漢字組成的,并且語句是連續(xù)書寫的。自動中文分詞的基本方法有基于字符串匹配的分詞方法和基于統(tǒng)計的分詞方法。串匹配分詞方法可以分為正向匹配和逆向匹配 ; 按照不同長度優(yōu)先匹配的情況,可 以分為最大或最長匹配,和最小或最短匹配 。另外一種是基于統(tǒng)計的分詞方法,它的基本原理是根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計頻率來決定其是否構(gòu)成詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映詞的可信度。這種方法只需對語料中的詞組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典 (常用詞詞典 )進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下 文識別生詞、自動消除歧義的優(yōu)點。 17 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 數(shù)據(jù)庫設(shè)計 對于 SQLSERVER 數(shù)據(jù)庫的設(shè)計。 JAVA程序和數(shù)據(jù)之間的通信是通過 JDBC 實現(xiàn)的。 表 36 webinfo表結(jié)構(gòu) 字段名 數(shù)據(jù)類型 長度 Id Int 4 url String 50 Title Varchar 8000 Body Text 1000 本章小結(jié) 此章節(jié)介紹的是如何通過一個給定的 URL 抓取整個網(wǎng)站內(nèi)容的描述過程,其中頁面中的內(nèi)容解析是最重要的核心,通過對 URL 解析過程的分析,使我更加深入的認(rèn)識到了網(wǎng)絡(luò)爬蟲的工作原理,為鞏固 JAVA 的學(xué)習(xí)打下了堅實的基礎(chǔ)。 系統(tǒng)功能簡介 此爬蟲程序主要分為三個部分:任務(wù)執(zhí)行端,任務(wù)前臺界面,數(shù)據(jù)服務(wù)端。 SPIDER 的任務(wù)執(zhí)行需要維持一個URL 隊列 : 任務(wù)執(zhí)行端的 URL 隊列中存儲了站內(nèi) URL。我們可以把網(wǎng)絡(luò)看做一個圖 M(V,E),網(wǎng)絡(luò)中的網(wǎng)頁構(gòu)成節(jié)點集 V,他們之間的鏈接構(gòu)成邊集 E, SPIDER 正是從某一節(jié)點開始,沿著邊,遍歷圖 M, 每訪問到圖中 一個節(jié)點Vi,就進行一定的處理。但網(wǎng)頁數(shù)目是如此之大,如果任 SPIDER 程序無窮地搜索下去,那么程序幾乎不能終止。一個再大型的站點,其中的網(wǎng)頁數(shù)目也是有限的,因此 SPIDER 程序能在有限的時間內(nèi)結(jié)束。 在這些 URL 隊列上有大量的操作 ,包括 URL 查找、 URL 插入、 URL 狀態(tài)更新等。如果采用 URL 壓縮的辦法 ,盡管在一定程度上可以平衡空間和時 19 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 間的矛盾 ,但仍然不適用于大 規(guī)模數(shù)據(jù)采
點擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1