正文內(nèi)容

畢業(yè)設(shè)計---網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)(編輯修改稿)

2025-01-08 16:36 本頁面

　

【文章內(nèi)容簡介】搜索引擎并不能支持定制搜索和信息處理、挖掘，只能以形式存在。可以預(yù)見將來互聯(lián)網(wǎng)信息抓取、挖掘和再處理，將成為人們越來越多的需求，而滿足這種需求的，就是各種各樣的爬蟲與相關(guān)的信息處理工具?，F(xiàn)在網(wǎng)絡(luò)上流行的信息采集工具、網(wǎng)站聚合工具，都是未來新一代爬蟲的先驅(qū)，甚至已經(jīng)具備其特點。但是互聯(lián)網(wǎng)本身，不管，還沒有為爬蟲時代的到來做好充分 4 準備。現(xiàn)在游行的 SEO，就是強勢搜索引擎條件下對網(wǎng)站結(jié)構(gòu)產(chǎn)生的影響。爬蟲時代到來之后，互聯(lián)網(wǎng)上會出現(xiàn)專門的信息站點，就是提供給爬蟲看的站點。傳統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù)主要應(yīng)用于抓取靜態(tài) Web 網(wǎng)頁，隨著 AJAX/行，如何抓取 AJAX 等動態(tài)頁面成了搜索引擎急需解決的問題，因為 AJAX 顛覆了傳統(tǒng)的純 HTTP 請求 /響應(yīng)協(xié)議機制，如果搜索引擎依舊采用“爬”的機制，是無法抓取到 AJAX 頁面的有效數(shù)據(jù)的。 AJAX 采用了 JavaScript 驅(qū)動的異步請求 /響應(yīng)機制，以往的爬蟲們?nèi)狈avaScript 語義上的理解，基本上無法模擬觸發(fā) JavaScript 的異步調(diào)用并解析返回的異步回調(diào)邏輯和內(nèi)容。另外，在 AJAX 的應(yīng)用中， JavaScript 會對 DOM 結(jié)構(gòu)進行大量變動，甚至頁面所有內(nèi)容都通過 JavaScript 直接從服務(wù)器端讀取并動態(tài)繪制出來。這對習(xí)慣了 DOM 結(jié)構(gòu)相對不變的靜態(tài)頁面簡直是無法理解的。由此可以看出，以往的爬蟲是基于協(xié)議驅(qū)動的，而對于 AJAX 這樣的技術(shù)，所需要的爬蟲引擎必須是基于事件驅(qū)動的。 5 第二章相關(guān)技術(shù)背景網(wǎng)絡(luò)爬蟲的定義定義 1：網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序，它為搜索引擎從 Web上下載網(wǎng)頁，是搜索引擎的重要組成部分。通用網(wǎng)絡(luò)爬蟲從一個或若干初始網(wǎng)頁的 URL開始，獲得初始網(wǎng)頁上的 URL 列表；在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的 URL 放入待爬行隊列，直到滿足系統(tǒng)的停止條件。定義 2：主題網(wǎng)絡(luò)爬蟲就是根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接，保留主題相關(guān)的鏈接并將其放入待抓取的 URL 隊列中；然后根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁 URL，并重復(fù)上述過程，直到達到系統(tǒng)的某一條件時停止。所有被網(wǎng)絡(luò)爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存儲，進行一定的分析、過濾，并建立索引，對于主題網(wǎng)絡(luò)爬蟲來說，這一過程所得到的分析結(jié)果還可能對后續(xù)的抓取過程進行反饋和指導(dǎo)。定義 3：如果網(wǎng)頁 p中包含超鏈接 l，則 p稱為鏈接 l的父網(wǎng)頁。定義 4：如果超鏈接 l指向網(wǎng)頁 t，則網(wǎng)頁 t稱為子網(wǎng)頁，又稱為目標(biāo)網(wǎng)頁。主題網(wǎng)絡(luò)爬蟲的基本思路就是按照事先給出的主題，分超鏈接和已經(jīng)下載的網(wǎng)頁內(nèi)容，預(yù)測下一個待抓取的 URL及當(dāng)前網(wǎng)頁的主題相關(guān)度，保證盡可能多地爬行、下載與主相關(guān)的網(wǎng)頁，盡可能少地下載無關(guān)網(wǎng)頁。網(wǎng)頁搜索策略介紹網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會導(dǎo)致爬蟲的陷入 (trapped)問題，目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。廣度優(yōu)先搜索策略廣度優(yōu)先搜索策略是指在抓取過程中，在完成當(dāng)前層次的搜索后，才進行下一層次的搜索。該算法的設(shè)計和實現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁，一般使用廣度優(yōu)先搜索方法。也有很多研究將廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲中。其基本思想是認為與初始 URL 在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用，先用廣度優(yōu)先策略抓取網(wǎng)頁，再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點在于，隨著 6 抓取網(wǎng)頁的增多，大量的無關(guān)網(wǎng)頁將被下載并過濾，算法的效率將變低。最佳優(yōu)先搜索策略最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法，預(yù)測候選 URL與目標(biāo)網(wǎng)頁的相似度，或與主題的相關(guān)性，并選取評價最好的一個或幾個 URL 進行抓取。它只訪問經(jīng)過網(wǎng)頁分析算法預(yù)測為“有用”的網(wǎng)頁。存在的一個問題是，在爬蟲抓取路徑上的很多相關(guān)網(wǎng)頁可能被忽略，因為最佳優(yōu)先策略是一種局部最優(yōu)搜索算法。因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進行改進，以跳出局部最優(yōu)點。將在第 4節(jié)中結(jié)合網(wǎng)頁分析算法作具體的討論。研究表明，這樣的閉環(huán)調(diào)整可以將無關(guān)網(wǎng)頁數(shù)量降低 30%~90%。判斷相關(guān)度算法主題爬蟲的系統(tǒng)組成最初考慮是對頁面的過濾，不像普通爬蟲對所有頁面的鏈接進行處理，先對頁面與受限領(lǐng)域的主題相關(guān)度進行分析，只有當(dāng)其主題相關(guān)度符合要求時才處理該頁面中的鏈接，因為如果該頁面和本領(lǐng)域比較相關(guān)，它所包含的鏈接和領(lǐng)域相關(guān)的幾率也較大，這樣提高了爬行精度，雖然會遺漏少數(shù)頁面，但綜合效果是令人滿意的。因此，主題相關(guān)度的分析是主題爬蟲設(shè)計的關(guān)鍵。（一）主題相關(guān)度計算模型垂直搜索引擎與通用搜索引擎最大的區(qū)別在于垂直搜索引擎是面向某個領(lǐng)域的，因而垂直搜索引擎的網(wǎng)絡(luò)蜘蛛只采集與主題相關(guān)的網(wǎng)頁，與主題無關(guān)的網(wǎng)頁將被丟棄，將此類網(wǎng)絡(luò)蜘蛛稱為主題蜘蛛 [68]。主題蜘蛛將網(wǎng)頁下載到本地后，需要使用基于內(nèi)容的主題判別方法計算該網(wǎng)頁的主題相關(guān)度值，主題相關(guān)度低于某一閾值的網(wǎng)頁被丟棄。主題相關(guān)度的計算方法有布爾模型和向量空間模型兩種模型算法 [10]。。在主題判別時，布爾模型是很容易實現(xiàn)的。在布爾模型 [9]中，一個文檔通過一個關(guān)鍵詞集合來表示。同時，某個主題也以關(guān)鍵詞集合的形式來表示。在判斷文檔與某主題的相關(guān)度的過程中，相當(dāng)于是計算兩個關(guān)鍵詞集合的交集。對基于布爾模型的主題判別模型來說，交集中含有的元素越多，則認為與主題的相關(guān)度就越高。。向量空間模型 [11]（ Vector Space Model）由 Salton 等人于 20 世紀 60年代末提出，是一種簡便、高效的文本表示模型，其理論基礎(chǔ)是代數(shù)學(xué)。與布爾模型不同，向量空間模型把用戶的查詢要求和數(shù)據(jù)庫文檔信息表示成由檢索項構(gòu)成的向量空間中的點（向量），而通過計算向量之間的距離來判定文檔和查詢之間的相似程度（例如，用它們之間夾角的余弦作為相似性度量）。 7 然后，根據(jù)相似程度排列查詢結(jié)果。在向量空間模型中，文檔被形式化為 n 維空間中的向量，把關(guān)鍵詞的個數(shù) n 作為空間向量的維數(shù)，每個關(guān)鍵詞的權(quán)值作為每一維分量的大小，則主題用向量表示為： A=(a1,a2,? ,an),i=1,2,? ,n,ai=wi 對于頁面進行分析，統(tǒng)計關(guān)鍵詞出現(xiàn)的頻率，并求出頻率之比，以出現(xiàn)的頻率最高的關(guān)鍵詞作為基準，其頻率用 xi=1 表示，通過頻率比，求出其他關(guān)鍵詞的頻率，則該頁面對應(yīng)向量的每一維分量為 xiwi。指定一個閾值 r，當(dāng) cosα，β =r 時就可以認為該頁面和主題是比較相關(guān)的， r 的取值需要根據(jù)經(jīng)驗和實際要求確定，如果想獲得較多的頁面，可以把 r設(shè)小一點，要獲得較少的頁面可以把 r 設(shè)的大一點。（二）布爾模型與空間向量模型分析布爾模型的主要缺陷在于每個關(guān)鍵詞的權(quán)重都是一樣的，它不支持設(shè)定關(guān)鍵詞的相對重要性，但是其優(yōu)點也較為明顯，它易于實現(xiàn)，計算代價較小。向量空間模型最大優(yōu)點在于它在知識表示方法上的巨大優(yōu)勢。在該模型中，文檔的內(nèi)容被形式化為多維空間中的一個點，以向量的形式給出。也正是因為把文檔以向量的形式定義到實數(shù)域中，才使得模式識別和其他領(lǐng)域中各種成熟的算法和計算方法得以采用，極大地提高了自然語言文檔的可計算性和可操作性。通過對空間向量模型和布爾模型的介紹，我們知道現(xiàn)在垂直搜索引擎大多采用空間向量模型計算主題相關(guān)性。這樣極大的提高到主題爬蟲的效率，也極大的提高了垂直搜索引擎的應(yīng)用效率，給客戶帶來了高效的查詢效果。與在進行頁面的主題相關(guān)度分析后，當(dāng)其主題相關(guān)度符合要求時將處理該頁面中的所有鏈接，但其中的鏈接指向的頁面也可能有許多偏離了主題，這一點在網(wǎng)頁的標(biāo)題上就可以看出，現(xiàn)在大多數(shù)網(wǎng)頁的標(biāo)題已經(jīng)很明顯的給出了文本的主要描述對象，所以傳統(tǒng)的空間模型策略沒有注意到網(wǎng)頁標(biāo)題這個重要的角色。針對此提出了一種基于網(wǎng)頁標(biāo)題的空間向量模型主題相關(guān)度計算方法。 8 第三章網(wǎng)絡(luò)爬蟲模型的分析和概要設(shè)計網(wǎng)絡(luò)爬蟲的模型分析首先建立 URL 任務(wù)列表，即開始要爬取的 URL。由 URL任務(wù)列表開始，根據(jù)預(yù)先設(shè)定的深度爬取網(wǎng)頁，同時判斷 URL 是否重復(fù)，按照一定算法和排序方式搜索頁面，然后對頁面按照一定算法進行分析，并提取相關(guān) URL，最后將所得 URL返回任務(wù)列表。之后將任務(wù)列表中 URL 重新開始爬取，從而使網(wǎng)絡(luò)爬蟲進行循環(huán)運行。網(wǎng)絡(luò)爬蟲的搜索策略本文的搜索策略為廣度優(yōu)先搜索策略。如下圖 31 所示。圖 31 廣度優(yōu)先搜索策略示意圖 1）定義一個狀態(tài)結(jié)點采用廣度優(yōu)先搜索算法解答問題時，需要構(gòu)造一個表明狀態(tài)特征和不同狀態(tài)之間關(guān)系的數(shù)據(jù)結(jié)構(gòu)，這種數(shù)據(jù)結(jié) 構(gòu)稱為結(jié)點。不同的問題需要用不同的數(shù)據(jù)結(jié)構(gòu)描述。 2）確定結(jié)點的擴展規(guī)則根據(jù)問題所給定的條件，從一個結(jié)點出發(fā)，可以生成一個或多個新的結(jié)點，這個 9 過程通常稱為擴展。結(jié)點之間的關(guān)系一般可以表示成一棵樹，它被稱為解答樹。搜索算法的搜索過程實際上就是根據(jù)初始條件和擴展規(guī)則構(gòu)造一棵解答樹并尋找符合目標(biāo)狀態(tài)的結(jié)點的過程。廣度優(yōu)先搜索算法中，解答樹上結(jié)點的擴展是沿結(jié)點深度的“斷層”進行，也就是說，結(jié)點的擴展是按它們接近起始結(jié)點的程度依次進行的。首先生成第一層結(jié)點，同時檢查目標(biāo)結(jié)點是否在所生成的結(jié)點中，如果不在，則將所有的第一層結(jié)點逐一擴展，得到第二層結(jié)點，并檢查第二層結(jié)點是否包含目標(biāo)結(jié)點， ...對長度為 n+1 的任一結(jié)點進行擴展之前，必須先考慮長度為 n的結(jié)點的每種可能的狀態(tài)。因此，對于同一層結(jié)點來說，求解問題的價值是相同的，我們可以按任意順序來擴展它們。這里采用的原則是先生成的結(jié)點先擴展。結(jié)點的擴展規(guī)則也就是如何從現(xiàn)有的結(jié)點生成

點擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

畢業(yè)設(shè)計---網(wǎng)絡(luò)社區(qū)服務(wù)與管理系統(tǒng)的設(shè)計與實現(xiàn)-畢業(yè)設(shè)計-資料下載頁

【總結(jié)】網(wǎng)絡(luò)社區(qū)服務(wù)與管理系統(tǒng)的設(shè)計與實現(xiàn)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：網(wǎng)絡(luò)社區(qū)服務(wù)與管理系統(tǒng)的設(shè)計與實現(xiàn)摘要社區(qū)服務(wù)

2025-01-19 04:34

畢業(yè)設(shè)計---網(wǎng)絡(luò)信息發(fā)布系統(tǒng)的設(shè)計與實現(xiàn)_-資料下載頁

【總結(jié)】網(wǎng)絡(luò)信息發(fā)布系統(tǒng)的設(shè)計與實現(xiàn)1鄭州輕工業(yè)學(xué)院本科畢業(yè)設(shè)計（論文）

2024-12-03 20:24

智能無線傳感網(wǎng)絡(luò)節(jié)點的設(shè)計與實現(xiàn)(畢業(yè)設(shè)計)(doc畢業(yè)設(shè)計論文)-資料下載頁

【總結(jié)】智能無線傳感網(wǎng)絡(luò)節(jié)點的設(shè)計與實現(xiàn)畢業(yè)設(shè)計說明書目錄1引言…………………………………………………………………………2通用無線傳感網(wǎng)絡(luò)節(jié)點的體系結(jié)構(gòu)…………………………………………、無線傳感網(wǎng)絡(luò)節(jié)點的設(shè)計要求…………………………………………、無線傳感網(wǎng)絡(luò)節(jié)點的通用體系結(jié)構(gòu)………………………………………3通用無線傳感節(jié)點的設(shè)計和實現(xiàn)…………………

2025-06-19 01:57

新聞爬蟲系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】山東科技大學(xué)本科畢業(yè)設(shè)計（論文）摘要隨著計算機網(wǎng)絡(luò)在世界范圍的飛速發(fā)展，互聯(lián)網(wǎng)作為最具潛力與活力的媒體已經(jīng)被公認是繼報紙，廣播，電視之后的“第四媒體”，成為反映社會新聞熱點的重要載體。為了及時了解網(wǎng)絡(luò)新聞熱點，相關(guān)機構(gòu)引入了新聞熱點分析系統(tǒng)。本文設(shè)計的新聞爬蟲系統(tǒng)是新聞熱點分析系統(tǒng)的數(shù)據(jù)源，負責(zé)新聞信息的采集。本文借助于爬蟲領(lǐng)域的相關(guān)技術(shù)與工具，結(jié)合新聞熱點分析系統(tǒng)的需求從原理或工作

2025-08-05 07:56

基于廣度優(yōu)先算法的多線程網(wǎng)絡(luò)爬蟲畢業(yè)設(shè)計-資料下載頁

【總結(jié)】沈陽理工大學(xué)學(xué)士學(xué)位論文I摘要目前即使通訊軟件在平時的生活中有著十分廣泛的應(yīng)用，但是對絕大部分的軟件來說，都必須應(yīng)用在互聯(lián)網(wǎng)上，必須在一個INTERNET環(huán)境下才能使用。有時候單位內(nèi)部的員工，同學(xué)，在沒有互聯(lián)網(wǎng)環(huán)境下或因其他原因希望不用INTERNET就可以進行信息交互，這樣開發(fā)局域網(wǎng)通信

2025-06-27 20:18

畢業(yè)設(shè)計---游戲開發(fā)實現(xiàn)與設(shè)計-畢業(yè)設(shè)計-資料下載頁

【總結(jié)】目錄第一章游戲開發(fā)的現(xiàn)狀分析...........................................0游戲開發(fā)現(xiàn)狀.................................................0游戲開發(fā)中存在的問題.......................................

2025-01-19 04:37

網(wǎng)絡(luò)嗅探器的設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(論文)網(wǎng)絡(luò)嗅探器的設(shè)計與實現(xiàn)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：網(wǎng)絡(luò)嗅探器的設(shè)計與實現(xiàn)摘要隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和網(wǎng)絡(luò)應(yīng)用的普及，越來越多的信息

2024-12-03 17:18

畢業(yè)設(shè)計論文網(wǎng)絡(luò)廣告管理系統(tǒng)設(shè)計與實現(xiàn)-資料下載頁

【總結(jié)】鄭州輕工業(yè)學(xué)院本科畢業(yè)設(shè)計（論文）題目網(wǎng)絡(luò)廣告管理系統(tǒng)設(shè)計與實現(xiàn)學(xué)生姓名XXXx專業(yè)班級xxxxxxxxxxxxxxxxx學(xué)號xxxxxxxxx

2024-12-03 16:31

網(wǎng)絡(luò)嗅探器的設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】正在輸入（網(wǎng)@laoshutou）為您傾心整理（下載后雙擊刪除）如有需求請發(fā)站內(nèi)信（下載后雙擊刪除）畢業(yè)設(shè)計(論文)網(wǎng)絡(luò)嗅探器的設(shè)計與實現(xiàn)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：正在輸

2024-12-03 17:10

zigbee網(wǎng)絡(luò)與wlan網(wǎng)關(guān)設(shè)計方案與實現(xiàn)畢業(yè)設(shè)計-資料下載頁

【總結(jié)】大學(xué)畢業(yè)設(shè)計（論文）題目Zigbee網(wǎng)絡(luò)與WLAN網(wǎng)關(guān)設(shè)計方案與實現(xiàn)專業(yè)通信工程學(xué)生姓名班級學(xué)號指導(dǎo)教師指導(dǎo)單位通信技術(shù)研究所日期：摘要近年來，無線局域網(wǎng)（WLAN）由于其在數(shù)據(jù)通信方面能為用戶提供方便快捷的高速無線數(shù)據(jù)接入和Internet服務(wù)取得了廣泛的應(yīng)用。WLAN技術(shù)的

2025-06-06 17:29

網(wǎng)絡(luò)文件管理系統(tǒng)的設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(論文)網(wǎng)絡(luò)文件管理系統(tǒng)的設(shè)計與實現(xiàn)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：網(wǎng)絡(luò)文件管理系統(tǒng)的設(shè)計與實現(xiàn)摘要隨著計算機及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展，企業(yè)文件管理信息

2024-12-03 17:18

網(wǎng)絡(luò)求職招聘系統(tǒng)的設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(論文)網(wǎng)絡(luò)求職招聘系統(tǒng)的設(shè)計與實現(xiàn)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：網(wǎng)絡(luò)求職招聘系統(tǒng)的設(shè)計與實現(xiàn)摘要隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展，網(wǎng)絡(luò)在人們生活中的應(yīng)用越來

2024-12-03 17:13

畢業(yè)設(shè)計-網(wǎng)絡(luò)音樂庫系統(tǒng)的設(shè)計與實現(xiàn)—論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計網(wǎng)絡(luò)音樂庫系統(tǒng)院(系)、部：_____________________學(xué)生姓名：______________________指導(dǎo)教師：______________________專業(yè)：______________________班級：_____

2025-11-22 19:02

基于aspnet的網(wǎng)絡(luò)博客的設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】基于的網(wǎng)絡(luò)博客的設(shè)計與實現(xiàn)摘要博客于2020年前后興起于美國，成為繼個人主頁，BBS之后互聯(lián)網(wǎng)公共交流的新平臺，其主要特點是：頻繁更新、簡單明了、個性化。本文分析了現(xiàn)有博客系統(tǒng)的實現(xiàn)技術(shù)，在此基礎(chǔ)上提出了本系統(tǒng)的解決方案。本文對博客系統(tǒng)進行了詳細的需求分析，建立了合理的基本表，將系統(tǒng)分為多個功能模塊來實現(xiàn)。該系統(tǒng)為用戶提供了在網(wǎng)上展現(xiàn)自

2025-11-20 11:08

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片