freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)設(shè)計-網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)(編輯修改稿)

2025-01-08 16:56 本頁面
 

【文章內(nèi)容簡介】 高效的文本表示模型,其理論基礎(chǔ)是代數(shù)學(xué)。與布爾模型不同,向量空間模型把用戶的查詢要求和數(shù)據(jù)庫文檔信息表示成由檢索項構(gòu)成的向量空間中的點(向量),而通過計算向量之間的距離來判定文檔和查詢之間的相似程度(例如,用它們之間夾角的余弦作為相似性度量)。天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 7 然后,根據(jù)相似程度排列查詢結(jié)果。在向量空間模型中,文檔被形式 化為 n 維空間中的向量,把關(guān)鍵詞的個數(shù) n 作為空間向量的維數(shù),每個關(guān)鍵詞的權(quán)值 作為每一維分量的大小,則主題用向量表示為: A=(a1,a2,? ,an),i=1,2,? ,n,ai=wi 對于頁面進(jìn)行分析,統(tǒng)計關(guān)鍵詞出現(xiàn)的頻率,并求出頻率之比,以出現(xiàn)的頻率最高的關(guān)鍵詞作為基準(zhǔn),其頻率用 xi=1 表示,通過頻率比,求出其他關(guān)鍵詞的頻率 ,則該頁面對應(yīng)向量的每一維分量為 xiwi。指定一個閾值 r,當(dāng) cosα,β =r 時就可以認(rèn)為該頁面和主題是比較相關(guān)的, r 的取值需要根據(jù)經(jīng)驗和實際要求確定,如果想獲得較多的頁面, 可以把 r設(shè)小一點,要獲得較少的頁面可以把 r 設(shè)的大一點。 (二)布爾模型與空間向量模型分析 布爾模型的主要缺陷在于每個關(guān)鍵詞的權(quán)重都是一樣的,它不支持設(shè)定關(guān)鍵詞的相對重要性,但是其優(yōu)點也較為明顯,它易于實現(xiàn),計算代價較小。 向量空間模型最大優(yōu)點在于它在知識表示方法上的巨大優(yōu)勢。在該模型中,文檔的內(nèi)容被形式化為多維空間中的一個點,以向量的形式給出。也正是因為把文檔以向量的形式定義到實數(shù)域中,才使得模式識別和其他領(lǐng)域中各種成熟的算法和計算方法得以采用,極大地提高了自然語言文檔的可計算性和可操作性。 通過對空間向量模型和布爾模型的介紹,我們知道現(xiàn)在垂直搜索引擎大多采用空間向量模型計算主題相關(guān)性。這樣極大的提高到主題爬蟲的效率,也極大的提高了垂直搜索引擎的應(yīng)用效率,給客戶帶來了高效的查詢效果。與在進(jìn)行頁面的主題相關(guān)度分析后,當(dāng)其主題相關(guān)度符合要求時將處理該頁面中的所有鏈接,但其中的鏈接指向的頁面也可能有許多偏離了主題,這一點在網(wǎng)頁的標(biāo)題上就可以看出,現(xiàn)在大多數(shù)網(wǎng)頁的標(biāo)題已經(jīng)很明顯的給出了文本的主要描述對象,所以傳統(tǒng)的空間模型策略沒有注意到網(wǎng)頁標(biāo)題這個重要的角色。針對此提出了一種基于網(wǎng)頁標(biāo)題的空間向量模型 主題相關(guān)度計算方法。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 8 第三章 網(wǎng)絡(luò)爬蟲模型的分析和概要設(shè)計 網(wǎng)絡(luò)爬蟲的模型分析 首先建立 URL 任務(wù)列表,即開始要爬取的 URL。由 URL任務(wù)列表開始,根據(jù)預(yù)先設(shè)定的深度爬取網(wǎng)頁,同時判斷 URL 是否重復(fù), 按照一定算法和排序方式搜索頁面,然后對頁面按照一定算法進(jìn)行分析,并提取相關(guān) URL,最后將所得 URL返回任務(wù)列表。之后將任務(wù)列表中 URL 重新開始爬取,從而使網(wǎng)絡(luò)爬蟲進(jìn)行循環(huán)運行。 網(wǎng)絡(luò)爬蟲的搜索策略 本文的搜索策略為廣度優(yōu)先搜索策略。如下圖 31 所示。 圖 31 廣度 優(yōu)先搜索策略示意圖 1) 定義一個狀態(tài)結(jié)點 采用廣度優(yōu)先搜索算法解答問題時,需要構(gòu)造一個表明狀態(tài)特征和不同狀態(tài)之間關(guān)系的數(shù)據(jù)結(jié)構(gòu),這種數(shù)據(jù)結(jié)構(gòu)稱為結(jié)點。不同的問題需要用不同的數(shù)據(jù)結(jié)構(gòu)描述。 2)確定結(jié)點的擴(kuò)展規(guī)則 根據(jù)問題所給定的條件,從一個結(jié)點出發(fā),可以生成一個或多個新的結(jié)點,這個天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 9 過程通常稱為擴(kuò)展。結(jié)點之間的關(guān)系一般可以表示成一棵樹,它被稱為解答樹。搜索算法的搜索過程實際上就是根據(jù)初始條件和擴(kuò)展規(guī)則構(gòu)造一棵解答樹并尋找符合目標(biāo)狀態(tài)的結(jié)點的過程。 廣度優(yōu)先搜索算法中,解答樹上結(jié)點的擴(kuò)展是沿結(jié)點深度的“斷層” 進(jìn)行,也就是說,結(jié)點的擴(kuò)展是按它們接近起始結(jié)點的程度依次進(jìn)行的。首先生成第一層結(jié)點,同時檢查目標(biāo)結(jié)點是否在所生成的結(jié)點中,如果不在,則將所有的第一層結(jié)點逐一擴(kuò)展,得到第二層結(jié)點,并檢查第二層結(jié)點是否包含目標(biāo)結(jié)點, ...對長度為 n+1 的任一結(jié)點進(jìn)行擴(kuò)展之前,必須先考慮長度為 n的結(jié)點的每種可能的狀態(tài)。因此,對于同一層結(jié)點來說,求解問題的價值是相同的,我們可以按任意順序來擴(kuò)展它們。這里采用的原則是先生成的結(jié)點先擴(kuò)展。 結(jié)點的擴(kuò)展規(guī)則也就是如何從現(xiàn)有的結(jié)點生成新結(jié)點。對不同的問題,結(jié)點的擴(kuò)展規(guī)則也不相同,需要按照問 題的要求確定。 3)搜索策略 為了便于進(jìn)行搜索,要設(shè)置一個表存儲所有的結(jié)點。因為在廣度優(yōu)先搜索算法中,要滿足先生成的結(jié)點先擴(kuò)展的原則,所以存儲結(jié)點的表一般設(shè)計成隊列的數(shù)據(jù)結(jié)構(gòu)。 搜索的步驟一般是: ( 1)從隊列頭取出一個結(jié)點,檢查它按照擴(kuò)展規(guī)則是否能夠擴(kuò)展,如果能則產(chǎn)生一個新結(jié)點。 ( 2)檢查新生成的結(jié)點,看它是否已在隊列中存在,如果新結(jié)點已經(jīng)在隊列中出現(xiàn)過,就放棄這個結(jié)點,然后回到第( 1)步。否則,如果新結(jié)點未曾在隊列中出現(xiàn)過,則將它加入到隊列尾。 ( 3)檢查新結(jié)點是否目標(biāo)結(jié)點。如果新結(jié)點是目標(biāo)結(jié)點,則搜 索成功,程序結(jié)束;若新結(jié)點不是目標(biāo)結(jié)點,則回到第( 1)步,再從隊列頭取出結(jié)點進(jìn)行擴(kuò)展 ......。 最終可能產(chǎn)生兩種結(jié)果:找到目標(biāo)結(jié)點,或擴(kuò)展完所有結(jié)點而沒有找到目標(biāo)結(jié)點。 網(wǎng)絡(luò)爬蟲的主題相關(guān)度判斷 主題爬蟲的系統(tǒng)組成最初考慮是對頁面的過濾,不像普通爬蟲對所有頁面的鏈接進(jìn)行處理,先對頁面與受限領(lǐng)域的主題相關(guān)度進(jìn)行分析,只有當(dāng)其主題相關(guān)度符合要求時才處理該頁面中的鏈接,因為如果該頁面和本領(lǐng)域比較相關(guān),它所包含的鏈接和領(lǐng)域相關(guān)的幾率也較大,這樣提高了爬行精度,雖然會遺漏少數(shù)頁面,但綜合效果是令人滿意的。 因此,主題相關(guān)度的分析是主題爬蟲設(shè)計的關(guān)鍵。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 10 主題蜘蛛將網(wǎng)頁下載到本地后,需要使用基于內(nèi)容的主題判別方法計算該網(wǎng)頁的主題相關(guān)度值,主題相關(guān)度低于某一閾值的網(wǎng)頁被丟棄。 (一) 什么是網(wǎng)頁標(biāo)題 通常瀏覽一個網(wǎng)頁時,通過瀏覽器頂端的藍(lán)色顯示條出現(xiàn)的信息就是“網(wǎng)頁標(biāo)題”。 在網(wǎng)頁 HTML 代碼中,網(wǎng)頁標(biāo)題位于標(biāo)簽之間。 網(wǎng)頁標(biāo)題是對于一個網(wǎng)頁的高度概括,一般來說,網(wǎng)站首頁的標(biāo)題就是網(wǎng)站的正式名稱,而網(wǎng)站中文章內(nèi)容頁面的標(biāo)題就是這文章的題目,欄目首頁的標(biāo)題通常是欄目名稱。當(dāng)然這種一般原則并不是固定不變的,在實 際工作中可能會有一定的變化,但是無論如何變化,總體上仍然會遵照這種規(guī)律 [12]。 例如,現(xiàn)在會看到很多網(wǎng)站的首頁標(biāo)題較長,除了網(wǎng)站名稱之外,還有網(wǎng)站相關(guān)業(yè)務(wù)之類的關(guān)鍵詞,這主要是為了在搜索引擎搜索結(jié)果中獲得排名優(yōu)勢而考慮的,也屬于正常的搜索引擎優(yōu)化方法。因為一般的公司名稱(或者品牌名稱)中可能不包含核心業(yè)務(wù)的關(guān)鍵詞,在搜索結(jié)果排名中將處于不利地位。 (二)網(wǎng)頁標(biāo)題的重要性 以 Google 為例, Google 會對其標(biāo)題標(biāo)簽( meta title)中出現(xiàn)的關(guān)鍵字給予較高的權(quán)值。所以應(yīng)當(dāng)確保在網(wǎng)站的標(biāo)題 標(biāo)簽中包含了最重要的關(guān)鍵詞,即應(yīng)圍繞最重要的關(guān)鍵詞來決定網(wǎng)頁標(biāo)題的內(nèi)容。不過網(wǎng)頁的標(biāo)題不可過長,一般最好在 35 到 40 個字符之間。在實際操作中,網(wǎng)頁標(biāo)題不宜過短或過長。太短無法完整的表達(dá)網(wǎng)頁信息,太長不僅不利于用戶識別,而且對搜索引擎來說也加大了識別核心關(guān)鍵詞的難度;網(wǎng)頁標(biāo)題應(yīng)概括網(wǎng)頁的核心內(nèi)容。搜索引擎在進(jìn)行搜索的時候,搜索結(jié)果的內(nèi)容一般是網(wǎng)頁標(biāo)題、網(wǎng)頁摘要信息和鏈接,要引起用戶的關(guān)注,高度總結(jié)了網(wǎng)頁內(nèi)容的標(biāo)題至關(guān)重要。比如戴爾中國的網(wǎng)站 首頁標(biāo)題為“戴爾中國( Dell China) — 計算機(jī),筆記本電腦,臺式機(jī),打印機(jī),工作站,服務(wù)器,存儲器,電子產(chǎn)品及附件等”。戴爾的首頁標(biāo)題中不但涵蓋了最重要的公司信息,而且還包括公司的主要產(chǎn)品,這就是核心關(guān)鍵詞,當(dāng)用“筆記本電腦”、“臺式電腦”這些關(guān)鍵詞在谷歌中進(jìn)行搜索時,戴爾公司的網(wǎng)頁都排在第一屏的前幾條位置。 (二) 但是與此同時需要注意的還有網(wǎng)頁正文的重要性,因為網(wǎng)頁的標(biāo)題和關(guān)鍵字很可能與正文無關(guān),虛假關(guān)鍵詞是通過在 META 中設(shè)置與 網(wǎng)站內(nèi)容 無關(guān)的關(guān)鍵詞,如在 Title 中設(shè)置熱門關(guān)鍵詞,以達(dá)到誤導(dǎo)用戶進(jìn)入網(wǎng)站的目的。同樣的情況也包括鏈接關(guān)鍵詞與實際內(nèi)容不符的情況。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 11 具體判斷主題相關(guān)度的步驟 ,并通過詞頻計算來得到與主題向量維數(shù)相等的標(biāo)題向量和正文向量。 B。 C。 : A=4 B+C。 ,設(shè)定相關(guān)度閾值為 2,網(wǎng)頁與主題的相關(guān)度 A2,則認(rèn)為該網(wǎng)頁與主題相關(guān)的。 網(wǎng)絡(luò)爬蟲的概要設(shè)計 本網(wǎng)絡(luò)爬蟲的開發(fā)目的,通過網(wǎng)絡(luò)爬蟲技術(shù)一個自動提取網(wǎng)頁的程序,實現(xiàn)搜索引擎從自己想要訪問的網(wǎng)上下載網(wǎng)頁,再根據(jù)已下載的網(wǎng)頁上繼續(xù)訪問其它的網(wǎng)頁,并將其下載直到滿足用戶的需求。 根據(jù)現(xiàn)實中不同用戶的實際上的各種需求,本項目簡單實現(xiàn)主題爬蟲,本網(wǎng)絡(luò)爬蟲需要達(dá)到如下幾個目標(biāo): ,客戶端向服務(wù)器發(fā)送自己設(shè)定好請求。如圖37 所示。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 12 圖 32 多線程網(wǎng)絡(luò)爬蟲概要設(shè)計圖模型 將 Web 服 務(wù) 器上 協(xié)議 站點的網(wǎng) 頁 代 碼 提取出來。 。 ,訪問該鏈接網(wǎng)頁上的所有鏈接,訪問完成后,再通過遞歸算法實現(xiàn)下一層的訪問。 本網(wǎng)絡(luò)爬蟲最終將設(shè)計成一個能夠自動讀寫配置文件并且在后臺自動執(zhí)行的網(wǎng)絡(luò)爬蟲程序。 網(wǎng)絡(luò)爬蟲工作流程圖如圖 33所示。 URL配置文件 URL配置文 件列表 臨 界 區(qū) 互聯(lián)網(wǎng) 線程 1 搜索元URL 如 線程 2 搜索元URL 如 線程 N 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 13 圖 33 網(wǎng)絡(luò)爬蟲工作流程圖 開始從配置文件中讀取初始URL 作為源 URL獲取網(wǎng)頁以正則表達(dá)式過濾網(wǎng)頁標(biāo)簽提取目標(biāo) URL滿足條件停止結(jié)束根據(jù)寬度有限算法搜索目標(biāo)URL 網(wǎng)絡(luò)蜘蛛循環(huán)爬行天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 14 第四章 網(wǎng)絡(luò)爬蟲模型的 設(shè)計和實現(xiàn) 網(wǎng)絡(luò)爬蟲總體設(shè)計 根據(jù)本網(wǎng)絡(luò)爬蟲的概要設(shè)計本網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,根據(jù)設(shè)定的主題判斷是否與主題相關(guān),再根據(jù)已下載的網(wǎng)頁上繼續(xù)訪問其它的網(wǎng)頁,并將其下載直到滿足用戶的需求。 。 將待爬取 URL 列表對應(yīng)的 URL 的網(wǎng)頁代碼提取出來。 。 ,從網(wǎng)頁中某個鏈接出發(fā),訪問該鏈接網(wǎng)頁上的所有鏈接,訪問完成后,再通過遞歸算法實現(xiàn)下一層的訪問,重復(fù)以上步驟。 總的 來說爬蟲程序根據(jù)輸入獲得 URL 任務(wù)列表,即初始 URL種子,把初始種子保存在臨界區(qū)中,按照廣度搜索運算法搜索抓取網(wǎng)頁并提取 URL 返回到臨屆區(qū)中,通過判斷主題相關(guān)度算法判斷相關(guān)度,取出不相關(guān)網(wǎng)頁,從而使整個爬蟲程序循環(huán)運行下去。 網(wǎng)絡(luò)爬蟲具體設(shè)計 爬取網(wǎng)頁 主要用到的技術(shù)如下: 繼承 HTMLEditorKit 類,改寫其中的 getParser()屬性protect 為 public,用下列函數(shù)爬取網(wǎng)頁: public class XXXXX extends HTMLEditorKit { public getParser() { return ()。 } } 步驟如下: 1首先建立 URL 連接。 URLConnection url_C = ()。 2設(shè)置連接超時時間和讀取超時時間。 (10000)。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 15 (10000)。 , BufferedReader 讀取,并且將網(wǎng)頁內(nèi)容存儲為字符串。 分析網(wǎng)頁 繼承 ParserCallback 獲得網(wǎng)頁內(nèi)容 // 得到標(biāo)題文本 protected String urlTitle = new String()。 // 得到某一網(wǎng)頁上的所有鏈接 protected VectorString links = new VectorString()。 protected VectorString linkname = new VectorString()。 // 得到網(wǎng)頁上的正文文本 protected String paragraphText = new String()。 protected String linkandparagraph = new String()。 protected String encode = new String()。 public Parser(String baseurl) { base = baseurl。 }
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1