freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)論文-免費(fèi)閱讀

  

【正文】 crawling processes fetch pages。 在這次畢業(yè)設(shè)計(jì)中也使我們的同學(xué)關(guān)系更進(jìn)一步了,同學(xué)之間互相幫助,有什么不懂的大家在一起商量,聽聽不同的看法對(duì)我們更好的理解知識(shí),所以在這里非常感謝幫助我的同學(xué)。 深入了解并掌握數(shù)據(jù)庫(kù)基礎(chǔ)知識(shí),挖掘出數(shù)據(jù)庫(kù)課程中的難點(diǎn)和重點(diǎn),對(duì)于其中的難點(diǎn),要充分考慮學(xué)生的學(xué)習(xí)能力,幫助學(xué)生以一種最容易接受的方式掌握知識(shí)。我在學(xué)校圖書館,大工圖書館搜集資料,還在網(wǎng)上查找各類相關(guān)資料,將這些寶貴的資料全部記在筆記本上,盡量使我的資料完整、精確、數(shù)量多,這有利于論文的撰寫。 20 第五章 測(cè)試 設(shè)定只爬取前 5 個(gè)網(wǎng)頁(yè),程序運(yùn)行后的界面如圖 51 圖 51 測(cè)試圖 1 預(yù)設(shè)目錄為, D: test 按下 START 后,查看目錄,可見如圖 52: 21 圖 52 測(cè)試圖 2 查看數(shù)據(jù)庫(kù)可見,如圖 53: 圖 53 測(cè)試圖 3 測(cè)試 Ping 功能,分別對(duì)正確網(wǎng)址 ping 和不正確網(wǎng)址 ping,如圖 54 22 圖 54 測(cè)試圖 4 圖 55 測(cè)試圖 5 23 圖 56 測(cè)試圖 6 24 第六章 總結(jié)和展望 2021 年 3 月,我開始了我的畢業(yè)論文工作,時(shí)至今日,論文基本完成。 第 i 個(gè)線程對(duì)所有 URL 列表中序列為第 0+4i URL 的進(jìn)行同步操作,其中對(duì)儲(chǔ)存所有 URL 的列表執(zhí)行 synchronized (all_URL)操作。 private String Url。 保存網(wǎng)頁(yè)信息 URL 連接。 } // 獲得該網(wǎng)頁(yè)的所有鏈接 public Vector getLinks() { return links。 // 得到某一網(wǎng)頁(yè)上的所有鏈接 protected VectorString links = new VectorString()。 網(wǎng)絡(luò)爬蟲具體設(shè)計(jì) 爬取網(wǎng)頁(yè) 主要用到的技術(shù)如下: 繼承 HTMLEditorKit 類,改寫其中的 getParser()屬性protect 為 public,用下列函數(shù)爬取網(wǎng)頁(yè): public class XXXXX extends HTMLEditorKit { public getParser() { return ()。 本網(wǎng)絡(luò)爬蟲最終將設(shè)計(jì)成一個(gè)能夠自動(dòng)讀寫配置文件并且在后臺(tái)自動(dòng)執(zhí)行的網(wǎng)絡(luò)爬蟲程序。 : A=4 B+C。搜索引擎在進(jìn)行搜索的時(shí)候,搜索結(jié)果的內(nèi)容一般是網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)摘要信息和鏈接,要引起用戶的關(guān)注,高度總結(jié)了網(wǎng)頁(yè)內(nèi)容的標(biāo)題至關(guān)重要。當(dāng)然這種一般原則并不是固定不變的,在實(shí)際工作中可能會(huì)有一定的變化,但是無(wú)論如何變化,總體上仍然會(huì)遵照這種規(guī)律 [12]。如果新結(jié)點(diǎn)是目標(biāo)結(jié)點(diǎn),則搜索成功,程序結(jié)束;若新結(jié)點(diǎn)不是目標(biāo)結(jié)點(diǎn),則回到第( 1)步,再?gòu)年?duì)列頭取出結(jié)點(diǎn)進(jìn)行擴(kuò)展 ......。 結(jié)點(diǎn)的擴(kuò)展規(guī)則也就是如何從現(xiàn)有的結(jié)點(diǎn)生成新結(jié)點(diǎn)。不同的問題需要用不同的數(shù)據(jù)結(jié)構(gòu)描述。與在進(jìn)行頁(yè)面的主題相關(guān)度分析后,當(dāng)其主題相關(guān)度符合要求時(shí)將處理該頁(yè)面中的所有鏈接,但其中的鏈接指向的頁(yè)面也可能有許多偏離了主題,這一點(diǎn)在網(wǎng)頁(yè)的標(biāo)題上就可以看出,現(xiàn)在大多數(shù)網(wǎng)頁(yè)的標(biāo)題已經(jīng)很明顯的給出了文本的主要描述對(duì)象,所以傳統(tǒng)的空間模型策略沒有注意到網(wǎng)頁(yè)標(biāo)題這個(gè)重要的角色。在向量空間模型中,文檔被形式化為 n 維空間中的向量,把關(guān)鍵詞的個(gè)數(shù) n 作為空間向量的維數(shù),每個(gè)關(guān)鍵詞的權(quán)值 作為每一維分量的大小,則主題用向量表示為: A=(a1,a2,? ,an),i=1,2,? ,n,ai=wi 對(duì)于頁(yè)面進(jìn)行分析,統(tǒng)計(jì)關(guān)鍵詞出現(xiàn)的頻率,并求出頻率之比,以出現(xiàn)的頻率最高的關(guān)鍵詞作為基準(zhǔn),其頻率用 xi=1 表示,通過(guò)頻率比,求出其他關(guān)鍵詞的頻率 ,則該頁(yè)面對(duì)應(yīng)向量的每一維分量為 xiwi。在布爾模型 [9]中,一個(gè)文檔通過(guò)一個(gè)關(guān)鍵詞集合來(lái)表示。研究表明,這樣的閉環(huán)調(diào)整可以將無(wú)關(guān)網(wǎng)頁(yè)數(shù)量降低 30%~90%。其基本思想是認(rèn)為與初始 URL 在一定鏈接距離內(nèi)的網(wǎng)頁(yè)具有主題相關(guān)性的概率很大。 定義 4:如果超鏈接 l指向網(wǎng)頁(yè) t,則網(wǎng)頁(yè) t稱為子網(wǎng)頁(yè),又稱為目標(biāo)網(wǎng)頁(yè)。 另外,在 AJAX 的應(yīng)用中, JavaScript 會(huì)對(duì) DOM 結(jié)構(gòu)進(jìn)行大量變動(dòng),甚至頁(yè)面所有內(nèi)容都通過(guò) JavaScript 直接從服務(wù)器端讀取并動(dòng)態(tài)繪制出來(lái)。然而,傳統(tǒng)搜索引擎并不能支持定制搜索和信息處理、挖掘,只能以 形式存在。其次,不能聯(lián)想到關(guān)鍵字的同義詞。 網(wǎng)絡(luò)爬蟲的分類 網(wǎng)絡(luò)爬蟲種類繁多,如果按照部署在哪里分,可以分成: 1,服務(wù)器側(cè): 一般是一個(gè)多線程程序,同時(shí)下載多個(gè)目標(biāo) HTML,可以用 PHP, 3 Java, Python 等做,一般綜合搜索引擎的爬蟲這樣做。同年 4月,斯坦福( Stanford)大學(xué)的兩名博士生, David Filo 和美籍華人楊致遠(yuǎn)( Gerry Yang)共同創(chuàng)辦了超級(jí)目錄索引 Yahoo,并成功地使搜索引擎的概念深入人心。與Wanderer 相對(duì)應(yīng), Martin Koster 于 1993年 10月創(chuàng)建了 ALIWEB,它是 Archie 的HTTP 版本。 現(xiàn)代意義上的搜索引擎的祖先,是 1990年由蒙特利爾大學(xué)學(xué)生 Alan Emtage發(fā)明的 Archie。 subjectoriented。 八. 實(shí)驗(yàn)條件 Windows 操作系統(tǒng) ;互聯(lián)網(wǎng) 九. 主要參考文獻(xiàn) [1]Winter.中文搜索引擎技術(shù)解密:網(wǎng)絡(luò)蜘蛛 [M].北京:人民郵電出版社,2021 年. [2]Sergey 等. The Anatomy of a LargeScale Hypertextual Web Search Engine [M].北京:清華大學(xué)出版社, 1998 年. [3]Wisenut. WiseNut Search Engine white paper [M].北京:中國(guó)電力出版社, 2021 年. [4]Gary Stevens. TCPIP協(xié)議詳解卷 3: TCP事務(wù)協(xié)議,HTTP, NNTP 和 UNIX 域協(xié)議 [M].北京:機(jī)械工業(yè)出版社, 2021 年 1 月 . [5]羅剛 王振東 . 自己動(dòng)手寫網(wǎng)絡(luò)爬蟲 [M].北京:清華大學(xué)出版社, 2021 年 10月 . [6]李曉明 , 閆宏飛 , 王繼民 . 搜索引擎:原理、技術(shù)與系統(tǒng) —— 華夏英才基金學(xué)術(shù)文庫(kù) [M].北京: 科學(xué)出版社 , 2021 年 04 月 . 選題是否合適: 是□ 否□ 課題能否實(shí)現(xiàn): 能□ 不能□ 指導(dǎo)教師(簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實(shí)現(xiàn): 能□ 不能□ 審題小組組長(zhǎng)(簽字) 年 月 日 摘 要 本課題的主要目的是設(shè)計(jì)面向主題的網(wǎng)絡(luò)爬蟲程序,同時(shí)需要滿足的是具有一定的性能,考慮到網(wǎng)絡(luò)爬蟲的各種需求。網(wǎng)絡(luò)爬蟲使用多線程技術(shù),讓爬蟲具備更強(qiáng)大的抓取能力。 。但是,這些通用性搜索引擎也存在著一定的 局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。 四.研究?jī)?nèi)容 本課題研究的內(nèi)容是如何使網(wǎng)絡(luò)爬蟲靈活高效。網(wǎng)絡(luò)爬蟲還要完成信息提取任務(wù),對(duì)于抓取回來(lái)的網(wǎng)頁(yè)提取出來(lái)新聞等信息。 網(wǎng)絡(luò)爬蟲應(yīng)用寬度搜索技術(shù)。 multithreading 目 錄 第一章 概述 .................................. 1 課題背景 ...................................... 1 網(wǎng)絡(luò)爬蟲的歷史和分類 .......................... 1 網(wǎng)絡(luò)爬蟲的歷史 .............................. 1 網(wǎng)絡(luò)爬蟲的分類 .............................. 2 網(wǎng)絡(luò)爬蟲的發(fā)展趨勢(shì) ............................ 3 第二章 相關(guān)技術(shù)背景 ........................... 5 網(wǎng)絡(luò)爬蟲的定義 ................................ 5 網(wǎng)頁(yè)搜索策略介紹 .............................. 5 廣度優(yōu)先搜索策略 ............................ 5 最佳優(yōu)先搜索策略 ............................ 6 判斷相關(guān)度算法 ................................ 6 第三章 網(wǎng)絡(luò)爬蟲模型的分析和概要設(shè)計(jì) ............ 8 網(wǎng)絡(luò)爬蟲的模型分析 ............................ 8 網(wǎng)絡(luò)爬蟲的搜索策略 ............................ 8 網(wǎng)絡(luò)爬蟲的主題相關(guān)度判斷 ...................... 9 網(wǎng)絡(luò)爬蟲的概要設(shè)計(jì) ........................... 11 第四章 網(wǎng)絡(luò)爬蟲模型的設(shè)計(jì)和實(shí)現(xiàn) ............... 14 網(wǎng)絡(luò)爬蟲總體設(shè)計(jì) ............................. 14 網(wǎng)絡(luò)爬蟲具體設(shè)計(jì) ............................. 14 爬取網(wǎng)頁(yè) ................................... 14 分析網(wǎng)頁(yè) ................................... 15 判斷相關(guān)度 ................................. 16 保存網(wǎng)頁(yè)信息 ............................... 17 數(shù)據(jù)庫(kù)設(shè)計(jì)和存儲(chǔ) ........................... 17 多線程的實(shí)現(xiàn) ............................... 17 附加功能 ................................... 18 整體流程 ................................... 18 第五章 測(cè)試 .................................. 20 第六章 總結(jié)和展望 ............................ 24 1 第一章 概述 課題背景 網(wǎng)絡(luò)爬蟲,是一種按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者 腳本 。雖然當(dāng)時(shí) World Wide Web 還未出現(xiàn),但網(wǎng)絡(luò)中文件傳輸還是相當(dāng)頻繁的,而且由于大量的文件散布在各個(gè)分散的 FTP 主機(jī)中,查詢起來(lái)非常不便,因此 Alan Archie 工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。 ALIWEB 不使用“機(jī)器人”程序,而是靠網(wǎng)站主動(dòng)提交信息來(lái)建立 自己的鏈接索引,類似于現(xiàn)在我們熟知的 Yahoo。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。但是,如果對(duì)方討厭爬蟲,很可能封掉服務(wù)器的 IP,服務(wù)器 IP又不容易改,另外耗用的帶寬也是較貴。 Web 商業(yè)化至今,搜索引擎始終保持著網(wǎng)絡(luò)上被使用最多的服務(wù)項(xiàng)目的地位,然而,隨著網(wǎng)上內(nèi)容的爆炸式增長(zhǎng)和內(nèi)容形式花樣的不斷翻新,搜索引擎越來(lái)越不能滿足挑剔的網(wǎng)民們的各種信息需求。 可以預(yù)見將來(lái)互聯(lián)網(wǎng)信息抓取、挖掘和再處理,將成為人們?cè)絹?lái)越多的需求,而滿足這種需求的,就是各種各樣的爬蟲與相關(guān)的信息處理工具。這對(duì)習(xí)慣了 DOM 結(jié)構(gòu)相對(duì)不變的靜態(tài)頁(yè)面簡(jiǎn)直是無(wú)法理解的。 主題網(wǎng)絡(luò)爬蟲的基本思路就是按照事先給出的主題,分超鏈接和已經(jīng)下載的網(wǎng)頁(yè)內(nèi)容,預(yù)測(cè)下一個(gè)待抓取的 URL及當(dāng)前網(wǎng)頁(yè)的主題相關(guān)度,保證盡可能多地爬行、下載與主相關(guān)的網(wǎng)頁(yè),盡可能少地下載無(wú)關(guān)網(wǎng)頁(yè)。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁(yè)過(guò)濾技術(shù)結(jié)合使用,先用 廣度優(yōu)先策略 抓取網(wǎng)頁(yè),再將其中無(wú)關(guān)的網(wǎng)頁(yè)過(guò)濾掉。 判斷相關(guān)度算法 主題爬蟲的系統(tǒng)組成最初考慮是對(duì)頁(yè)面的過(guò)濾,不像普通爬蟲對(duì)所有頁(yè)面的鏈接進(jìn)行處理,先對(duì)頁(yè)面與受限領(lǐng)域的主題相 關(guān)度進(jìn)行分析,只有當(dāng)其主題相關(guān)度符合要求時(shí)才處理該頁(yè)面中的鏈接,因?yàn)槿绻擁?yè)面和本領(lǐng)域比較相關(guān),它所包含的鏈接和領(lǐng)域相關(guān)的幾率也較大,這樣提高了爬行精度,雖然會(huì)遺漏少數(shù)頁(yè)面,但綜合效果是令人滿意的。同時(shí),某個(gè)主題也以關(guān)鍵詞集合的形式來(lái)表示。指定一個(gè)閾值 r,當(dāng) cosα,β =r 時(shí)就可以認(rèn)為該頁(yè)面和主題是比較相關(guān)的, r 的取值需要根據(jù)經(jīng)驗(yàn)和實(shí)際要求確定,如果想獲得較多的
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1