freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)---網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁(yè)

2024-12-03 16:36本頁(yè)面

【導(dǎo)讀】境、工作目的等。有著巨大的應(yīng)用前景。搜索引擎作為一個(gè)輔助人們檢索信息的工具成為用戶訪問(wèn)。萬(wàn)維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。能夠?yàn)榫W(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)更深入的主題相關(guān)性,提供滿足特定搜索需求的網(wǎng)絡(luò)爬蟲(chóng)。[1]Winter.中文搜索引擎技術(shù)解密:網(wǎng)絡(luò)蜘蛛[M].北京:人民郵電出版社,[4]GaryStevens.TCP-IP協(xié)議詳解卷3:TCP事務(wù)協(xié)議,HTTP,NNTP和UNIX域協(xié)議[M].北京:機(jī)械工業(yè)出版社,2021年1月.學(xué)術(shù)文庫(kù)[M].北京:科學(xué)出版社,2021年04月.與技術(shù)參數(shù),并根據(jù)課題性質(zhì)對(duì)學(xué)生提出具體要求。對(duì)url進(jìn)行分析,去重。網(wǎng)絡(luò)爬蟲(chóng)使用多線程。技術(shù),讓爬蟲(chóng)具備更強(qiáng)大的抓取能力。研究網(wǎng)絡(luò)爬蟲(chóng)的原理并實(shí)現(xiàn)爬蟲(chóng)的相關(guān)功能。搜索,并最終得到需要的數(shù)據(jù)。件以及主要參考文獻(xiàn)等。熟,網(wǎng)絡(luò)爬蟲(chóng)是搜索引擎的重要組成部分?!到y(tǒng)設(shè)計(jì)結(jié)束并再次檢查系統(tǒng)的可靠性。對(duì)網(wǎng)絡(luò)爬蟲(chóng)的連接網(wǎng)絡(luò)設(shè)置連接及讀取時(shí)。間,避免無(wú)限制的等待。

  

【正文】 pos) 之后通過(guò)調(diào)用 類(lèi),生成對(duì)象就可以直接得到分析后的網(wǎng)頁(yè)文件。 判斷相關(guān)度 算法實(shí)現(xiàn)步驟和算法描述: 題集合匹配,并通過(guò)詞頻計(jì)算來(lái)得到與主題向量維數(shù)相等的標(biāo)題向量和正文向量。 B。 C。 : A=4 B+C。 ,設(shè)定相關(guān)度閾值為 2,網(wǎng)頁(yè)與主題的相關(guān)度 A2,則認(rèn)為該網(wǎng)頁(yè)與主題相關(guān)的。 輸入:主題集合文本 ,網(wǎng)頁(yè) url 輸出:主題相關(guān)度 ( 1) Get topic( String path) //根據(jù)路徑獲取主題文本集合 ( 2) Compulate topicweight( String topic) //求主題結(jié)合權(quán)重 ( 3) sortAndDelRepeat(int[]count)//刪除重復(fù)元素并排序 ( 4) delRepeat(String[] segment)//刪除分詞后的重復(fù)元素 ( 5) delRepeat(Vector url)//刪除得到的 URL 中的重復(fù)元素 ( 6) getParser(String url)//獲得 Parser 實(shí)例 ( 7) String titleStr =() //獲取網(wǎng)頁(yè)標(biāo)題 ( 8) String bodyStr=() //獲取網(wǎng)頁(yè)文本 ( 9) String titleStrSeg=( titleStr) //網(wǎng)頁(yè)標(biāo)題分詞 ( 10) String bodyStrSeg=( bodyStr) //網(wǎng)頁(yè)文本分詞 ( 11) Compulate , 17 文本向量長(zhǎng)度 ( 12) set topicweight1, titleweight1, bodyweight1; //設(shè)置權(quán)重 ( 13) Last pulate Relative//計(jì)算主題相關(guān)性 ( 14) Return relative; //返回結(jié)果 根據(jù)系統(tǒng)設(shè)置首先是下載所有網(wǎng)頁(yè),而后判定主題相關(guān)性,與主題相關(guān)則放置在相關(guān) URL 庫(kù)中,不相關(guān)的網(wǎng)頁(yè)則丟棄。 保存網(wǎng)頁(yè)信息 URL 連接。 URLConnection url_C = ()。 PagePro類(lèi)。如下: private String Host。 private int Port。 private String ContentType。 private int ContentLength。 private String Date。 private String Url。 PagePro 類(lèi)中。 。 數(shù)據(jù)庫(kù)設(shè)計(jì)和存儲(chǔ) 使用 JDBC 訪問(wèn)數(shù)據(jù)庫(kù),儲(chǔ)存下載的網(wǎng)頁(yè) URL 和下載時(shí)間信息。 多線程的實(shí)現(xiàn) 設(shè)計(jì)為 4個(gè)線程同時(shí)進(jìn)行工作。 1. 從用戶輸入的起始 URL 開(kāi)始,遞歸獲得指定深度的 URL。 2. 對(duì)每個(gè) URL 進(jìn)行分析,判斷相關(guān)度。 3. 下載與主題相關(guān)的網(wǎng)頁(yè),并存儲(chǔ)在數(shù)據(jù)庫(kù)中。 第 i 個(gè)線程對(duì)所有 URL 列表中序列為第 0+4i URL 的進(jìn)行同步操作,其中對(duì)儲(chǔ)存所有 URL 的列表執(zhí)行 synchronized (all_URL)操作。 18 附加功能 為了檢測(cè)網(wǎng)絡(luò)環(huán)境,防止因?yàn)椴涣嫉木W(wǎng)絡(luò)環(huán)境影響網(wǎng)絡(luò)爬蟲(chóng)的爬取效率和正確略,額外添加了實(shí)時(shí)的 ping 功能,調(diào)用 windows 的命令解釋器的 ping 功能,測(cè)試用戶輸入網(wǎng)址與當(dāng)前主機(jī)的連接狀況,測(cè)試當(dāng)前網(wǎng)絡(luò)狀況是否良好。 整體流程 爬蟲(chóng)代碼文件構(gòu)成如圖 41: 圖 41 代碼結(jié)構(gòu)構(gòu)成截圖 這個(gè)類(lèi)是改寫(xiě) getParser()方法為public 是根據(jù)輸入 URL獲取網(wǎng)頁(yè)文檔 是 繼承 ParserCallback 獲得網(wǎng)頁(yè)內(nèi)容 是判斷主題與網(wǎng)頁(yè)內(nèi)容的相關(guān)性 是對(duì)網(wǎng)頁(yè)主題和正文進(jìn)行分詞 19 是下載網(wǎng)頁(yè)所用, 是為 生成存儲(chǔ)對(duì)象。 對(duì)數(shù)據(jù)庫(kù)進(jìn)行操作 整合了網(wǎng)絡(luò)爬蟲(chóng)的功能 是界面 是調(diào)用 Ping 程序的類(lèi) 具體流程: 第一步: 調(diào)用 , ,獲得起始 URL 的內(nèi)容,并存儲(chǔ)到 String 中。 第二步:調(diào)用 獲得網(wǎng)頁(yè)下面所有的 URL,同時(shí)去除重復(fù)的部分。 第三步:對(duì)以上兩步進(jìn)行遞歸循環(huán),獲得指定深度的所有 URL 列表。 第四步:調(diào)用 , 得到每個(gè) URL對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容與給定主題的閾值,大于給定值則相關(guān),小于給定值則不相關(guān),丟棄該 URL。 第五步:調(diào)用 和 將與主題相關(guān)的網(wǎng)頁(yè)下載并存儲(chǔ)入數(shù)據(jù)庫(kù)。 20 第五章 測(cè)試 設(shè)定只爬取前 5 個(gè)網(wǎng)頁(yè),程序運(yùn)行后的界面如圖 51 圖 51 測(cè)試圖 1 預(yù)設(shè)目錄為, D: test 按下 START 后,查看目錄,可見(jiàn)如圖 52: 21 圖 52 測(cè)試圖 2 查看數(shù)據(jù)庫(kù)可見(jiàn),如圖 53: 圖 53 測(cè)試圖 3 測(cè)試 Ping 功能,分別對(duì)正確網(wǎng)址 ping 和不正確網(wǎng)址 ping,如圖 54 22 圖 54 測(cè)試圖 4 圖 55 測(cè)試圖 5 23 圖 56 測(cè)試圖 6 24 第六章 總結(jié)和展望 2021 年 3 月,我開(kāi)始了我的畢業(yè)論文工作,時(shí)至今日,論文基本完成。從最初的茫然,到慢慢的進(jìn)入狀態(tài),再到對(duì)思路逐漸的清晰,整個(gè)寫(xiě)作過(guò)程難以用語(yǔ)言 來(lái)表達(dá)。歷經(jīng)了幾個(gè)月的奮戰(zhàn),緊張而又充實(shí)的畢業(yè)設(shè)計(jì)終于落下了帷幕。回想這段日子的經(jīng)歷和感受,我感慨萬(wàn)千,在這次畢業(yè)設(shè)計(jì)的過(guò)程中,我擁有了無(wú)數(shù)難忘的回憶和收獲。 3月初,在與導(dǎo)師的交流討論中我的題目定了下來(lái),是面向主題的網(wǎng)絡(luò)爬蟲(chóng)。當(dāng)選題報(bào)告,開(kāi)題報(bào) 告定下來(lái)的時(shí)候,我當(dāng)時(shí)便立刻著手資料的收集工作中,當(dāng)時(shí)面對(duì)浩瀚的書(shū)海真是有些茫然,不知如何下手。我將這一困難告訴了導(dǎo)師,在導(dǎo)師細(xì)心的指導(dǎo)下,終于使我對(duì)自己現(xiàn)在的工作方向和方法有了掌握。 在搜集資料的過(guò)程中,我認(rèn)真準(zhǔn)備了一個(gè)筆記本。我在學(xué)校圖書(shū)館,大工圖書(shū)館搜集資料,還在網(wǎng)上查找各類(lèi)相關(guān)資料,將這些寶貴的資料全部記在筆記本上,盡量使我的資料完整、精確、數(shù)量多,這有利于論文的撰寫(xiě)。然后我將收集到的資料仔細(xì)整理分類(lèi),及時(shí)拿給導(dǎo)師進(jìn)行溝通。 4月初,資料已經(jīng)查找完畢了,我開(kāi)始著手論文的寫(xiě)作。在寫(xiě)作過(guò)程中 遇到困難我就及時(shí)和導(dǎo)師聯(lián)系,并和同學(xué)互相交流,請(qǐng)教專(zhuān)業(yè)課老師。在大家的幫助下,困難一個(gè)一個(gè)解決掉,論文也慢慢成型。 4 月底,平臺(tái)設(shè)計(jì)已經(jīng)完成。 5 月開(kāi)始相關(guān)代碼編寫(xiě)工作。為了完成滿意的平臺(tái)設(shè)計(jì),我仔細(xì)溫習(xí)了數(shù)據(jù)庫(kù)原理相關(guān)知識(shí)。 深入了解并掌握數(shù)據(jù)庫(kù)基礎(chǔ)知識(shí),挖掘出數(shù)據(jù)庫(kù)課程中的難點(diǎn)和重點(diǎn),對(duì)于其中的難點(diǎn),要充分考慮學(xué)生的學(xué)習(xí)能力,幫助學(xué)生以一種最容易接受的方式掌握知識(shí)。對(duì)于課程中的重點(diǎn),要強(qiáng)調(diào)突出,有規(guī)律反復(fù)出現(xiàn),幫助學(xué)生更高效消化知識(shí)。在設(shè)計(jì)平臺(tái)中,要注意平臺(tái)的可行性和有效性,選擇既重要又適合以學(xué)習(xí)軟件 形式出現(xiàn)的知識(shí)點(diǎn)作為材料,參考優(yōu)秀的國(guó)內(nèi)外學(xué)習(xí)輔助平臺(tái),又考慮到數(shù)據(jù)庫(kù)課程的特殊性。 在設(shè)計(jì)初期,由于沒(méi)有設(shè)計(jì)經(jīng)驗(yàn),覺(jué)得無(wú)從下手,空有很多設(shè)計(jì)思想,卻不知道應(yīng)該選哪個(gè),經(jīng)過(guò)導(dǎo)師的指導(dǎo),我的設(shè)計(jì)漸漸有了頭緒,通過(guò)查閱資料,逐漸確立系統(tǒng)方案。在整個(gè)過(guò)程中,我學(xué)到了新知識(shí),增長(zhǎng)了見(jiàn)識(shí)。在今后的日子里,我仍然要不斷地充實(shí)自 己,爭(zhēng)取在所學(xué)領(lǐng)域有所作為。 腳踏實(shí)地,認(rèn)真嚴(yán)謹(jǐn),實(shí)事求是的學(xué)習(xí)態(tài)度,不怕困難、堅(jiān)持不懈、吃苦耐勞的精神是我在這次設(shè)計(jì)中最大的收益。我想這是一次意志的磨練,是對(duì)我實(shí)際能力的一次提升,也會(huì)對(duì)我 未來(lái)的學(xué)習(xí)和工作有很大的幫助。 在這次畢業(yè)設(shè)計(jì)中也使我們的同學(xué)關(guān)系更進(jìn)一步了,同學(xué)之間互相幫助,有什么不懂的大家在一起商量,聽(tīng)聽(tīng)不同的看法對(duì)我們更好的理解知識(shí),所以在這里非常感謝幫助我的同學(xué)。 25 在此更要感謝我的導(dǎo)師和專(zhuān)業(yè)老師,是你們的細(xì)心指導(dǎo)和關(guān)懷,使我能夠順利的完成畢業(yè)論文。在我的學(xué)業(yè)和論文的研究工作中無(wú)不傾注著老師們辛勤的汗水和心 血。老師的嚴(yán)謹(jǐn)治學(xué)態(tài)度、淵博的知識(shí)、無(wú)私的奉獻(xiàn)精神使我深受啟迪。從尊敬的導(dǎo)師身上,我不僅學(xué)到了扎實(shí)、寬廣的專(zhuān)業(yè)知識(shí),也學(xué)到了做人的道理。在此我要 向我的導(dǎo)師 致以最衷心的感謝和深深的敬意。 26 參考文獻(xiàn) [1]Winter.中文搜索引擎技術(shù)解密:網(wǎng)絡(luò)蜘蛛 [M].北京:人民郵電出版社,2021 年. [2]Sergey 等. The Anatomy of a LargeScale Hypertextual Web Search Engine [M].北京:清華大學(xué)出版社, 1998 年. [3]Wisenut. WiseNut Search Engine white paper [M].北京:中國(guó)電力出版社, 2021 年. [4]Gary Stevens. TCPIP協(xié)議詳解卷 3: TCP事務(wù)協(xié)議,HTTP, NNTP 和 UNIX 域協(xié)議 [M].北京:機(jī)械工業(yè)出版社, 2021 年 1 月 . [5]羅剛 王振東 . 自己動(dòng)手寫(xiě)網(wǎng)絡(luò)爬蟲(chóng) [M].北京:清華大學(xué)出版社, 2021 年 10月 . [6]李曉明 , 閆宏飛 , 王繼民 . 搜索引擎:原理、技術(shù)與系統(tǒng) —— 華夏英才基金學(xué)術(shù)文庫(kù) [M].北京: 科學(xué)出版社 , 2021 年 04 月 .
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1