freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)設(shè)計-網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)-全文預(yù)覽

2024-12-31 16:56 上一頁面

下一頁面
  

【正文】 experimental setup described in Section 4. The results of our simulations are depicted and discussed in Section 5, and our remendations for practical algorithms and data structures for URL caching are presented in Section 6. Section 7 contains our conclusions and directions for further research. 2. CRAWLING Web crawlers are almost as old as the web itself, and numerous crawling systems have been described in the literature. In this section, we present a brief survey of these 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 30 。從尊敬的導(dǎo)師身上,我不僅學(xué)到了扎實、寬廣的專業(yè)知識,也學(xué)到了做人的道理。 在這次畢業(yè)設(shè)計中也使我們的同學(xué)關(guān)系更進一步了,同學(xué)之間互相幫助,有什么不懂的大家在一起商量,聽聽不同的看法對我們更好的理解知識,所以在這里非常感謝幫助我的同學(xué)。在整個過程中,我學(xué)到了新知識,增長了見識。 深入了解并掌握數(shù)據(jù)庫基礎(chǔ)知識,挖掘出數(shù)據(jù)庫課程中的難點和重點,對于其中的難點,要充分考慮學(xué)生的學(xué)習(xí)能力,幫助學(xué)生以一種最容易接受的方式掌握知識 。在大家的幫助下,困難一個一個解決掉,論文也慢慢成型。我在學(xué)校圖書館,大工圖書館搜集資料,還在網(wǎng)上查找各類相關(guān)資料,將這些寶貴的資料全部記在筆記本上,盡量使我的資料完整、精確、數(shù)量多,這有利 于論文的撰寫。 3月初,在與導(dǎo)師的交流討論中我的題目定了下來,是面向主題的網(wǎng)絡(luò)爬蟲。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 20 第五章 測試 設(shè)定只爬取前 5 個網(wǎng)頁,程序運行后的界面如圖 51 圖 51 測試圖 1 預(yù)設(shè)目錄為, D: test 按下 START 后,查看目錄,可見如圖 52: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 21 圖 52 測試圖 2 查看數(shù)據(jù)庫可見,如圖 53: 圖 53 測試圖 3 測試 Ping 功能,分別對正確網(wǎng)址 ping 和不正確網(wǎng)址 ping,如圖 54 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 22 圖 54 測試圖 4 圖 55 測試圖 5 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 23 圖 56 測試圖 6 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 24 第六章 總結(jié)和展望 2021 年 3 月,我開始了我的畢業(yè)論文工作,時至今日,論文基本完成。 第二步:調(diào)用 獲得網(wǎng)頁下面所有的 URL,同時去除重復(fù)的部分。 第 i 個線程對所有 URL 列表中序列為第 0+4i URL 的進行同步操作,其中對儲存所有 URL 的列表執(zhí)行 synchronized (all_URL)操作。 多線程的實現(xiàn) 設(shè)計為 4個線程同時進行工作。 private String Url。 private int Port。 保存網(wǎng)頁信息 URL 連接。 C。 } // 獲得該網(wǎng)頁的所有鏈接 public Vector getLinks() { return links。 protected String encode = new String()。 // 得到某一網(wǎng)頁上的所有鏈接 protected VectorString links = new VectorString()。 (10000)。 網(wǎng)絡(luò)爬蟲具體設(shè)計 爬取網(wǎng)頁 主要用到的技術(shù)如下: 繼承 HTMLEditorKit 類,改寫其中的 getParser()屬性protect 為 public,用下列函數(shù)爬取網(wǎng)頁: public class XXXXX extends HTMLEditorKit { public getParser() { return ()。 將待爬取 URL 列表對應(yīng)的 URL 的網(wǎng)頁代碼提取出來。 本網(wǎng)絡(luò)爬蟲最終將設(shè)計成一個能夠自動讀寫配置文件并且在后臺自動執(zhí)行的網(wǎng)絡(luò)爬蟲程序。如圖37 所示。 : A=4 B+C。同樣的情況也包括鏈接關(guān)鍵詞與實際內(nèi)容不符的情況。搜索引擎在進行搜索的時候,搜索結(jié)果的內(nèi)容一般是網(wǎng)頁標(biāo)題、網(wǎng)頁摘要信息和鏈接,要引起用戶的關(guān)注,高度總結(jié)了網(wǎng)頁內(nèi)容的標(biāo)題至關(guān)重要。所以應(yīng)當(dāng)確保在網(wǎng)站的標(biāo)題 標(biāo)簽中包含了最重要的關(guān)鍵詞,即應(yīng)圍繞最重要的關(guān)鍵詞來決定網(wǎng)頁標(biāo)題的內(nèi)容。當(dāng)然這種一般原則并不是固定不變的,在實 際工作中可能會有一定的變化,但是無論如何變化,總體上仍然會遵照這種規(guī)律 [12]。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 10 主題蜘蛛將網(wǎng)頁下載到本地后,需要使用基于內(nèi)容的主題判別方法計算該網(wǎng)頁的主題相關(guān)度值,主題相關(guān)度低于某一閾值的網(wǎng)頁被丟棄。如果新結(jié)點是目標(biāo)結(jié)點,則搜 索成功,程序結(jié)束;若新結(jié)點不是目標(biāo)結(jié)點,則回到第( 1)步,再從隊列頭取出結(jié)點進行擴展 ......。 搜索的步驟一般是: ( 1)從隊列頭取出一個結(jié)點,檢查它按照擴展規(guī)則是否能夠擴展,如果能則產(chǎn)生一個新結(jié)點。 結(jié)點的擴展規(guī)則也就是如何從現(xiàn)有的結(jié)點生成新結(jié)點。 廣度優(yōu)先搜索算法中,解答樹上結(jié)點的擴展是沿結(jié)點深度的“斷層” 進行,也就是說,結(jié)點的擴展是按它們接近起始結(jié)點的程度依次進行的。不同的問題需要用不同的數(shù)據(jù)結(jié)構(gòu)描述。之后將任務(wù)列表中 URL 重新開始爬取,從而使網(wǎng)絡(luò)爬蟲進行循環(huán)運行。與在進行頁面的主題相關(guān)度分析后,當(dāng)其主題相關(guān)度符合要求時將處理該頁面中的所有鏈接,但其中的鏈接指向的頁面也可能有許多偏離了主題,這一點在網(wǎng)頁的標(biāo)題上就可以看出,現(xiàn)在大多數(shù)網(wǎng)頁的標(biāo)題已經(jīng)很明顯的給出了文本的主要描述對象,所以傳統(tǒng)的空間模型策略沒有注意到網(wǎng)頁標(biāo)題這個重要的角色。在該模型中,文檔的內(nèi)容被形式化為多維空間中的一個點,以向量的形式給出。在向量空間模型中,文檔被形式 化為 n 維空間中的向量,把關(guān)鍵詞的個數(shù) n 作為空間向量的維數(shù),每個關(guān)鍵詞的權(quán)值 作為每一維分量的大小,則主題用向量表示為: A=(a1,a2,? ,an),i=1,2,? ,n,ai=wi 對于頁面進行分析,統(tǒng)計關(guān)鍵詞出現(xiàn)的頻率,并求出頻率之比,以出現(xiàn)的頻率最高的關(guān)鍵詞作為基準(zhǔn),其頻率用 xi=1 表示,通過頻率比,求出其他關(guān)鍵詞的頻率 ,則該頁面對應(yīng)向量的每一維分量為 xiwi。 。在布爾模型 [9]中,一個文檔通過一個關(guān)鍵詞集合來表示。主題蜘蛛將網(wǎng)頁下載到本地后,需要使用基于內(nèi)容的主題判別方法計算該網(wǎng)頁的主題相關(guān)度值,主題相關(guān)度低于某一閾值的網(wǎng)頁被丟棄。研究表明,這樣的閉環(huán)調(diào)整可以將無關(guān)網(wǎng)頁數(shù)量降低 30%~90%。它只訪問經(jīng)過網(wǎng)頁分析算法預(yù)測為“有用”的網(wǎng)頁。其基本思想是認為與初始 URL 在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。 廣度優(yōu)先搜索策略 廣度優(yōu)先搜索 策略 是指在抓取過程中,在 完成當(dāng)前層次的搜索后,才進行下一層次的搜索。 定義 4:如果超鏈接 l指向網(wǎng)頁 t,則網(wǎng)頁 t稱為子網(wǎng)頁,又稱為目標(biāo)網(wǎng)頁。通用網(wǎng)絡(luò)爬蟲從一個或若干初始網(wǎng)頁的 URL開始,獲得初始網(wǎng)頁上的 URL 列表;在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的 URL 放入待爬行隊列,直到滿足系統(tǒng)的停止條件。 另外,在 AJAX 的應(yīng)用中, JavaScript 會對 DOM 結(jié)構(gòu)進行大量變動,甚至頁面所有內(nèi)容都通過 JavaScript 直接從服務(wù)器端讀取并動態(tài)繪制出來?,F(xiàn)在游行的 SEO,就是強勢搜索引擎條件下對網(wǎng)站結(jié)構(gòu)產(chǎn)生的影響。然而,傳統(tǒng)搜索引擎并不能支持定制搜索和信息處理、挖掘,只能以 形式存在。搜索引擎己成為一個新的研究、開發(fā)領(lǐng)域。其次,不能聯(lián)想到關(guān)鍵字的同義詞。這類爬蟲可以部署很多,而且可以很有侵略性。 網(wǎng)絡(luò)爬蟲的分類 網(wǎng)絡(luò)爬蟲種類繁多,如果按照部署在哪里分,可以分成: 1,服務(wù)器側(cè):一般是一個多線程程序,同時下載多個目標(biāo) HTML,可以用 PHP, 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 3 Java, Python 等做,一般綜合搜索引擎的爬蟲這樣做。 隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹,一家搜索引擎光靠自己單打獨斗已無法適應(yīng)目前的市場狀況,因此現(xiàn)在搜索引擎之間開始出現(xiàn)了分工協(xié)作,并有了專業(yè)的搜索引 擎技術(shù)和搜索數(shù)據(jù)庫服務(wù)提供商。同年 4月,斯坦福( Stanford)大學(xué)的兩名博士生, David Filo 和美籍華人楊致遠( Gerry Yang)共同創(chuàng)辦了超級目錄索引 Yahoo,并成功地使搜索引擎的概念深入人心。到 1993年底,一些基于此原理的搜索引擎開始紛紛涌現(xiàn),其中以 JumpStation、 The World Wide Web Worm( Goto 的前身,也就是今天 Overture),和 RepositoryBased Software Engineering (RBSE) spider 最負盛名。與Wanderer 相對應(yīng), Martin Koster 于 1993年 10月創(chuàng)建了 ALIWEB,它是 Archie 的HTTP 版本。電腦“機器人”( Computer Robot)是指某個能以人類無法達到的速度不間斷地執(zhí)行某項任務(wù)的軟件程序。 現(xiàn)代意義上的搜索引擎的祖先,是 1990年由蒙特利爾大學(xué)學(xué)生 Alan Emtage發(fā)明的 Archie。搜索引擎不斷的發(fā)展 ,人們的需求也在不斷的提高 ,網(wǎng)絡(luò)信息搜索已經(jīng)成為人們每天都要進行的內(nèi)容 .如何使搜索引擎能時刻滿足人們的需求。 subjectoriented。對網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連接及讀取時間,避免無限制的等待。 八. 實驗條件 Windows 操作系統(tǒng) ;互聯(lián)網(wǎng) 九. 主要參考文獻 [1]Winter.中文搜索引擎技術(shù)解密:網(wǎng)絡(luò)蜘蛛 [M].北京:人民郵電出版社,2021 年. [2]Sergey 等. The Anatomy of a LargeScale Hypertextual Web Search Engine [M].北京: 清華大學(xué)出版社, 1998 年. [3]Wisenut. WiseNut Search Engine white paper [M].北京:中國電力出版社, 2021 年. [4]Gary Stevens. TCPIP協(xié)議詳解卷 3: TCP事務(wù)協(xié)議,HTTP, NNTP 和 UNIX 域協(xié)議 [M].北京:機械工業(yè)出版社, 2021 年 1 月 . [5]羅剛 王振東 . 自己動手寫網(wǎng)絡(luò)爬蟲 [M].北京:清華大學(xué)出版社, 2021 年 10月 . [6]李曉明 , 閆宏飛 , 王繼民 . 搜索引擎:原理、技術(shù)與系統(tǒng) —— 華夏英才基金學(xué)術(shù)文庫 [M].北京: 科學(xué)出版社 , 2021 年 04 月 . 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 指導(dǎo)教師(簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 審題小組組長(簽字) 年 月 日 摘 要 本課題的主要目的是設(shè)計面向主題的網(wǎng)絡(luò)爬蟲程序,同時需 要滿足的是具有一定的性能,考慮到網(wǎng)絡(luò)爬蟲的各種需求。 六. 研究手段 參考網(wǎng)上開源的網(wǎng)絡(luò)爬蟲和各種網(wǎng)絡(luò)爬蟲相關(guān) 的書籍,在 windows 系統(tǒng)環(huán)境下開發(fā)。網(wǎng)絡(luò)爬蟲使用多線程技術(shù),讓爬蟲具備更強大的抓取能力。 。 題的抓取。網(wǎng)絡(luò)上比較著名的開源爬蟲包括Nutch, Larbin, Heritrix。但是,這些通用性搜索引擎也存在著一定的局限性。 最終實現(xiàn)的網(wǎng)絡(luò)爬蟲應(yīng)該能根據(jù)設(shè)定的主題,從設(shè)定的 url進行一定深度的搜索,并最終得到需要的數(shù)據(jù)。網(wǎng)絡(luò)爬蟲要實現(xiàn)對特定主題的爬取。) 本課題的主要目的是設(shè)計面向主題的網(wǎng)絡(luò)爬蟲程序,同時需要滿足的是具有一定的性能,要考慮到網(wǎng)絡(luò)爬蟲的各種需求。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。 畢業(yè)設(shè)計(論文)說明書 學(xué) 院 軟件學(xué)院 專 業(yè) 軟件工程 年 級 2021 姓 名 指導(dǎo)教師 2021 年 3 月 6 日
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1