正文內(nèi)容

主題式新聞搜索系統(tǒng)的設(shè)計—新聞頁面采集_模塊畢業(yè)論文設(shè)計(編輯修改稿)

2025-08-23 16:26 本頁面

　

【文章內(nèi)容簡介】主題從表面看主題就是一種風(fēng)格，也是一種靚麗的效果，更加是一種視覺延伸和視覺效應(yīng)。從實質(zhì)上講，主題式新聞搜索的主要目的就是讓用戶隨心所得去獲取各式各樣的新聞，是用戶可以根據(jù)自己的喜好任意的閱讀或者存儲自己喜愛的新聞。當(dāng)然這是整個系統(tǒng)的大系統(tǒng)的靈魂，但是對于新聞采集模塊來說，并不是真正的重點，在這里我們只是略微的提起。相對路徑與絕對路徑絕對 URL 用于表示 Inter 中特定文件所需要的全部內(nèi)容，相對 URL 只適合同名網(wǎng)頁鏈接下的其他目錄。所以說，當(dāng)存儲的時候，一定要使用絕對路徑，應(yīng)為只有絕對路徑，才可以真正的獲得網(wǎng)頁，而相對路徑則不能。因為從本質(zhì)上看，它不能算是真正的連接，不能代表這個剛鏈接所關(guān)聯(lián)的網(wǎng)頁。比如當(dāng)進(jìn)入一個網(wǎng)站的之后，可能在其內(nèi)部當(dāng)你去點擊其他的畫面的時候，在觀察地址欄的鏈接之中你可能發(fā)現(xiàn)鏈接變得很長，這就是因為所點擊的內(nèi)容的地址使用了相對鏈接。也就是說，這個鏈接是不用的。所以說，相對 URL 只能適合同名網(wǎng)頁之下的去連接其它目錄，如果當(dāng)你進(jìn)入其他網(wǎng)站時則不可用。所以抓取的一定要是絕對路徑鏈接，因為只有這樣，抓取的鏈接才有意義。中原工學(xué)院計算機學(xué)院畢業(yè)（設(shè)計）論文 9 URL 的抓取在成千上萬的網(wǎng)絡(luò)之上，怎樣才能將那些鏈接抓取到本地，實現(xiàn)的策略有三種。分別是廣度優(yōu)先搜索，深度優(yōu)先策略，最佳優(yōu)先搜索。廣度優(yōu)先搜索策略是通過在抓取 URL 的整個過程之中，當(dāng)僅當(dāng)通過抓取完這一層次，才會進(jìn)行抓取下一層次的搜索。此算法的實現(xiàn)和設(shè)計比較簡單。當(dāng)你想為目前覆蓋盡可能多的網(wǎng)頁時候，一般采取廣度優(yōu)先搜索方法。他的基本思想是通過認(rèn)為與最初初始話的 URL，在一定鏈接距離內(nèi)的網(wǎng)頁很可能與主題的關(guān)系或者相關(guān)性的概率十分的大。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用。先用廣度優(yōu)先策略去抓取網(wǎng)頁，然后再將他其中與其無關(guān)的網(wǎng)頁去過濾掉。但是這個方法的缺點，主要在于隨著抓取網(wǎng)頁的數(shù)量增加，大量的無關(guān)網(wǎng)頁將會被下載并且過濾，算法的效率十分的低下。深度優(yōu)先搜索策略的方法是，從起始網(wǎng)頁開始，去選擇一個 URL 作為切入口。去分析這個網(wǎng)頁中的 URL，然后在去選擇一個再進(jìn)入。如此一個鏈接有一個鏈接地去抓取下去，直到處理完一整條的路線之后，然后再去處理下一條路線。深度優(yōu)先策略設(shè)計的方法較為簡單。然而由于門戶網(wǎng)站提供的鏈接往往最具有價值的， PageRank 也十分的高。但是當(dāng)每深入一層之后，網(wǎng)頁的價值和 PageRank都會相應(yīng)地下降。這就暗示了重要網(wǎng)頁通常距離種子較近，而過度深入抓取到的網(wǎng)頁卻價值十分的低。同時，這種策略隨著抓取深度的深入，就會直接影響著抓取的命中率和抓取的效率，所以說抓取深度是決定該種策略的關(guān)鍵。所以說對于其他兩種策略而言。此種策略很少使用。最佳優(yōu)先搜索策略是按照一定的網(wǎng)頁分析算法，然后去預(yù)測候選 URL 與目標(biāo)網(wǎng)頁的相似成度，或者說與主題的相關(guān)性。然后在去選取評價的效率最高的一個或者說幾個 URL 進(jìn)行抓取。它只去訪問經(jīng)過網(wǎng)頁分析算法去預(yù)測為“有用”的網(wǎng)頁。但是他還是存在的一個問題，在網(wǎng)頁抓取路徑上的可能有很多相關(guān)網(wǎng)頁被忽略背完被忽略?？梢哉f所謂的最佳優(yōu)先策略其實是一種局部的最優(yōu)搜索算法。因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用然后改進(jìn)，以跳出局部的最優(yōu)點。本系統(tǒng)使用的是廣度優(yōu)先搜索策略，因為使用它可以大量的采集 URL。杜昕佳：主題式新聞搜索系統(tǒng)的設(shè)計 10 URL 的除重通常擁有著三種方法，分別是基于磁盤的順序存儲除重算法，基于 Hash 算法的存儲除重算法，基于 MD5 壓縮映射的存儲除重算法。第一種方法基于磁盤的順序存儲除重算法基于磁盤的順序存儲方法實現(xiàn)如下：它的真正含義就如它的字面意思一樣，通常把下載的 URL 按抓取的順序一一存儲在本地磁盤之中。淡然，如果你早已經(jīng)建立好了文本文件，那么最好將它存儲在文件之上，那樣便于插入便于取出。它的工作流程如下，但每一次有一個爬蟲線程準(zhǔn)備開始一個任務(wù) 之時，也就是說在一個 URL 開始下載之前，系統(tǒng)會通過到磁盤上中存儲的文件之中去檢索，如果系統(tǒng) 沒有發(fā)現(xiàn)它出現(xiàn)過，那么它就將該 URL 插入到該記事本的第一行但然也可以是最后一行，否則就選擇放棄。這種操作確實十分的簡短，并且易于操作。但是實際上這個方法，確實不能利用。因為眾人皆知互聯(lián)網(wǎng)異常的龐大， URL 的數(shù)量何止千萬甚至上百億，很顯然使用這種方法是十分的困難，也是不可取的。第二種方法基于 Hash 算法的存儲除重算法：它是通過 hash 算法來實現(xiàn) ，它的實現(xiàn)算法如下，它會給每一個指定的或者說確定的 URL 一個地址或者說名片。 Hash 函數(shù)會給每一個 URL 一張名片（地址），它僅且僅代表著他自己。當(dāng)他獲得了這樣名片的時候，就代表著這個 URL已經(jīng)被抓去。通過映射到某個物理地址上，當(dāng) 它需要進(jìn)行檢測 URL 是否重復(fù)的時候，只需要將這個 URL 進(jìn)行 Hash 映射，如果得到的地址已經(jīng)存在，說明已經(jīng)被下載過，放棄下載，否則，將該 URL 及其 Hash 地址作為鍵值寫入 hash 中。本系統(tǒng)就是使用這種飯方法。第三種基于 MD5 壓縮映射的除重存儲： MD5 算法是一種加密的算法，或者說是基于 hash 的加密算法，它也可以認(rèn)為是 Hash 算法的存儲的延伸，中文名字叫做中文名為消息摘要算法。當(dāng)然他也不是單單利用 hash 的方法。它先將獲取的 URL 中的字符串行的壓縮，使它得到了一個被壓縮的字符串，當(dāng)然在此同時它還可以通過直接映射，得到一個 Hash地址。除此以外， MD5 算法還能夠?qū)⑷魏巫址畨嚎s 或者改編為 128 位整數(shù)，并同時映射為物理地址。由于這個原因，所以說使用 MD5 進(jìn)行 Hash 映射出現(xiàn)中原工學(xué)院計算機學(xué)院畢業(yè)（設(shè)計）論文 11 碰撞的幾率非常小，所以十分的有效。它的五個性質(zhì)分別是壓縮性：也就說它可以使任意長度的數(shù)據(jù)，經(jīng)過某種計算，得到的 MD5 值長度都是固定不變的。容易計算：也就是說它從原數(shù)據(jù)之中計算出 MD5 值是很容易?？剐薷男裕阂簿褪钦f，只要你對原數(shù)據(jù)進(jìn)行改動，哪怕說只是單單的修改 1 個字節(jié)，那么你所得到的 MD5 的值將會有很大區(qū)別，甚至完全不同。弱抗碰撞：也就是說對已經(jīng)知原數(shù)據(jù)和其 MD5 值，去尋找到一個和這個原知的數(shù)據(jù)，擁有相同的 MD5 值的數(shù)據(jù)（這就是所謂的偽造數(shù)據(jù)），是非常困難的甚至可以說是不可能的。強抗碰撞：想同時找到兩個互不相同的數(shù)據(jù)，讓它們擁有相同的 MD5 值，可以說是非常困難的，甚至說不可能。當(dāng)然這種方法確實準(zhǔn)確有效，但是操作卻異常的復(fù)雜。所以本系統(tǒng)采取的方式是基于 Hash 算法的存儲除重算法，具體的方法實現(xiàn)，會在下文中一一列舉。補充：這個看似簡單的工作，工作量卻異常的復(fù)雜，異常的大。以下就以新浪新聞的頁面為例子進(jìn)行講解。新浪的一個新聞頁面大小在 50～ 60k 之間，每個頁面大約擁有者 90～ 100 個 URL，如果假如讓你每秒下載 10 個頁面，那么就會產(chǎn)生 900～ 1000 次的 URL 排重的操作，而且每次排重操作都要在幾百萬甚至幾千萬的 URL 庫中去查詢，去對比。這種操作對數(shù)據(jù)庫系統(tǒng)是一個災(zāi)難，對于系統(tǒng)來說也是一個災(zāi)難。所以說從理論上來說，任何需要產(chǎn)生磁盤 I/O 動作的存儲系統(tǒng)都不可能滿足這種查詢的需求。數(shù)據(jù)的寫入通過獲得絕對路徑的 URL，獲得了相關(guān)的網(wǎng)頁。通過網(wǎng)頁，獲取它的源碼。接下來的就是至關(guān)重要的一步，它決定了系統(tǒng)的好壞與與用戶的體驗。它的成敗，關(guān)系到了前面所有的努力，也就說它如果失敗了，那么所有的努力就會付之東流。它的主要工作，通過標(biāo)題的截取判定，發(fā)現(xiàn)含有資訊或者新聞的字眼，然后從獲取的網(wǎng)頁之中獲取源碼，然后除去腳本，將里面的與新聞相關(guān)的各式各樣的數(shù)據(jù)，寫入到指定的文本文件之中。將所有與新聞的圖片，下載到本地文件夾之中。杜昕佳：主題式新聞搜索系統(tǒng)的設(shè)計 12 第三章新聞采集模塊的設(shè)計與實現(xiàn) 本章系統(tǒng)的核心思想是，利用網(wǎng)絡(luò)爬蟲與搜索引擎技術(shù)，通過 URL 的抓取除重判斷與絕對路徑的獲取而進(jìn)行展開的。然后通過對標(biāo)題的截取與判斷，最終決定是不是下載其圖片與將數(shù)據(jù)寫入文本文檔之中。具體的流程如下中原工學(xué)院計算機學(xué)院畢業(yè)（設(shè)計）論文 13 開始抓取 U R L是否重復(fù)獲取鏈接的絕對路徑獲取源碼截取標(biāo) 題，并判斷是否是新聞刪除腳本，截取數(shù) 據(jù)寫入 t x t 中結(jié) 束放棄NYNY 程序運行流程圖 11 杜昕佳：主題式新聞搜索系統(tǒng)的設(shè)計 14 URL 的抓取與除重如何才能將網(wǎng)絡(luò)之上的 URL 抓取到本地，是這個程序或者系統(tǒng)的重中之重，因為它是程序的開端，也是這個系統(tǒng)的畫龍之筆。只有將它抓取到本地之中，這個系統(tǒng)或者說程序才有繼續(xù)運行下去的必要。如果抓取失敗了，這個程序即使還能進(jìn)下去，也沒有絲毫的意義。雖然他的地位十分重要，但是它的實現(xiàn)卻異常的簡單。鏈接的抓取不需要太多的算法，也不需要過多的策略。只需要一個簡單的策略就能夠?qū)崿F(xiàn)。本系統(tǒng)利用廣度優(yōu)先算法將網(wǎng)絡(luò)的超鏈接抓向本地的一個早已經(jīng)，初始化的隊列之中。就這樣，短短的數(shù) 段代碼就能實現(xiàn)。當(dāng)然這只是開始，后面的任務(wù)還是依然的嚴(yán)峻。做完這一切還是遠(yuǎn)遠(yuǎn)的不夠的，因為互聯(lián)網(wǎng)之上的鏈接何止擁有千萬，最重要的是系統(tǒng)抓取的鏈接都是隨機，所每一個鏈接都有可能與它下一個或者說上一個重復(fù)，怎么才能將那些重復(fù)的鏈接刪去，又是擺在視線之中的問題。當(dāng)然它的過程比較復(fù)雜，比 URL 的抓取工作要復(fù)雜得多。對于它的實現(xiàn)，我們利用開發(fā)工具之中的一個算法或者說是一個系統(tǒng)類。它是基于Hash 算法的存儲算法，當(dāng)然也可以根據(jù)他的真正的操作，認(rèn)為它是一種映射。工作流程是它會分給每一個鏈接一個地址，后面的鏈接與前面的對比如果地址已經(jīng)出現(xiàn)，則遺棄，否則將鏈接的地址與鏈接本身寫入 hash 函數(shù)之中。廣度優(yōu)先遍歷的解釋，它是指在網(wǎng)絡(luò)之上抓取網(wǎng)頁鏈接的過程中，當(dāng)僅當(dāng)它完成了，它當(dāng)前層次的搜索之后，它才會進(jìn)行下一層次搜索。此算法的設(shè)計和實現(xiàn)都是十分簡單，易于操作并且效率也不是太低，特別適合隨意的抓取網(wǎng)絡(luò)鏈接。比如在抓取的過程中，系統(tǒng)為了覆蓋盡可能多的網(wǎng)頁，一般都會去使用廣度優(yōu)先搜索方法。當(dāng)然也有許許多多的科研研究，比如將廣度優(yōu)先搜索策略去應(yīng)用到聚焦爬蟲之中。它的基本思想是，系統(tǒng)認(rèn)為與它初始的 URL 在一定范圍內(nèi)的鏈接距離與它的相近的網(wǎng)頁，很可能就會與相關(guān)的主題的相似性的概率十分大。 URL 除重的方法，它利用 hash 的算法，分給每一個抓取的 URL 一個標(biāo)簽也可以說是地址，如果這個標(biāo)簽或者地址在 hash 之中從來都沒有出現(xiàn)過，系統(tǒng)就認(rèn)為此鏈接尚未抓取，此鏈接炮六，如果出現(xiàn)則選擇放棄，就這樣網(wǎng)頁的就將抓取的重復(fù)性鏈接剔除。核心代碼： public static string buildurl(string url, string param) 中原工學(xué)院計算機學(xué)院畢業(yè)（設(shè)計）論文 15 { string url1 = url。 if ((param) 0) { if ((amp。, (param) + ) 0) { url1 = (0, (param) 1) + ((amp。, (param) + ) + 1)。 } else { url1 = (0, (param) 1)。 } return url1。 } else { return url1。 } } endregion region 獲取頁面 url public static string GetScriptNameQueryString { get { return [QUERY_STRING].ToString()。 } } 杜昕佳：主題式新聞搜索系統(tǒng)的設(shè)計 16 public static string GetScriptName { get { return [SCRIPT_NAME].ToString()。 } } public static string GetScriptUrl { get { return GetScriptNameQueryString == ? GetScriptName : ({0}?{1}, GetScriptName, GetScript

點擊復(fù)制文檔內(nèi)容

研究報告相關(guān)推薦

基于web的新聞發(fā)布管理系統(tǒng)的研究與設(shè)計畢業(yè)論文-資料下載頁

【總結(jié)】南昌航空大學(xué)科技學(xué)院2013屆學(xué)士學(xué)位論文基于web的新聞發(fā)布管理系統(tǒng)的研究與設(shè)計1前言互聯(lián)網(wǎng)技術(shù)的高速發(fā)展，各種網(wǎng)站層出不窮，而類型眾多的網(wǎng)站中新聞類網(wǎng)站是最常見也是最重要的。廣大網(wǎng)民頻繁的需要從新聞網(wǎng)站中獲取自己需要的信息，而網(wǎng)站必須做到高頻率的更新以保證信息的實時性，使得網(wǎng)站管理的工作量巨大。一個簡單易用、功能全面的新聞發(fā)布管理系統(tǒng)對于新聞類網(wǎng)站的穩(wěn)定運

2025-06-22 01:41

遠(yuǎn)程數(shù)字采集系統(tǒng)的設(shè)計畢業(yè)論文-資料下載頁

【總結(jié)】目錄1緒論 1遠(yuǎn)程數(shù)字采集系統(tǒng)的概述 1課題要求 12系統(tǒng)設(shè)計方案 1系統(tǒng)設(shè)計方案論證 1系統(tǒng)設(shè)計方案選擇 13系統(tǒng)的硬件設(shè)計 2溫度采集模塊 2 2 3數(shù)據(jù)顯示模塊 3： 3 4 4數(shù)據(jù)傳輸模塊 5 5 6 124系統(tǒng)的軟件設(shè)計 12總程序流程圖 12各模塊程

2025-06-28 06:45

基于web的新聞發(fā)布管理系統(tǒng)的研究與設(shè)計_畢業(yè)論文-資料下載頁

【總結(jié)】南昌航空大學(xué)科技學(xué)院2020屆學(xué)士學(xué)位論文11基于web的新聞發(fā)布管理系統(tǒng)的研究與設(shè)計1前言互聯(lián)網(wǎng)技術(shù)的高速發(fā)展，各種網(wǎng)站層出不窮，而類型眾多的網(wǎng)站中新聞類網(wǎng)站是最常見也是最重要的。廣大網(wǎng)民頻繁的需要從新聞網(wǎng)站中獲取自己需要的信息，而網(wǎng)站必須做到高頻率的更新以保證信息的實時性，使得網(wǎng)站管理的工作量巨大。一個簡單易用、功能

2025-08-20 13:36

畢業(yè)論文---基于jsp綜合新聞發(fā)布系統(tǒng)設(shè)計與實現(xiàn)-資料下載頁

【總結(jié)】學(xué)院名稱：學(xué)生姓名：專業(yè)：班級：學(xué)號：指導(dǎo)教師：答辯組負(fù)責(zé)人：

2025-10-30 01:06

基于web的新聞發(fā)布管理系統(tǒng)的研究與設(shè)計_畢業(yè)論文-資料下載頁

2025-08-18 14:59

畢業(yè)設(shè)計論文-基于php的新聞管理系統(tǒng)-在線新聞網(wǎng)站-資料下載頁

【總結(jié)】I2020屆分類號：單位代碼：學(xué)士學(xué)位畢業(yè)設(shè)計(論文)基于PHP的新聞管理系統(tǒng)----在線新聞網(wǎng)站姓名學(xué)號2

2025-09-02 21:03

新聞發(fā)布系統(tǒng)—免費畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】新聞發(fā)布系統(tǒng)摘要我們從學(xué)校的實際情況出發(fā)，經(jīng)過對在線新聞發(fā)布事項的一番考察和分析，在對新聞需求的分析基礎(chǔ)上，確立了新聞發(fā)布系統(tǒng)的具體實現(xiàn)功能。并闡述系統(tǒng)的結(jié)構(gòu)設(shè)計和功能設(shè)計，實現(xiàn)新聞的分類顯示，最近新聞的提示，新聞滾動功能等。經(jīng)過授權(quán)的用戶可以通過Web瀏覽器，以人機交互式的客戶端程序?qū)崿F(xiàn)對新聞的發(fā)布、管理、實時的進(jìn)行行為統(tǒng)計和記錄。本系統(tǒng)具有很好的外

2025-11-14 16:50

基于jsp綜合新聞發(fā)布系統(tǒng)設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】重慶郵電大學(xué)本科畢業(yè)設(shè)計（論文）基于JSP綜合新聞發(fā)布系統(tǒng)設(shè)計與實現(xiàn)畢業(yè)論文目錄第一章緒論 1課題意義 1課題背景 1 1JSP的優(yōu)勢 2JSP的特點 2第二章基礎(chǔ)知識 4JSP技術(shù) 4JSP訪問數(shù)據(jù)庫的原理 4JSP頁面的結(jié)構(gòu)： 4JSP的運行環(huán)境 6JSP的內(nèi)建對象 7JSP的主要內(nèi)置組件： 7

2025-07-27 05:43

網(wǎng)上新聞發(fā)布系統(tǒng)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】課件之家精心整理資料--歡迎你的欣賞課件之家精心整理資料--歡迎你的欣賞網(wǎng)上新聞發(fā)布系統(tǒng)摘要：伴隨著網(wǎng)絡(luò)的出現(xiàn)，網(wǎng)頁逐漸融入人們的生活。快速及時的新聞瀏覽，五彩繽紛的網(wǎng)上信息，使網(wǎng)絡(luò)與人們生活息息相關(guān)。足不出戶便可知天下大事，網(wǎng)上新聞發(fā)布系統(tǒng)是系統(tǒng)管理員通過Inter能夠方便，快速，簡介的發(fā)布新聞，普通用戶能夠瀏覽新聞，將網(wǎng)站上需要經(jīng)常變動的信

2024-12-01 15:38

新聞網(wǎng)站設(shè)計畢業(yè)論文正稿-資料下載頁

【總結(jié)】........新聞網(wǎng)站NewsWebsite專業(yè)名稱：計算機網(wǎng)絡(luò)指導(dǎo)教師：*******畢業(yè)生姓名：*******畢業(yè)生學(xué)號：*******論文提交日期：2011年3月

2025-06-23 04:57

畢業(yè)論文設(shè)計：新聞發(fā)布系統(tǒng)的理論研究與實際開發(fā)-資料下載頁

【總結(jié)】畢業(yè)論文《博愛種子計劃》新聞發(fā)布系統(tǒng)的理論研究與實際開發(fā)系別：計算機與信息工程系專業(yè)年級：姓名：學(xué)號：指導(dǎo)教師：吳建周凌云職稱：講師助教2022年12月2日

2025-01-12 20:32

校園新聞發(fā)布系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(論文)校園新聞發(fā)布系統(tǒng)的設(shè)計與實現(xiàn)論文作者姓名：

2024-12-01 18:23

畢業(yè)論文設(shè)計：新聞發(fā)布系統(tǒng)的理論研究與實際開發(fā)-資料下載頁

【總結(jié)】畢業(yè)論文《博愛種子計劃》新聞發(fā)布系統(tǒng)的理論研究與實際開發(fā)系別：計算機與信息工程系專業(yè)年級：姓名：學(xué)號：指導(dǎo)教師：吳建周凌云職稱：講師助教2021年12月2日

2025-06-06 16:46

校園新聞發(fā)布系統(tǒng)的設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(論文)校園新聞發(fā)布系統(tǒng)的設(shè)計與實現(xiàn)論文作者姓名：

2024-12-01 17:23

基于web的新聞發(fā)布系統(tǒng)—畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(論文)基于Web的新聞發(fā)布系統(tǒng)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：基于Web的新聞發(fā)布系統(tǒng)摘要是新一代Web應(yīng)用程序開發(fā)平臺，它是一個已編譯的、基于.NET

2024-11-29 11:05