freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

主題式新聞搜索系統的設計—新聞頁面采集_模塊畢業(yè)論文設計(編輯修改稿)

2024-08-23 16:26 本頁面
 

【文章內容簡介】 主題 從表面看主題就是一種風格,也是一種靚麗的效果,更加是 一種視覺延伸和視覺效應。從實質上講,主題式新聞搜索的主要目的就是讓用戶隨心所得去獲取各式各樣的新聞,是用戶可以根據自己的喜好任意的閱讀或者存儲自己喜愛的新聞。當然這是整個系統的大系統的靈魂,但是對于新聞采集模塊來說,并不是真正的重點,在這里我們只是略微的提起。 相對路徑與絕對路徑 絕對 URL 用于表示 Inter 中特定文件所需要的全部內容,相對 URL 只適合同名網頁鏈接下的其他目錄。所以說,當存儲的時候,一定要使用絕對路徑,應為只有絕對路徑,才可以真正的獲得網頁,而相對路徑則不能。因為從 本質上看,它不能算是真正的連接,不能代表這個剛鏈接所關聯的網頁。比如當進入一個網站的之后,可能在其內部當你去點擊其他的畫面的時候,在觀察地址欄的鏈接之中你可能發(fā)現鏈接變得很長,這就是因為所點擊的內容的地址使用了相對鏈接。也就是說,這個鏈接是不用的。所以說,相對 URL 只能適合同名網頁之下的去連接其它目錄,如果當你進入其他網站時則不可用。所以抓取的一定要是絕對路徑鏈接,因為只有這樣,抓取的鏈接才有意義。 中原工學院計算機學院畢業(yè)(設計)論文 9 URL 的抓取 在成千上萬的網絡之上,怎樣才能將那些鏈接抓取到本地,實現的策略有三種。分別是廣 度優(yōu)先搜索,深度優(yōu)先策略,最佳優(yōu)先搜索。 廣度優(yōu)先搜索策略是通過在抓取 URL 的整個過程之中,當僅當通過抓取完這一層次,才會進行抓取下一層次的搜索。此算法的實現和設計比較簡單。當你想為目前覆蓋盡可能多的網頁時候,一般采取廣度優(yōu)先搜索方法。他的基本思想是通過認為與最初初始話的 URL,在一定鏈接距離內的網頁很可能與主題的關系或者相關性的概率十分的大。另外一種方法是將廣度優(yōu)先搜索與網頁過濾技術結合使用。先用廣度優(yōu)先策略去抓取網頁,然后再將他其中與其無關的網頁去過濾掉。但是這個方法的缺點,主要在于隨著抓取網頁 的數量增加,大量的無關網頁將會被下載并且過濾,算法的效率十分的低下。 深度優(yōu)先搜索策略的方法是,從起始網頁開始,去選擇一個 URL 作為切入口。去分析這個網頁中的 URL,然后在去選擇一個再進入。如此一個鏈接有一個鏈接地去抓取下去,直到處理完一整條的路線之后,然后再去處理下一條路線。深度優(yōu)先策略設計的方法較為簡單。然而由于門戶網站提供的鏈接往往最具有價值的, PageRank 也十分的高。但是當每深入一層之后,網頁的價值和 PageRank都會相應地下降。這就暗示了重要網頁通常距離種子較近,而過度深入抓取到的網頁卻價值 十分的低。同時,這種策略隨著抓取深度的深入,就會直接影響著抓取的命中率和抓取的效率,所以說抓取深度是決定該種策略的關鍵。所以說對于其他兩種策略而言。此種策略很少使用。 最佳優(yōu)先搜索策略是按照一定的網頁分析算法,然后去預測候選 URL 與目標網頁的相似成度,或者說與主題的相關性。然后在去選取評價的效率最高的一個或者說幾個 URL 進行抓取。它只去訪問經過網頁分析算法去預測為“有用”的網頁。但是他還是存在的一個問題,在網頁抓取路徑上的可能有很多相關網頁被忽略背完被忽略??梢哉f所謂的最佳優(yōu)先策略其實是一種局部的最 優(yōu)搜索算法。因此需要將最佳優(yōu)先結合具體的應用然后改進,以跳出局部的最優(yōu)點。 本系統使用的是廣度優(yōu)先搜索策略,因為使用它可以大量的采集 URL。 杜昕佳 : 主題式新聞搜索系統的設計 10 URL 的除重 通常擁有著三種方法,分別是 基于磁盤的順序存儲 除重算法, 基于 Hash 算法的存儲 除重算法, 基于 MD5 壓縮映射的存儲 除重算法。 第一種方法 基于磁盤的順序存儲 除重算法 基于磁盤的順序存儲 方法實現如下:它的真正含義就如它的字面意思一樣 ,通常把下載的 URL 按抓取的順序一一存儲在本地磁盤之中 。 淡然,如果你早已經建立好了文本文 件,那么最好將它存儲在文件之上,那樣便于插入便于取出。它的工作流程如下,但 每 一 次有一個爬蟲線程 準備開始 一個任務 之時,也就是說在一個 URL 開始下載之前, 系統會 通過到磁盤上 中存儲的 文件 之 中 去 檢索,如果 系統 沒有 發(fā)現它出現過,那么它就將該 URL 插入到該記事本的第一行但然也可以是最后一行,否則就選擇放棄。 這種操作確實十分的簡短,并且易于操作。但是實際上這個方法,確實不能利用。因為眾人皆知互聯網異常的龐大, URL 的數量何止千萬甚至上百億,很顯然使用這種方法是十分的困難,也是不可取的。 第二種方法 基于 Hash 算法的存儲 除重算法: 它是通過 hash 算法來實現 ,它的實現算法如下,它會給每一個指定的或者說確定 的 URL 一個地址或者說名片。 Hash 函數會給 每一個 URL 一張名片(地址),它僅且僅代表著他自己。當他獲得了這樣名片的時候,就代表著這個 URL已經被抓去。 通過 映射到某個物理地址上 , 當 它 需要進行檢測 URL 是否重復的時候,只需要將這個 URL 進行 Hash 映射,如果得到的地址已經存在,說明已經被下載過,放棄下載,否則,將該 URL 及其 Hash 地址作為鍵值 寫入 hash 中。本系統就是使用這種飯方法。 第三種 基于 MD5 壓縮映射的 除重 存儲 : MD5 算法是一種加密 的 算法, 或者說是基于 hash 的加密算法,它也可以認為是 Hash 算法的存儲 的延伸,中文名字叫做中文名為消息摘要算法 。 當然他也不是單單利用 hash 的方法。它先將 獲取的 URL 中的 字符串 行的 壓縮, 使它得到了一個被 壓縮 的 字符串, 當然在此同時它還 可以 通過 直接 映射,得到 一個 Hash地址。 除此以外 , MD5 算法 還 能夠將任何字符串壓縮 或者改編 為 128 位整數,并 同時 映射為物理地址 。由于這個原因,所以說使用 MD5 進行 Hash 映射 出現中原工學院計算機學院畢業(yè)(設計)論文 11 碰撞的幾率非常小, 所以十分的有效 。 它的五個性 質分別是壓縮性:也就說它可以使任意長度的數據,經過某種計算,得到的 MD5 值長度都是固定不變的。容易計算:也就是說它從原數據之中計算出 MD5 值是很容易。抗修改性:也就是說,只要你對原數據進行改動,哪怕說只是單單的修改 1 個字節(jié),那么你所得到的 MD5 的值將會有很大區(qū)別,甚至完全不同。弱抗碰撞:也就是說對已經知原數據和其 MD5 值,去尋找到一個和這個原知的數據,擁有相同的 MD5 值的數據(這就是所謂的偽造數據),是非常困難的甚至可以說是不可能的。強抗碰撞:想同時找到兩個互不相同的數據,讓它們擁有相同的 MD5 值,可以說是 非常困難的,甚至說不可能。 當然這種方法確實準確有效,但是操作卻異常的復雜。所以 本系統采取的方式是 基于 Hash 算法的存儲 除重算法,具體的方法實現,會在下文中一一列舉。 補充: 這個看似簡單的工作,工作量卻異常的復雜,異常的大 。以下 就以 新浪新聞 的 頁面為例 子進行講解。 新浪 的 一個新聞頁面大小 在 50~ 60k 之間 ,每個頁面 大約擁有者 90~ 100 個 URL,如果 假如讓你 每秒下載 10 個頁面, 那么就會產生 900~ 1000 次的 URL 排重 的 操作, 而且 每次排重操作都要在幾百萬 甚至 幾千萬的 URL 庫中去查詢 ,去對比 。這種操作對數據庫系統是 一個災難, 對于系統來說也是一個災難。所以說從 理論上 來說, 任何需要產生磁盤 I/O 動作的存儲系統都 不可能 滿足這種查詢的需求。 數據的寫入 通過獲得絕對路徑的 URL,獲得了相關的網頁。通過網頁,獲取它的源碼。接下來的就是至關重要的一步,它決定了系統的好壞與與用戶的體驗。它的成敗,關系到了前面所有的努力,也就說它如果失敗了,那么所有的努力就會付之東流。它的主要工作,通過標題的截取判定,發(fā)現含有資訊或者新聞的字眼,然后從獲取的網頁之中獲取源碼,然后除去腳本,將里面的與新聞相關的各式各樣的數據,寫入到指定的文本 文件之中。將所有與新聞的圖片,下載到本地文件夾之中。 杜昕佳 : 主題式新聞搜索系統的設計 12 第三章新聞采集模塊的設計與實現 本章系統的核心思想是,利用網絡爬蟲與搜索引擎技術,通過 URL 的抓取除重判斷與絕對路徑的獲取而進行展開的。然后通過對標題的截取與判斷,最終決定是不是下載其圖片與將數據寫入文本文檔之中。具體的流程如下 中原工學院計算機學院畢業(yè)(設計)論文 13 開 始抓 取 U R L是 否 重 復獲 取 鏈 接 的絕 對 路 徑獲 取 源 碼截 取 標 題 , 并 判 斷 是 否 是 新 聞刪 除 腳 本 , 截 取 數 據寫 入 t x t 中結 束放 棄NYNY 程序運行流程圖 11 杜昕佳 : 主題式新聞搜索系統的設計 14 URL 的抓取與除重 如何才能將網絡之上的 URL 抓取到本地,是這個程序或者系統的重中之重,因為它是程序的開端,也是這個系統的畫龍之筆。只有將它抓取到本地之中,這個系統或者說程序才有繼續(xù)運行下去的必要。如果抓取失敗了,這個程序即使還能進下去,也沒有絲毫的意義。雖然他的地位十分重要,但是它的實現卻異常的簡單。鏈接的抓取不需要太多的算法,也不需要過多的策略。只需要一個簡單的策略就能夠實現。本系統利用廣度優(yōu)先算法將網絡的超鏈接抓向本地的一個早已經,初始化的隊列之中。就這樣,短短的數 段代碼就能實現。當然這只是開始,后面的任務還是依然的嚴峻。做完這一切還是遠遠的不夠的,因為互聯網之上的鏈接何止擁有千萬,最重要的是系統抓取的鏈接都是隨機,所每一個鏈接都有可能與它下一個或者說上一個重復,怎么才能將那些重復的鏈接刪去,又是擺在視線之中的問題。當然它的過程比較復雜,比 URL 的抓取工作要復雜得多。對于它的實現,我們利用開發(fā)工具之中的一個算法或者說是一個系統類。它是基于Hash 算法的存儲 算法, 當然也 可以根據他的真正的操作,認為它是一種映射。工作流程是它會分給每一個鏈接一個地址,后面的鏈接與前面的對比 如果地址已經出現,則遺棄,否則將鏈接的地址與鏈接本身寫入 hash 函數之中。廣度優(yōu)先遍歷的解釋,它是指在網絡之上抓取網頁鏈接的過程中,當僅當它完成了,它當前層次的搜索之后,它才會進行下一層次搜索。此算法的設計和實現都是十分簡單,易于操作并且效率也不是太低,特別適合隨意的抓取網絡鏈接。比如在抓取的過程中,系統為了覆蓋盡可能多的網頁,一般都會去使用廣度優(yōu)先搜索方法。當然也有許許多多的科研研究,比如將廣度優(yōu)先搜索策略去應用到聚焦爬蟲之中。它的基本思想是,系統認為與它初始的 URL 在一定范圍內的鏈接距離與它的相近的網頁 ,很可能就會與相關的主題的相似性的概率十分大。 URL 除重的方法,它利用 hash 的算法,分給每一個抓取的 URL 一個標簽也可以說是地址,如果這個標簽或者地址在 hash 之中從來都沒有出現過,系統就認為此鏈接尚未抓取,此鏈接炮六,如果出現則選擇放棄,就這樣網頁的就將抓取的重復性鏈接剔除。 核心代碼: public static string buildurl(string url, string param) 中原工學院計算機學院畢業(yè)(設計)論文 15 { string url1 = url。 if ((param) 0) { if ((amp。, (param) + ) 0) { url1 = (0, (param) 1) + ((amp。, (param) + ) + 1)。 } else { url1 = (0, (param) 1)。 } return url1。 } else { return url1。 } } endregion region 獲取頁面 url public static string GetScriptNameQueryString { get { return [QUERY_STRING].ToString()。 } } 杜昕佳 : 主題式新聞搜索系統的設計 16 public static string GetScriptName { get { return [SCRIPT_NAME].ToString()。 } } public static string GetScriptUrl { get { return GetScriptNameQueryString == ? GetScriptName : ({0}?{1}, GetScriptName, GetScript
點擊復制文檔內容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1