freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于廣度優(yōu)先算法的多線程網(wǎng)絡(luò)爬蟲畢業(yè)設(shè)計(jì)-文庫吧

2025-06-05 14:07 本頁面


【正文】 ................................................................................. 62 附錄 C 程序代碼 ........................................................................................................ 66沈陽理工大學(xué)學(xué)士學(xué)位論文 1 1 緒論 網(wǎng)絡(luò)爬蟲的發(fā)展 在互 聯(lián) 網(wǎng) 發(fā) 展的早期,網(wǎng)站 數(shù) 量相 對較 少,信息 數(shù) 據(jù)量不大,查找也比 較 容易 。然而伴 隨 互 聯(lián) 網(wǎng)井 噴 性 的發(fā) 展,普通網(wǎng) 絡(luò) 用 戶 想找到自己所需的 數(shù)據(jù)簡 直如同在 數(shù) 據(jù)的海洋里 撈針 , 為滿 足大 眾 信 息檢索 需求的 專業(yè) 搜索網(wǎng)站便 應(yīng)運(yùn) 而生了。 所有搜索引擎的鼻祖,是 1990 年由 Montreal 的 McGill University 三名 學(xué) 生( Alan Emtage、 Peter Deutsch、 Bill Wheelan) 發(fā) 明的 Archie( Archie FAQ)。 Alan Emtage 等想到了 開發(fā) 一 個 可以用文件名查找文件的系 統(tǒng) ,于是便有了 Archie。 Archie 是第一 個 自 動索引互 聯(lián) 網(wǎng)上匿名 FTP 網(wǎng)站文件的程序, 但它 還 不是真正的搜索引擎。 Archie 是一 個 可搜索的 FTP 文件名列表,用 戶 必 須輸 入精確的文件名搜索,然后 Archie 會 告 訴 用 戶 哪一 個 FTP 地址可以下 載該 文件。由于 Archie 深受 歡 迎,受其 啟發(fā), Nevada System Computing Services 大 學(xué) 于 1993 年 開發(fā) 了一 個 Gopher( Gopher FAQ)搜索工具 Veronica( Veronica FAQ)。 Jug head 是后 來另 一 個 Gopher 搜索工具。 雖然當(dāng)時 萬 維 網(wǎng) 還 未出 現(xiàn) ,但網(wǎng) 絡(luò) 中 檔傳輸還 是相 當(dāng)頻 繁的,而且由于大量的 檔 散布在各 個 分散的 FTP 主機(jī)中,查詢 起 來非 常不便,因此 Alan Archie 工作原理與 現(xiàn) 在的搜索引擎已 經(jīng) 很接近,它依靠 腳本程序自 動 搜索網(wǎng)上的文件,然后 對 有 關(guān) 信 息進(jìn) 行索引,供使用者以一定的表 達(dá)式 查 詢。 當(dāng)時 ,“機(jī)器人”一 詞在編 程者中十分流行。 計(jì) 算機(jī)“機(jī)器人”( Computer Robot)是指某 個 能以人 類無 法 達(dá) 到的速度不 間斷 地 執(zhí) 行某 項(xiàng) 任 務(wù) 的 軟 件程序。由于 專門用 于 檢索 信息的“機(jī)器人”程序象蜘蛛一 樣 在網(wǎng) 絡(luò)間 爬 來 爬去,因此, 搜索引擎的“機(jī)器人”程序就被 稱為 “蜘蛛”程序。 世界上第一 個 用于 監(jiān)測 互 聯(lián) 網(wǎng) 發(fā) 展 規(guī) 模的“機(jī)器人”程序是 Matthew Gray 開發(fā)的World wide Web Wanderer。 剛開始它 只用 來統(tǒng)計(jì) 互 聯(lián) 網(wǎng)上的服 務(wù)器數(shù) 量,后 來則發(fā) 展 為能 夠檢索網(wǎng) 站域名。與 Wanderer 相 對應(yīng) , Martin Kosher 于 1993 年 10 月 創(chuàng) 建了 ALIWEB,它是 Archie 的 HTTP 版本。 ALIWEB 不使用“機(jī)器人”程序,而是靠網(wǎng)站主 動 提交信息 來 建立 自己的 鏈接 索引, 類 似于 現(xiàn) 在 我們 熟知的 Yahoo。 隨著 互 聯(lián) 網(wǎng)的迅速 發(fā) 展,使得 檢索 所有新出 現(xiàn) 的網(wǎng) 頁變 得越 來 越困 難 ,因此,在Matthew Gray 的 Wanderer 基 礎(chǔ) 上,一些 編 程者 將傳統(tǒng) 的 “蜘蛛”程序工作原理作了些改 進(jìn)。 直到一些 編 程者提出了 這樣 的 設(shè) 想,既然所有網(wǎng) 頁 都可能有 連 向其它網(wǎng)站的 鏈接 ,沈陽理工大學(xué)學(xué)士學(xué)位論文 2 那么 從 跟 蹤 一 個 網(wǎng)站的 鏈接開始 ,就有可能 檢索 整 個 互 聯(lián) 網(wǎng)。到 1993 年底,一些基于此原理的搜索引擎 開始紛紛 涌 現(xiàn) ,但是早期的搜索引擎只是以搜索工具在 數(shù) 據(jù) 庫 中找到匹配信息的先后次序排列搜索 結(jié) 果,因此毫 無 信息 關(guān)聯(lián) 度可言。而 RBSE 是第一 個 在搜索 結(jié) 果排列中引入 關(guān)鍵詞 串匹配程度概念的引擎。最早 現(xiàn) 代意 義 上的搜索引擎出 現(xiàn) 于1994 年 7 月。 當(dāng)時 Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序 中, 創(chuàng)建了大 家現(xiàn) 在熟知的 Lycos( 20xx 年被西班牙網(wǎng) 絡(luò) 集 團(tuán) Terra Lycos Network 收 購 )。同年 4 月,斯坦福( Stanford)大 學(xué)最為 著名的 兩 名博士生,美籍 華人楊 致 遠(yuǎn)( Gerry Yang)和 David Filo 共同 創(chuàng)辦了 Yahoo 公司,并成功地使搜索引擎的概念深入人心。 從 此搜索引擎 進(jìn) 入了高速 發(fā) 展 時 期。目前,互 聯(lián) 網(wǎng)上有名有姓的搜索引擎已 達(dá)數(shù) 百家,其 檢索 的信息量也與 從 前不可同日而 語 。像 國 外的 Google, 國內(nèi) 的百度, 這樣 的搜索引擎巨擘由于掌握的大多 數(shù) 的入口流量,成 為互聯(lián) 網(wǎng)世界的霸主, 并帶來了 巨大的商 業(yè) 價值。 國內(nèi) 外技 術(shù)發(fā) 展 現(xiàn)狀 因 為 搜索引擎的商 業(yè) 化 應(yīng) 用 帶來了 巨大的商 業(yè) 價值,所以作 為 搜索引擎的核心部分的網(wǎng) 絡(luò) 爬蟲技 術(shù) ,也理所 應(yīng)當(dāng) 的成 為 了 國內(nèi) 外研究的 熱點(diǎn) 。 對 于網(wǎng) 絡(luò) 爬蟲的研 究從 上世紀(jì) 九十年代就 開始 了目前爬蟲技 術(shù) 已 經(jīng) 相 當(dāng) 成熟。并催生了像 Baidu 和 Google 這樣 的網(wǎng) 絡(luò) 巨擘,而其它公司也 紛紛 推出了自己的搜索引擎。網(wǎng) 絡(luò) 爬蟲是搜索引擎的重要 組 成部分。 現(xiàn) 今,網(wǎng) 絡(luò) 爬蟲主要分 為通 用爬蟲和聚焦爬蟲 兩類 。通用搜索引擎的目 標(biāo) 是 盡 可能大的網(wǎng) 絡(luò) 覆 蓋 率,通用搜索引擎大多提供基 于關(guān)鍵詞 的 檢索。 聚焦爬蟲是一 個 自 動 下 載網(wǎng) 頁 的程序,它根據(jù)既定的抓取目 標(biāo) ,有 選擇 的 訪問 萬 維 網(wǎng)上的網(wǎng) 頁 與相 關(guān)的鏈接 , 獲取所需要的信息。與通用爬蟲 (general purpose web crawler)不同,聚焦爬蟲并不追求大的覆 蓋 ,而 將 目 標(biāo)定為 抓取與某一特定主 題內(nèi) 容相 關(guān)的 網(wǎng) 頁 , 為面 向主 題的 用 戶 查 詢 準(zhǔn) 備數(shù) 據(jù) 資 源。同 時 ,支持根據(jù) 語義 信息提出的查 詢。 網(wǎng) 絡(luò) 爬蟲 的發(fā) 展 趨勢隨著 AJAX/ 等技 術(shù) 的流行,如何抓取 AJAX 等 動態(tài)頁面成了搜索引擎急需解 決 的 問題, 如果搜索引擎依 舊 采用“爬”的機(jī)制,是 無 法抓取到AJAX 頁 面的有 效 數(shù) 據(jù)的。 除此之外,網(wǎng) 絡(luò) 爬蟲 還 主要面 對著 一下的 這 些 問題 (摘自百度百科 [5]): 強(qiáng) 制用 Cookies。部分站 長為 了 讓 用 戶記 住登 陸 信息, 強(qiáng) 迫用 戶 使用 Cookies。沈陽理工大學(xué)學(xué)士學(xué)位論文 3 如果未 開啟 , 則無 法 進(jìn) 行 訪問 , 訪問頁 面 顯 示的也不 會正 常, 這 種方式 會讓 蜘蛛 無 法 進(jìn)行 訪問 。 登 陸 要求。有些企 業(yè) 站和 個 人站的 設(shè) 置一定要注 冊 登 陸 后才能看到相 關(guān)的 文章 內(nèi)容, 這 種 對 蜘蛛不是很友好,蜘蛛不 會注冊 、也不 會登陸 。 動態(tài) URL。 動態(tài) URL 簡單 的 說 就是 帶 有 問號 、等 號 及 參數(shù) 的網(wǎng)址就是 動態(tài) URL,動態(tài) URL 不利于搜索引擎蜘蛛的爬行和抓取。 Flash。有的網(wǎng) 站頁 面使用 Flash 視覺 效果是很正常的,比如用 Flash 做的 Logo、廣 告、 圖 表等, 這 些 對 搜索引擎抓取和收 錄 是 沒 有 問題的, 很多網(wǎng)站的首 頁 是一 個 大的Flash 檔 , 這 種就叫蜘蛛陷阱,在蜘蛛抓取 時 HTML 代 碼 中只是一 個鏈接 ,并 沒 有文字。雖然 大的 Flash 效果看上去很好,外 觀 看 著也 很漂亮,但可惜搜索引擎看不到, 無 法 讀取任何 內(nèi) 容。 無休止的跳轉(zhuǎn)。對搜索引擎來說只對 301 跳轉(zhuǎn)相對來說比較友好,對其他形式的跳轉(zhuǎn)都是比較敏感,例如: JavaScript 跳轉(zhuǎn)、 Meta Refresh 跳轉(zhuǎn)、 Flash 跳轉(zhuǎn) 、 302 跳轉(zhuǎn)。 系統(tǒng)設(shè)計(jì)的意義 本文通 過 JAVA 語 言 實(shí)現(xiàn) 一 個 基于 廣 度優(yōu)先偏 歷 算法的 多線 程爬蟲程序。通 過實(shí)現(xiàn)此爬蟲程序可以定 點(diǎn) 搜集某一站 點(diǎn) 的 URLs,如果需要搜集其它信息,可以在解析 URLs的同 時 ,解析 獲 取相 應(yīng) 信息 沈陽理工大學(xué)學(xué)士學(xué)位論文 4 2 總體設(shè)計(jì)方案 系 統(tǒng)設(shè)計(jì) 方案 本設(shè)計(jì)主要是通過在 eclipse 軟件環(huán)境中進(jìn)行 ,設(shè)計(jì)過程中 首先 服務(wù)器端 獲得網(wǎng)頁URL, URL 的獲得途徑有從客戶端獲得的已經(jīng)形成的 URL,和解析網(wǎng)站獲得的更新的URL 兩種途徑, 然后 根據(jù) URL 連接該網(wǎng)頁,獲取網(wǎng)頁源代碼, 獲取網(wǎng)頁源代碼中需要的網(wǎng)頁內(nèi)容,去除多余的標(biāo)簽,空格,最后形成 XML 文檔, 服務(wù)器端的還包含獲得 IP代理,因?yàn)榉磸?fù)解析同一個網(wǎng)站,網(wǎng)站的防火墻會讓本地 IP 無法訪問該網(wǎng)站,所以我們需要用到 IP 代理循環(huán)訪問網(wǎng)站解決這個問題,服務(wù)器端還可以閱本地文件的模塊,方便文件閱讀的 客戶端主要是過濾本地的文檔與服務(wù)器端進(jìn)行信息交互,傳送需要解析的 URL,獲得已經(jīng)解析的網(wǎng)頁源代碼 所形成的 XML 文檔 。 系 統(tǒng)設(shè)計(jì)框圖 否 是 否 是 圖 網(wǎng)頁解析部分流程圖 從 文檔中讀取一個URL 用代理訪問 URL 鏈接所指的地址,打開網(wǎng)絡(luò)連接 獲取網(wǎng)頁源代碼 去處網(wǎng)頁標(biāo)簽,空格等多余代碼 根據(jù)提取的信息,形成 XML 文檔保存在固定文件夾中 是否讀到 URL 是否獲完整源代碼 從文檔中讀取一個URL 結(jié)束讀取URL 沈陽理工大學(xué)學(xué)士學(xué)位論文 5 圖 客戶端文件遍歷流程圖 圖 服務(wù)器端與客戶端通信流程圖 網(wǎng) 絡(luò) 爬蟲的相 關(guān) 技 術(shù) URL 統(tǒng) 一 資 源定位符( URL,英 語 UniformResourceLocator 的 縮寫 )也被 稱為網(wǎng)頁 地址,是因特網(wǎng)上 標(biāo) 準(zhǔn)的 資 源的地址。它最初是由蒂姆伯 納 斯-李 發(fā) 明用 來 作 為 萬 維 網(wǎng)的地址的。 現(xiàn) 在它已 經(jīng)被 萬 維 網(wǎng) 聯(lián)盟編 制 為因 特網(wǎng) 標(biāo) 準(zhǔn) RFC1738 了。 在因特網(wǎng)的 歷 史上, 統(tǒng) 一 資 源定位符 的發(fā) 明是一 個 非?;?礎(chǔ) 的步 驟 。 統(tǒng) 一 資 源定位符的語 法是一般的,可 擴(kuò) 展的,它使用 ASCII 代 碼的 一部 分來 表示因特網(wǎng)的地址。一般 統(tǒng) 一資 源定位符的 開始標(biāo) 志 著 一 個計(jì) 算機(jī)網(wǎng) 絡(luò) 所使用的網(wǎng) 絡(luò)協(xié)議。 統(tǒng) 一 資 源定位符是 統(tǒng) 一 資 源 標(biāo) 志符的一 個下 種。 統(tǒng) 一 資 源 標(biāo) 志符確定一 個資 源,而統(tǒng) 一 資 源定位符不但確定一 個資 源 ,而且還 表示 出它在哪里。 選定文件夾,遍歷該文件夾 將獲得的文件顯示在第一個 Table 中 選擇對文件的操作打開,刪除, 添加到上傳列表 如果添加到上傳列表,單機(jī)右鍵,選擇操作,如開始上傳 客戶端發(fā)出連接請求 服務(wù)端開啟服務(wù) 服務(wù)端接收客戶端請求,鏈接構(gòu)成 客戶端發(fā)出請求,上傳或者下載文檔 文件開始傳送 文件傳送結(jié)束,服務(wù)器處于監(jiān)聽狀態(tài) 客戶端斷開Socket 鏈接 沈陽理工大學(xué)學(xué)士學(xué)位論文 6 URL 結(jié)構(gòu)一般分為兩個部分,一個是物理結(jié)構(gòu),一個是邏輯結(jié)構(gòu)。在物理結(jié)構(gòu)包括扁平結(jié)構(gòu)和樹型結(jié)構(gòu)。扁平結(jié)構(gòu)就是網(wǎng)站中所有的頁面都是在根目錄這一級別,形成一個扁平的物理結(jié)構(gòu)。這比較適合于小型的網(wǎng)站,因?yàn)槿绻辔募挤旁诟夸浵碌脑?,制作和維護(hù)起來比較麻煩。而樹型結(jié)構(gòu)的意義是在一級目錄下分為多個頻道或者稱之為目錄,然后目錄下面再放上屬于這個頻道的頁面,首頁、頻道首頁、頻道下的內(nèi)容就好比樹干、樹枝、樹葉的關(guān)系。邏輯結(jié)構(gòu)就是由網(wǎng)頁內(nèi)部鏈接所形成的邏輯的或鏈接的網(wǎng)絡(luò)圖。比較好的情況是邏輯結(jié)構(gòu)與前面的樹 型物理結(jié)構(gòu)相吻合。 統(tǒng)一資源定位符 URL 是對可以從因特網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示。 URL 給資源的位置提供一種抽象的識別方法,并用這種方法給資源定位。只要能夠?qū)Y源定位,系統(tǒng)就可以對資源進(jìn)行各種操作,如存取、更新、替換和查找其屬性。 URL 相當(dāng)于一個文件名在網(wǎng)絡(luò)范圍的擴(kuò)展。因此 URL 是與因特網(wǎng)相連的機(jī)器上的任何可訪問對象的一個指針。 URL 的一般形式是: URL 的訪問方式 ://主機(jī) :端口 /路徑
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1