freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡(luò)爬蟲技術(shù)探究畢業(yè)設(shè)計(存儲版)

2025-04-09 00:16上一頁面

下一頁面
  

【正文】 thOfWaiteQueue++。a href=“ ./science/” target=_self高清在線科幻電影專區(qū) /aa href=“ TOM365/a。像這種情況我們就直接拋棄這些 URLs。 HTML 代碼中,頁面之間的跳轉(zhuǎn),關(guān)聯(lián)是通過 href 標(biāo)簽來實現(xiàn)的。 URL 檢測模塊 該模塊主要是用于剔除非站內(nèi) URL或無法訪問的 URL,因為 截取出來的字符串,可能為相對地址或者絕對地址。 由 RFC對 URL的定義可知 ,URL 的格式為 一般情況下 , 同一網(wǎng)站內(nèi)所有頁面對應(yīng) URL 的 host 是相同的 , 所以可以使用 host 匹配作為判斷超鏈?zhǔn)欠裰赶蛘就獾臉?biāo)準(zhǔn) 。 if((((39。 } urlQueueHead = new UrlNode()。 (urlString)。 while(()) {//是否有匹配的郵箱地址 temp=temp+ +()。 i++) { if (((i))) accessed = true。 public class DBOperator { static String driverName = 。 try { (driverName).newInstance()。 } catch (IllegalAccessException e) { ()。)。 } catch (InstantiationException e) { ()。 當(dāng)用戶輸入一個種子地址到一個文本框中,然后按“爬一下”后,系統(tǒng)將用戶輸入的地址傳遞到后臺,然后從該網(wǎng)站開始爬行,直到所有的 URLs 全部抓取完畢, 如此同時,用戶可以在第二個文本框中輸入特殊關(guān)鍵字,查詢到所需要的內(nèi)容信息,系統(tǒng)將會根據(jù)用戶的關(guān)鍵字匹配數(shù)據(jù)中的內(nèi)容信息,然后再將數(shù)據(jù)輸出到前臺,用戶就可以獲得想要的信息。并且圖形界面設(shè)計的也不太盡如人意。 我們可以看到,程序有很多的地方不足,我希望在以后的工作學(xué)習(xí)中繼續(xù)完善該程序的功能和錯誤,以便提高自己的動手能力和編程的熟練程度。在每個測試周期中,測試人員和開發(fā)人員將依據(jù)預(yù)先編制好的測試大綱和準(zhǔn)備好的測試用例,對被測軟件或設(shè)備進(jìn)行完整的測試。我們以關(guān)鍵字 “ 新聞 ” 搜索 如圖 55 所示。 但是通過實現(xiàn)基本的爬蟲程序的爬行原理,我們可就基本的掌握最核心的爬蟲策略,然后我們可 以在原有的基礎(chǔ)上做出更加強(qiáng)大的爬蟲程序來,實現(xiàn)更多有意義的功能。 首先登陸 首頁,出現(xiàn) 前臺 的 界面,如圖 51 所示。 ()。,39。 } catch (ClassNotFoundException e) { ()。 static String sqlStatement = null。 import 。amp。//郵箱的//正則表達(dá)式 String temp=。 // 待隊列非空時首元素出隊列, 則 抓取 urlQueueHead = ()。 29 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 String urlString = urlStr。i。然后再進(jìn)行URL 消重處理,最后加入到 URL 等待隊列 [14]。但是有些 URLs 是通過提交表單,或者通過 javascript 來跳轉(zhuǎn)的。 k++。 當(dāng)?shù)玫竭@些完整的 URL 地址以后,我們需要對其進(jìn)行過濾。 if (indexOfa 0) return。 (temp)。amp。 beginIndex = indexOfHref + ()。 private static void parseHref(String content,String dir) throws Exception { int fromIndex = 1。我們先檢索 href=標(biāo)記,然后判斷出第 i+1 位為一個雙引號,所以我們可以截取 i+1 位到第 2 個雙引號的位置。 } 這個方法是通過調(diào)用 JAVA 里面的 URL 這個類,可以用給定的 URL 構(gòu)造這個類的一個實例,然后通過 openConnection()這個方法 得到 HTML 代碼的數(shù)據(jù)流,然后再一行一行地把數(shù)據(jù)流轉(zhuǎn)換成 String 字符串,再用 StringBuffer 將這些字符串拼接成一個完整的 HTML 代碼。 } catch (MalformedURLException e) { ()。 BufferedReader reader = null。 22 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 種子注入模塊 本模塊主要 工作 是 通過 從 給定 初始的 URL 開始抓取,初始 URL 是由人工挑選的主題站點首頁的 URL。其中 GB 和 Bigs 編碼是 8 位編碼,其特征是一個漢字用兩個 ASCII 字符來表示,而且第一個 ASCII 字符的最高一位為 1。多線程抓取機(jī)制的過程是這樣的,一個進(jìn)程負(fù)責(zé)從 URL 列表中讀取下一個待搜集的 URL,并將其放到臨界區(qū) ; 另外一組進(jìn)程 的每一個都從臨界區(qū)取出 URL,然后啟動 HTTP 連接進(jìn)行相應(yīng)處理,如圖 42 所示。任務(wù)前臺界面主要工作是將用戶輸入的 URL 通過 Servlet 傳遞到任務(wù)端。 為了達(dá)到上述目的,一個 SPIDER 必須被設(shè)計成多線程的, A 個線程并發(fā)地在網(wǎng)絡(luò)上協(xié)同工作,才有可能在盡可能短的時間內(nèi)遍歷完網(wǎng)絡(luò)中的網(wǎng)頁。 URL 信息存儲表結(jié)構(gòu)如表 36 所示??梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng)計,計算它們的互現(xiàn)信息,互信 息量體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度,當(dāng)緊密程度高于某一個閉值時,便可認(rèn)為此字組可能構(gòu)成了一個詞。這就要求在對中文文本進(jìn)行自動分析前,先將整句切割成小的詞匯單元,即中文分詞 (或中文切詞 )。使用非阻塞 Socket,一個連接,發(fā)送或接收請求都不會阻塞當(dāng)前線程,而會立刻返回。因此,一些實現(xiàn)傾向于使用進(jìn)程而不是線程,這樣當(dāng)一個進(jìn)程崩潰時,它不會破壞其他進(jìn)程的狀態(tài)。 ( 1) 多線程 為了最大限度地提高客戶端應(yīng)用程序的響應(yīng)能力,可以使用多線程。第四個方框為,解析 e 對應(yīng) HTML 獲取 URLs: nop,并刪除 e。 爬蟲的分布式處理使的速度明顯提高。如圖 34所示 [6]。實現(xiàn)該功能模塊的主要方法是 parseHref()。 圖 31 系統(tǒng)總體結(jié)構(gòu) 從圖 31 可以看到,本系統(tǒng)主要的功能模塊有:前臺用戶模塊、 后臺處理模塊 、數(shù)據(jù)庫管理模塊 等。 ( 6)多樣化和功能強(qiáng)大的開發(fā)工具支持?;旧峡梢栽谒衅脚_上的任意環(huán)境中開發(fā),在任意環(huán)境中進(jìn)行系統(tǒng)部署,在任意環(huán)境中擴(kuò)展。 ( 3)開發(fā)工具使用 Dreamweaver 搭建系統(tǒng)頁面框架。 ( 2) 高效性 : 系統(tǒng)采用多線程技術(shù)對網(wǎng)頁實現(xiàn)高效的抓取。 再判斷這些 URL 是否已經(jīng)被下載到,如果沒有則加入到 URL 等待隊列 [4]。它通過請求站點上的 HTML 文檔訪問某一站點。 系統(tǒng)功能需求 通過需求分析,確定本系統(tǒng)有以下一些基本功能: ( 1)前臺界面管理:前臺界面主要用于對用戶輸入進(jìn)行判斷處理,再將合法輸入提交到處理單元。 ( 3)系統(tǒng)測試網(wǎng)絡(luò)爬蟲的功能,修改不完善的地方,盡量做到符合基本的功能要求。而且,主題信息采集搜集的內(nèi)容單一,用戶查找時得到的冗余和無用信息也較少 [2]??梢院唵蔚恼f成是搜索引擎領(lǐng)域的行業(yè)化分工。 ( 1) 查準(zhǔn)率低 : 對任意主題,都可能很容易地包含成百上千的文檔,這會使得搜索引擎返回的文檔數(shù)過于龐大,其中很多相關(guān)性并不大,或所包含的內(nèi)容質(zhì)量不高。而文本分類,多媒體識別,海量數(shù)據(jù)挖掘,機(jī)器在線增量學(xué)習(xí),在線分類類聚,信息抽取和摘取,命名等又和實際應(yīng) 用緊密的結(jié)合成商用搜索引擎,而其強(qiáng)大的資金后盾,也促進(jìn)了 Web 搜索和人工智能行業(yè)的大力發(fā)展 。 搜索引擎的科學(xué)研究價值不僅僅體現(xiàn)在其高技術(shù)挑戰(zhàn)性,而且表現(xiàn)在其對于整個互聯(lián)網(wǎng)絡(luò)乃至民生提供的便捷性和信息高速傳達(dá)方式,對整個社會的高度的經(jīng)濟(jì)促進(jìn)作用 [1]。 通過實現(xiàn)這一爬蟲程序,可以搜集某一站點的所有 URLs,并通過得到的 URLs采 集到頁面的內(nèi)容,在從內(nèi)容中提取到需要的內(nèi)容,如郵箱地址以及頁面標(biāo)題等。本論文闡述了網(wǎng)絡(luò)爬蟲實現(xiàn)中一些主要問題:為何使用廣度優(yōu)先的爬行策略,以及如何實現(xiàn)廣度優(yōu)先爬行;系統(tǒng)實現(xiàn)過程中的數(shù)據(jù)存儲;網(wǎng)頁信息解析等。s URLs, URLs collected by and get to the page content, to extract from the content, the content, such as address and page title. And then get the Urls collected was data saved to the database to retrieve. In this paper, the application of the search engine to explore the role and status of a Web Spider search engine, web Spider functionality and design requirements. Web Spider system structure and working principle of the analysis based on study strategies and algorithms of the page crawling, parsing, etc. and use the Java implementation of a Web Spider program, its operating results analysis. Keywords: Spider, Breadth First Search, Search Engine III 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 目 錄 摘 要 ...................................................... I Abstract ................................................... II 1 緒論 現(xiàn)狀 分析 .............................................. (1) 系統(tǒng)開發(fā)背景 .......................................... (2) 系統(tǒng)意義 .............................................. (3) 論文主要的工作 ........................................ (4) 論文結(jié)構(gòu) .............................................. (4) 2 需求分析 系統(tǒng)非功能性需求 ...................................... (5) 系 統(tǒng)功能需求 .......................................... (5) 系統(tǒng)數(shù)據(jù)流程分析 ...................................... (5) 環(huán)境需求 .............................................. (8) 本章小結(jié) .............................................. (9) 3 系統(tǒng)設(shè)計 系統(tǒng)結(jié)構(gòu)設(shè)計 ......................................... (10) 爬行策略分析 ......................................... (12) 爬蟲技術(shù)分析 ......................................... (14) 數(shù)據(jù)庫設(shè)計 ........................................... (17) IV 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 本章小結(jié) ............................................. (17) 4 系統(tǒng)實現(xiàn) 系統(tǒng)功能簡介 ......................................... (18) 核心算法 ............................................. (20) 功能模塊實現(xiàn) ......................................... (21) 數(shù)據(jù)庫實現(xiàn) . .......................................... (30) 本章小結(jié) ............................................. (33) 5 系統(tǒng)測試 抓取測試 ..............
點擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1