freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡(luò)爬蟲技術(shù)探究畢業(yè)設(shè)計(jì)(存儲(chǔ)版)

2025-04-09 00:16上一頁面

下一頁面
  

【正文】 thOfWaiteQueue++。a href=“ ./science/” target=_self高清在線科幻電影專區(qū) /aa href=“ TOM365/a。像這種情況我們就直接拋棄這些 URLs。 HTML 代碼中,頁面之間的跳轉(zhuǎn),關(guān)聯(lián)是通過 href 標(biāo)簽來實(shí)現(xiàn)的。 URL 檢測(cè)模塊 該模塊主要是用于剔除非站內(nèi) URL或無法訪問的 URL,因?yàn)?截取出來的字符串,可能為相對(duì)地址或者絕對(duì)地址。 由 RFC對(duì) URL的定義可知 ,URL 的格式為 一般情況下 , 同一網(wǎng)站內(nèi)所有頁面對(duì)應(yīng) URL 的 host 是相同的 , 所以可以使用 host 匹配作為判斷超鏈?zhǔn)欠裰赶蛘就獾臉?biāo)準(zhǔn) 。 if((((39。 } urlQueueHead = new UrlNode()。 (urlString)。 while(()) {//是否有匹配的郵箱地址 temp=temp+ +()。 i++) { if (((i))) accessed = true。 public class DBOperator { static String driverName = 。 try { (driverName).newInstance()。 } catch (IllegalAccessException e) { ()。)。 } catch (InstantiationException e) { ()。 當(dāng)用戶輸入一個(gè)種子地址到一個(gè)文本框中,然后按“爬一下”后,系統(tǒng)將用戶輸入的地址傳遞到后臺(tái),然后從該網(wǎng)站開始爬行,直到所有的 URLs 全部抓取完畢, 如此同時(shí),用戶可以在第二個(gè)文本框中輸入特殊關(guān)鍵字,查詢到所需要的內(nèi)容信息,系統(tǒng)將會(huì)根據(jù)用戶的關(guān)鍵字匹配數(shù)據(jù)中的內(nèi)容信息,然后再將數(shù)據(jù)輸出到前臺(tái),用戶就可以獲得想要的信息。并且圖形界面設(shè)計(jì)的也不太盡如人意。 我們可以看到,程序有很多的地方不足,我希望在以后的工作學(xué)習(xí)中繼續(xù)完善該程序的功能和錯(cuò)誤,以便提高自己的動(dòng)手能力和編程的熟練程度。在每個(gè)測(cè)試周期中,測(cè)試人員和開發(fā)人員將依據(jù)預(yù)先編制好的測(cè)試大綱和準(zhǔn)備好的測(cè)試用例,對(duì)被測(cè)軟件或設(shè)備進(jìn)行完整的測(cè)試。我們以關(guān)鍵字 “ 新聞 ” 搜索 如圖 55 所示。 但是通過實(shí)現(xiàn)基本的爬蟲程序的爬行原理,我們可就基本的掌握最核心的爬蟲策略,然后我們可 以在原有的基礎(chǔ)上做出更加強(qiáng)大的爬蟲程序來,實(shí)現(xiàn)更多有意義的功能。 首先登陸 首頁,出現(xiàn) 前臺(tái) 的 界面,如圖 51 所示。 ()。,39。 } catch (ClassNotFoundException e) { ()。 static String sqlStatement = null。 import 。amp。//郵箱的//正則表達(dá)式 String temp=。 // 待隊(duì)列非空時(shí)首元素出隊(duì)列, 則 抓取 urlQueueHead = ()。 29 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 String urlString = urlStr。i。然后再進(jìn)行URL 消重處理,最后加入到 URL 等待隊(duì)列 [14]。但是有些 URLs 是通過提交表單,或者通過 javascript 來跳轉(zhuǎn)的。 k++。 當(dāng)?shù)玫竭@些完整的 URL 地址以后,我們需要對(duì)其進(jìn)行過濾。 if (indexOfa 0) return。 (temp)。amp。 beginIndex = indexOfHref + ()。 private static void parseHref(String content,String dir) throws Exception { int fromIndex = 1。我們先檢索 href=標(biāo)記,然后判斷出第 i+1 位為一個(gè)雙引號(hào),所以我們可以截取 i+1 位到第 2 個(gè)雙引號(hào)的位置。 } 這個(gè)方法是通過調(diào)用 JAVA 里面的 URL 這個(gè)類,可以用給定的 URL 構(gòu)造這個(gè)類的一個(gè)實(shí)例,然后通過 openConnection()這個(gè)方法 得到 HTML 代碼的數(shù)據(jù)流,然后再一行一行地把數(shù)據(jù)流轉(zhuǎn)換成 String 字符串,再用 StringBuffer 將這些字符串拼接成一個(gè)完整的 HTML 代碼。 } catch (MalformedURLException e) { ()。 BufferedReader reader = null。 22 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 種子注入模塊 本模塊主要 工作 是 通過 從 給定 初始的 URL 開始抓取,初始 URL 是由人工挑選的主題站點(diǎn)首頁的 URL。其中 GB 和 Bigs 編碼是 8 位編碼,其特征是一個(gè)漢字用兩個(gè) ASCII 字符來表示,而且第一個(gè) ASCII 字符的最高一位為 1。多線程抓取機(jī)制的過程是這樣的,一個(gè)進(jìn)程負(fù)責(zé)從 URL 列表中讀取下一個(gè)待搜集的 URL,并將其放到臨界區(qū) ; 另外一組進(jìn)程 的每一個(gè)都從臨界區(qū)取出 URL,然后啟動(dòng) HTTP 連接進(jìn)行相應(yīng)處理,如圖 42 所示。任務(wù)前臺(tái)界面主要工作是將用戶輸入的 URL 通過 Servlet 傳遞到任務(wù)端。 為了達(dá)到上述目的,一個(gè) SPIDER 必須被設(shè)計(jì)成多線程的, A 個(gè)線程并發(fā)地在網(wǎng)絡(luò)上協(xié)同工作,才有可能在盡可能短的時(shí)間內(nèi)遍歷完網(wǎng)絡(luò)中的網(wǎng)頁。 URL 信息存儲(chǔ)表結(jié)構(gòu)如表 36 所示??梢詫?duì)語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息,互信 息量體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度,當(dāng)緊密程度高于某一個(gè)閉值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這就要求在對(duì)中文文本進(jìn)行自動(dòng)分析前,先將整句切割成小的詞匯單元,即中文分詞 (或中文切詞 )。使用非阻塞 Socket,一個(gè)連接,發(fā)送或接收請(qǐng)求都不會(huì)阻塞當(dāng)前線程,而會(huì)立刻返回。因此,一些實(shí)現(xiàn)傾向于使用進(jìn)程而不是線程,這樣當(dāng)一個(gè)進(jìn)程崩潰時(shí),它不會(huì)破壞其他進(jìn)程的狀態(tài)。 ( 1) 多線程 為了最大限度地提高客戶端應(yīng)用程序的響應(yīng)能力,可以使用多線程。第四個(gè)方框?yàn)椋馕?e 對(duì)應(yīng) HTML 獲取 URLs: nop,并刪除 e。 爬蟲的分布式處理使的速度明顯提高。如圖 34所示 [6]。實(shí)現(xiàn)該功能模塊的主要方法是 parseHref()。 圖 31 系統(tǒng)總體結(jié)構(gòu) 從圖 31 可以看到,本系統(tǒng)主要的功能模塊有:前臺(tái)用戶模塊、 后臺(tái)處理模塊 、數(shù)據(jù)庫管理模塊 等。 ( 6)多樣化和功能強(qiáng)大的開發(fā)工具支持。基本上可以在所有平臺(tái)上的任意環(huán)境中開發(fā),在任意環(huán)境中進(jìn)行系統(tǒng)部署,在任意環(huán)境中擴(kuò)展。 ( 3)開發(fā)工具使用 Dreamweaver 搭建系統(tǒng)頁面框架。 ( 2) 高效性 : 系統(tǒng)采用多線程技術(shù)對(duì)網(wǎng)頁實(shí)現(xiàn)高效的抓取。 再判斷這些 URL 是否已經(jīng)被下載到,如果沒有則加入到 URL 等待隊(duì)列 [4]。它通過請(qǐng)求站點(diǎn)上的 HTML 文檔訪問某一站點(diǎn)。 系統(tǒng)功能需求 通過需求分析,確定本系統(tǒng)有以下一些基本功能: ( 1)前臺(tái)界面管理:前臺(tái)界面主要用于對(duì)用戶輸入進(jìn)行判斷處理,再將合法輸入提交到處理單元。 ( 3)系統(tǒng)測(cè)試網(wǎng)絡(luò)爬蟲的功能,修改不完善的地方,盡量做到符合基本的功能要求。而且,主題信息采集搜集的內(nèi)容單一,用戶查找時(shí)得到的冗余和無用信息也較少 [2]??梢院唵蔚恼f成是搜索引擎領(lǐng)域的行業(yè)化分工。 ( 1) 查準(zhǔn)率低 : 對(duì)任意主題,都可能很容易地包含成百上千的文檔,這會(huì)使得搜索引擎返回的文檔數(shù)過于龐大,其中很多相關(guān)性并不大,或所包含的內(nèi)容質(zhì)量不高。而文本分類,多媒體識(shí)別,海量數(shù)據(jù)挖掘,機(jī)器在線增量學(xué)習(xí),在線分類類聚,信息抽取和摘取,命名等又和實(shí)際應(yīng) 用緊密的結(jié)合成商用搜索引擎,而其強(qiáng)大的資金后盾,也促進(jìn)了 Web 搜索和人工智能行業(yè)的大力發(fā)展 。 搜索引擎的科學(xué)研究價(jià)值不僅僅體現(xiàn)在其高技術(shù)挑戰(zhàn)性,而且表現(xiàn)在其對(duì)于整個(gè)互聯(lián)網(wǎng)絡(luò)乃至民生提供的便捷性和信息高速傳達(dá)方式,對(duì)整個(gè)社會(huì)的高度的經(jīng)濟(jì)促進(jìn)作用 [1]。 通過實(shí)現(xiàn)這一爬蟲程序,可以搜集某一站點(diǎn)的所有 URLs,并通過得到的 URLs采 集到頁面的內(nèi)容,在從內(nèi)容中提取到需要的內(nèi)容,如郵箱地址以及頁面標(biāo)題等。本論文闡述了網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)中一些主要問題:為何使用廣度優(yōu)先的爬行策略,以及如何實(shí)現(xiàn)廣度優(yōu)先爬行;系統(tǒng)實(shí)現(xiàn)過程中的數(shù)據(jù)存儲(chǔ);網(wǎng)頁信息解析等。s URLs, URLs collected by and get to the page content, to extract from the content, the content, such as address and page title. And then get the Urls collected was data saved to the database to retrieve. In this paper, the application of the search engine to explore the role and status of a Web Spider search engine, web Spider functionality and design requirements. Web Spider system structure and working principle of the analysis based on study strategies and algorithms of the page crawling, parsing, etc. and use the Java implementation of a Web Spider program, its operating results analysis. Keywords: Spider, Breadth First Search, Search Engine III 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 目 錄 摘 要 ...................................................... I Abstract ................................................... II 1 緒論 現(xiàn)狀 分析 .............................................. (1) 系統(tǒng)開發(fā)背景 .......................................... (2) 系統(tǒng)意義 .............................................. (3) 論文主要的工作 ........................................ (4) 論文結(jié)構(gòu) .............................................. (4) 2 需求分析 系統(tǒng)非功能性需求 ...................................... (5) 系 統(tǒng)功能需求 .......................................... (5) 系統(tǒng)數(shù)據(jù)流程分析 ...................................... (5) 環(huán)境需求 .............................................. (8) 本章小結(jié) .............................................. (9) 3 系統(tǒng)設(shè)計(jì) 系統(tǒng)結(jié)構(gòu)設(shè)計(jì) ......................................... (10) 爬行策略分析 ......................................... (12) 爬蟲技術(shù)分析 ......................................... (14) 數(shù)據(jù)庫設(shè)計(jì) ........................................... (17) IV 信息科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位論文 本章小結(jié) ............................................. (17) 4 系統(tǒng)實(shí)現(xiàn) 系統(tǒng)功能簡介 ......................................... (18) 核心算法 ............................................. (20) 功能模塊實(shí)現(xiàn) ......................................... (21) 數(shù)據(jù)庫實(shí)現(xiàn) . .......................................... (30) 本章小結(jié) ............................................. (33) 5 系統(tǒng)測(cè)試 抓取測(cè)試 ..............
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1