正文內(nèi)容

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文-wenkub.com

2024-11-19 16:36 本頁面

　　

【正文】 she did appear to be as normal as a newborn baby ever looks. ... While we were taking turns to look at her somebody started to ring the stable bell in the customary way. Everyone on the farm stopped work, and very soon we were all assembled in the kitchen for prayers of thanksgiving. Two, or it may have been three, days after Petra was born I happened upon a piece of my family39。d for an unconscionable time while he examined the baby in minutest detail. At last, however, he emerged, with an expressionless face. In the littleused sittingroom he sat down at the table and fussed for a while about getting a good point on his quill. At last he took a form f rom his pouch, and in a slow, deliberate hand wrote that he officially found the child to be a true female human being, free from any detectable form of deviation. He regarded that thoughtfully for some moments, as though not perfectly satisfied. He let his hand hesitate before he actually dated and signed it, then he sanded it carefully, and handed it to my enraged father, still with a faint air of uncertainty. He had, of course, no real doubt in his mind, or he would have called for another opinion。在本文的最后，我要再次感謝我的導(dǎo)師，同時也向與老師一樣辛勤育人，無私付出的各位導(dǎo)師、師長致以深深的謝意。導(dǎo)師是不僅是我學(xué)業(yè)上的導(dǎo)師，更是生活中讓我敬佩的學(xué)者、長者。由于本人學(xué)習(xí)軟件工程的時間不長，程序的設(shè)計方面不夠規(guī)范，有些簡單的想法卻用了很長的代碼來實現(xiàn)造成了代碼冗余，還有部分想法沒有實現(xiàn)。六、結(jié)論本系統(tǒng)開發(fā)過程中用到了許多學(xué)過的知識，具體說來有數(shù)據(jù)結(jié)構(gòu)、 java 語言程序設(shè)計、軟件工程、優(yōu)化理論等等。 (result:)。 } int max=(args[1])。 (該字段存在于： +url)。j()。 HtmlParser parser=new HtmlParser(pageContents)。//提示搜索過的 url String pageContents = downloadPage(verifiedUrl)。 // Convert string url to URL object. URL verifiedUrl = verifyUrl(url)。 (startUrl)。 (Missing search String)。 LinkedHashSet String toCrawlList = new LinkedHashSet String()。 (a href=+url++bb+/a)。 } } else { if ((()) == 1) { return false。 } else{ int aa=(terms)。 String terms =searchString。 } // 搜索下載 Web 頁面的內(nèi)容，判斷在該頁面內(nèi)有沒有指定的搜索字符串 private boolean searchStringMatches(String url,String pageContents, String searchString, boolean caseSensitive){ String searchContents = pageContents。 } // 解析頁面并找出鏈接 private ArrayList String retrieveLinks(URL pageUrl, String pageContents, HashSet crawledList, boolean limitHost) { ArrayList String linkList = new ArrayList String()。//返回整個網(wǎng)頁字符 } catch (Exception e) { } return null。 StringBuffer pageBuffer = new StringBuffer()。 if ((disallow)) { return false。 //(文件 getFile()=+file)。 } } // 緩存此主機(jī)不允許訪問的路徑。 int mentIndex = ()。 // 讀 robot 文件，創(chuàng)建不允許訪問的路徑列表。 // 如果還沒有緩存 ,下載并緩存。 } return verifiedUrl。 } //檢測 URL 格式 private URL verifyUrl(String url) { // 只處理 HTTP URLs. if (!().startsWith( return null。 =maxUrl。//要搜索的字符串 (英文 ) boolean caseSensitive=false。//錯誤信息 ArrayList String result=new ArrayList String()。 import .*。爬蟲的設(shè)計實現(xiàn) package crawer。 (3)分詞技術(shù)。它是 WWW 上數(shù)據(jù)傳輸?shù)臉?biāo)準(zhǔn)協(xié)議。如果僅僅是從遠(yuǎn)程獲得數(shù)據(jù)，實現(xiàn)一個 robot 并不很難。 Robot 的運(yùn)行方式是這樣的：從一個或一組 URL 開始，訪問該 URL 并進(jìn)行本地索引同時記錄該 URL 所指 HTML 文件中所有新的 URL 錨鏈 (anchor)；然后再以這些新的 URL為起始點，繼續(xù)進(jìn)行本地索引，直到再沒有滿足條件的新 URL 為止。 } } 網(wǎng)絡(luò)爬蟲的實現(xiàn) 爬蟲結(jié)構(gòu)分析網(wǎng)絡(luò)爬蟲沿著 WWW 文件間的鏈接在網(wǎng)上漫游，記錄 URL、文件的簡明概要、關(guān)鍵字或索引。 } } catch (StringIndexOutOfBoundsException e) {} return null。 for (i2 = i。, i)。39。) return null。 if (i 0) return null。 } catch (MalformedURLException e) { ()。 if (src == null) return。 } } /**分析 a分析 . */ void analyzeAnchor(String anchor) { String href = extract(anchor, href)。 String first_word = ().toLowerCase()。 (0)。: if ((j) == 39。39。 j i。 StringBuffer sb = new StringBuffer()。 import 。 import 。 import 。 //html 文件解析類 import 。同一時間一個 URL 只能在一個隊列中，這也叫做 URL 的狀態(tài)，這是因為人們常常使用狀態(tài)圖描述計算機(jī)程序，程序按照狀態(tài)圖從一個狀態(tài)變換到下一個狀態(tài)實際上，當(dāng)發(fā)現(xiàn) URL(內(nèi)鏈接 )時，移動 Spider 會檢查該 URL 是否已經(jīng)存在于完成隊列或錯誤隊列中，如果已經(jīng)存在于上述兩種隊列的任何一個隊列中，那么移動 Spider 將不會對此 URL 進(jìn)行任何處理。如果在處理某一頁面時發(fā)生錯誤，它的 URL 將被加入到錯誤隊列，該URL 到達(dá)這一隊列后將不再移人其他隊列。 (2)處理隊列 (Proces— sUI )。頁面隊列中保存的頁面的 URL 都是屬于內(nèi)鏈接。一個元素的描述一般由開始標(biāo)記 (Start Tag)、內(nèi)容 (Content)、結(jié)束標(biāo)記 (End Tag)所組成。 } //Clean up resources public void destroy() { } } 網(wǎng)頁的解析實現(xiàn) 網(wǎng)頁的分析網(wǎng)頁文檔作為一種半結(jié)構(gòu)化文本是一種界于自由文本和結(jié)構(gòu)化文本之間的數(shù)據(jù)，它通常沒有嚴(yán)格的格式。//輸出結(jié)果 } if(()==0){ (p對不起 ,沒有找到結(jié)果 /p)。 for(int i=0。 (p注意默認(rèn)起始站點為： 10/p)。 //啟動定時器，在時間內(nèi)檢查是否有結(jié)果，并顯示 myresult=new ArrayList String()。 String search=new String(bytes,GB2312)。 if (var0 == null) { var0 = 。 public Timer timer。 import .*。具體代碼設(shè)計為： package crawer。一是寬度或深度優(yōu)先搜索策略：搜索引擎所用的第一代網(wǎng)絡(luò)爬蟲主要是基于傳統(tǒng)的圖算法 , 如寬度優(yōu)先或深度優(yōu)先算法來索引整個 Web, 一個核心的 U RL 集被用來作為一個種子集合 , 這種算法遞歸的跟蹤超鏈接到其它頁面 , 而通常不管頁面的內(nèi)容 , 因為最終的目標(biāo)是這種跟蹤能覆蓋整個 W eb. 這種策略通常用在通用搜索引擎中 ,因為通用搜索引擎獲得的網(wǎng)頁越多越好 , 沒有特定的要求 . 二是寬度優(yōu)先搜索算法 (又稱廣度優(yōu)先搜索 ) 是最簡便的圖的搜索算法之一 , 這一算法也是很多重要的圖的算法的原型 .單源最短路徑算法和 P rim 最小生成樹算法都采用了和寬度優(yōu)先搜索類似的思想 .寬度優(yōu)先搜索算法是沿著樹的寬度遍歷樹的節(jié)點 , 如果發(fā)現(xiàn)目標(biāo) , 則算法中止 . 該算法的設(shè)計和實現(xiàn)相對簡單 , 屬于盲目搜索 . 在目前為覆蓋盡可能多的網(wǎng)頁 , 一般使用寬度優(yōu)先搜索方法 . 也有很多研究將寬度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲中 . 其基本思想是認(rèn)為與初始 U RL 在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大 . 另外一種方法是將寬度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用 , 先用廣度優(yōu)先策略抓取網(wǎng)頁 , 再將其中無關(guān)的網(wǎng)頁過濾掉 . 這些方法的缺點在于 , 隨著抓取網(wǎng)頁的增多 , 大量的無關(guān)網(wǎng)頁將被下載并過濾 , 算法的效率將變低。二是穩(wěn)定性， servlet 能夠維護(hù)每個請求的狀態(tài)，一旦加載了 servlet，她就駐留在內(nèi)存中，對收到的請求提供服務(wù)。它提供一個中心位置來處理全部的終端請求。 servlet 只需 Web 服務(wù)器加載一次 ,后續(xù)又用到這個 servlet，就不需要再加載。 Servlet 代碼的主要作用是為了增強(qiáng) Java服務(wù)器端的功能，它運(yùn)行在服務(wù)器端，用于接收并且處理瀏覽器客戶端發(fā)出的請求，該請求是通過配置文件的相關(guān)配置進(jìn)行轉(zhuǎn)發(fā)。 JBuilder 環(huán)境開發(fā)程序方便，它是純的 Java 開發(fā)環(huán)境，適合企業(yè)的 J2EE 開發(fā)。 4） Jbuilder 能用 Servlet 和 JSP 開發(fā)和調(diào)試動態(tài) Web 應(yīng)用。 Jbuilder 的特點 :： 1） Jbu

點擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文-wenkub.com

元搜索引擎的設(shè)計與實現(xiàn)-資料下載頁

一個小型搜索引擎的設(shè)計與實現(xiàn)—免費畢業(yè)設(shè)計論文-資料下載頁

淺議seo搜索引擎優(yōu)化_畢業(yè)設(shè)計論文-資料下載頁

全文搜索引擎的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)-資料下載頁

全文搜索引擎的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

站內(nèi)全文搜索引擎的設(shè)計與實現(xiàn)-資料下載頁

畢業(yè)論文搜索引擎的研究與實現(xiàn)-資料下載頁

站內(nèi)全文搜索引擎的設(shè)計與實現(xiàn)-資料下載頁

一個小型搜索引擎的設(shè)計與實現(xiàn)—計算機(jī)畢業(yè)設(shè)計論文-資料下載頁

基于lucene的全文搜索引擎設(shè)計-資料下載頁

基于lucene的全文搜索引擎設(shè)計-資料下載頁

聚焦搜索引擎的設(shè)計與開發(fā)查詢系統(tǒng)設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

全文搜索引擎的設(shè)計與實現(xiàn)-外文翻譯-資料下載頁

基于internet的全文搜索引擎的模型設(shè)計畢業(yè)論文-資料下載頁

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文(完整版)

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文(更新版)

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文(專業(yè)版)

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文(留存版)