freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于java的搜索引擎設(shè)計與實(shí)現(xiàn)本科(設(shè)計)word格式-資料下載頁

2024-12-07 09:41本頁面

【導(dǎo)讀】研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含。任何其他個人或集體已經(jīng)發(fā)表或撰寫過的研究成果。本聲明的法律結(jié)果由本人承擔(dān)。規(guī)定,即:學(xué)校有權(quán)保留、送交論文的復(fù)印件,允許論文被查閱,網(wǎng)絡(luò)中資源豐富,但是互聯(lián)網(wǎng)上海量的信息,任何一個人都不能全部瀏覽,為了獲取我們需要的信息,由此就產(chǎn)生了搜索引擎。而如今搜索引擎無法滿足增。爬蟲是搜索引擎的基礎(chǔ),是最底層的技術(shù)。所以研究網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)技術(shù)并研究。其應(yīng)用十分重要。論文詳細(xì)說明了如何用java語言實(shí)現(xiàn)一個簡易搜索引擎,同。時描述了搜索引擎的原理,系統(tǒng)功能,簡要介紹了系統(tǒng)開發(fā)的背景,開發(fā)環(huán)境,系統(tǒng)的需求分析,以及功能的設(shè)計與實(shí)現(xiàn)。

  

【正文】 { //處理絕對地址 if((./)) { link= ())。 } else if((../)) { link = } else { String file = ()。 if((39。/39。)==1) { link = +/+link。 } else { String path = (0, (39。/39。)+1)。 link = } } 當(dāng)?shù)玫竭@些完整的 URL 地址以后,需要對其進(jìn)行過濾。很多 URL 它們指向的文件不是HTML文件,而是一些 CSS文件,或者 RAR包文件,或者只是接續(xù)“ ”符號,代表只是調(diào)用一段 javascript代碼。像這種情況就直接拋棄這些 URLs。 下面一段代碼通過檢索 URL字符串中是否包含 .css、 .rar、 .zip這些后綴 來進(jìn)行判斷。 // 如果 url中包含以下 字符串,則不加入隊列 if (().contains(.css) || ().contains(.rar) || () || (.zip) || (javascript)) { return false。 } 過濾完后的 URLs,再判斷它為站內(nèi) URL或者 為站外 URL。一般情況下同一網(wǎng)站內(nèi)的 URL的 host名因該是一致的。所以可以通過判斷 URLs 中是否包含站點(diǎn) host就可以了。如果為站內(nèi) URL則加入到緩存隊列。 String startHost = ().toLowerCase()。 int indexofpoint。 山東財經(jīng)大學(xué)學(xué)士學(xué)位論文 16 if((indexofpoint=(.))!= 1) { startHost=(indexofpoint+1)。 } String pageHost = ().toLowerCase()。 if((indexofpoint=(.))!= 1) { pageHost = (indexofpoint+1)。 } if(!(startHost)) { if(! (verifiedLink)) { (verifiedLink)。 String notHostLinkAction = getTimeStamp()。 addResult(notHostLinkAction, 鏈接不屬于主機(jī) ,verifiedLink)。 } continue。 } 另一種方法可利用正則表達(dá)式,通過 pattern類、 matcher類實(shí)現(xiàn),正則表達(dá)式功能強(qiáng)大能得到任何想得到的網(wǎng)頁數(shù)據(jù)如獲得鏈 接、標(biāo)題等內(nèi)容: string strRef =title([^]*)/title 具體如下, 設(shè)置查找的匹配模式 Pattern p =(a\\s+href\\s*=\\s*\?(.*?)[\|],)。 Matcher m= (pageContents)。 創(chuàng)建數(shù)組 linkList存放匹配到的字符串 ArrayList linkList = new ArrayList()。 while(()) { //處理匹配的鏈接,篩選合格的 (link)。 String urlActionTime = getTimeStamp()。 addResult(urlActionTime,添加到隊列 ,link)。 } return (linkList)。 //具體篩選過程跳過各種不符合的鏈接 String link = (1).trim()。 //跳過空鏈接 if(()1) { continue。 } 山東財經(jīng)大學(xué)學(xué)士學(xué)位論文 17 //跳過鏈到本頁面內(nèi)鏈接。 if((0)==39。39。) { continue。 } //跳過 mailto鏈接 if((mailto)!= 1) { continue。 } //跳過腳本鏈接 if(().indexOf(javascript)!=1) { continue。 } //如果限定主機(jī),排除那些不合條件的 URL if (limitHost amp。amp。 !().toLowerCase().equals( ().toLowerCase())) { continue。 } // 跳過那些已經(jīng)處理的鏈接 . if ((link)) { continue。 } (link)。 } } //鏈接規(guī)格化 URL verifiedLink = verifyUrl(link)。 if(verifiedLink == null) { continue。 } //對頁面大小的限制: int size。 if((size=().getContentLength())1024*20) { if(!(verifiedLink)) { (verifiedLink)。 String gt20kbLinkAction = getTimeStamp()。 addResult(gt20kbLinkAction,頁面大小 20 KB,verifiedLink)。 } 山東財經(jīng)大學(xué)學(xué)士學(xué)位論文 18 continue。 } (四) ROBOTS 文件 是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。 文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。當(dāng)一個搜索蜘蛛訪問一個站點(diǎn)時,它會首先檢查該站點(diǎn)根目錄下是否存在 ,如果存在,搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。 必須放置在一個站點(diǎn)的根目錄下,而且文件名必須全部小寫。最簡單的 文件使用兩條規(guī)則: (1) UserAgent:適用下列規(guī)則的漫游 (2) Disallow:要攔截的網(wǎng)頁 Allow 允許語法是和 Disallow 結(jié)合起來使用的, 一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片和背景圖片等等。如: Useragent: * Disallow: /admin/ 后臺管理文件 Disallow: /require/ 程序文件 Disallow: /attachment/ 附件 Disallow: /images/ 圖片 Disallow: /data/ 數(shù)據(jù)庫文件 Disallow: /template/ 模板文件 Disallow: /css/ 樣式表文件 Disallow: /lang/ 編碼文件 Disallow: /script/ 腳本文件 允許所有搜索引擎訪問網(wǎng)站的所有部分或者建立一個空白的文本文檔,命名為 Useragent: * Disallow: // 檢測 robot是否允許訪問給出的 URL. private boolean isRobotAllowed(URL urlToCheck) { String host = null。 try { host = (String)().toLowerCase()。//獲取給出 RUL的主機(jī) } catch(NullPointerException e) { } // 獲取主機(jī)不允許搜索的 URL緩存 ArrayList disallowList = (ArrayList)(host)。 // 如果還沒有緩存 ,下載并緩存。 山東財經(jīng)大學(xué)學(xué)士學(xué)位論文 19 if(disallowList == null) { disallowList = new ArrayList()。 try { URL robotsFileUrl = new URL( BufferedReader reader = new BufferedReader(new InputStreamReader(()))。 // 讀 robot文件,創(chuàng)建不允許訪問的路徑列表 String line。 while((line=())!=null) { if((Disallow:)== 0) {//是否包含 Disallow: String disallowPath =(Disallow:.length())。//獲取不允許訪問路徑 // 檢查是否有注釋 int mentIndex = ()。 if(mentIndex != 1) { (0,mentIndex)。//去掉注釋 } disallowPath = ()。 (disallowPath)。 } } }catch(Exception e) {return true。//web站點(diǎn)根目錄下沒有 ,返回真 } } String file =()。 for(int i= 0。i()。i++) { String disallow = (String)(i)。 if((disallow)) {return false。} } return true。 } (五)信息輸出 private void writePage(String bufferString,URL pageUrl,String fileName) { String path= ()+ ()+tmp+ 山東財經(jīng)大學(xué)學(xué)士學(xué)位論文 20 ()。 try { PrintWriter pw = new PrintWriter( new FileWriter( path+fileName+.txt ) )。 (())。 (bufferString)。 ( )。 }catch(IOException e){ } } 八、結(jié)束語 本論文對 java 實(shí)現(xiàn)簡單的搜索引擎做了比較詳細(xì)的介紹,對 inter 原理進(jìn)行了簡要的說明,讓讀者能輕松了解 工作機(jī)制,以及網(wǎng)絡(luò)爬蟲系統(tǒng)統(tǒng)是如何實(shí)現(xiàn)網(wǎng)頁的抓取的。 經(jīng)過 2個多月的開發(fā),已經(jīng)實(shí)現(xiàn)了小型搜索引擎,本系統(tǒng)還可以經(jīng)過改造,抓取其他的信息。由于本人對程序開發(fā)也只是處在一個起步階段,還有很多工作有待在以后的學(xué)習(xí)和研究中去實(shí)現(xiàn)。 參考文獻(xiàn) [1] 徐寶文 張衛(wèi)豐 . 搜索引擎與信息獲取技術(shù) [M]. 北京:清華大學(xué)出版社, 2021, 04. [2] 李曉明 閆宏飛 王繼民 . 搜索引擎:原理、技術(shù)與系統(tǒng) [M]. 北京: 科學(xué)出版社 , 2021, [3] 盧亮 張博文 . 搜索引擎原理、實(shí)踐與應(yīng)用 [M]. 北京: 電子工業(yè)出版社 , 2021, 09. [4] 羅旭 . 主題搜索引擎的設(shè)計與實(shí)現(xiàn) [M]. 北京: 科學(xué)出版社 ,2021, 03. [5] 聶哲 . 基于 WEB的面向主題搜索引擎的設(shè)計與實(shí)現(xiàn) [J].計算機(jī)工程與設(shè)計, 2021, 02. [6] 佘正平 . 搜索引擎的關(guān)鍵詞分析與處理 [J].情報探索, 2021, 05. [7] 車東 . 基于 Java的全文搜索引擎 Lucene[M]. 北京: 電子工業(yè)出版社 , 2021, 05. [8] 何會民 韓東霞 . 基于 Lucene的網(wǎng)絡(luò)新聞搜索引擎研究與實(shí)現(xiàn) [J]. 商場現(xiàn)代化, 2021, [9] 曾偉輝 . 深層網(wǎng)絡(luò)爬蟲研究綜述 [J]. 計算機(jī)系統(tǒng)應(yīng)用, 2021, 05. [10] 房志峰 . 中文搜索引擎 中的分詞技術(shù)研究 [J]. 科學(xué)技術(shù)與工程 .2021, 09. [11] ??藸? 著(美 ) ,陳昊鵬 譯 . JAVA編程思想 [M]. 北京:機(jī)械工業(yè)出版社, 2021, 06. 致謝 經(jīng)過這個學(xué)期的畢業(yè)設(shè)計,我嘗試到了編程的“痛苦”和成功的喜悅。 我在畢業(yè)設(shè)計期間,得到 指導(dǎo)教師林培光老師 的精心指導(dǎo), 林老師 治學(xué)嚴(yán)謹(jǐn),
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1