freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于java的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)本科(設(shè)計(jì))word格式-wenkub.com

2024-12-03 09:41 本頁面
   

【正文】 參考文獻(xiàn) [1] 徐寶文 張衛(wèi)豐 . 搜索引擎與信息獲取技術(shù) [M]. 北京:清華大學(xué)出版社, 2021, 04. [2] 李曉明 閆宏飛 王繼民 . 搜索引擎:原理、技術(shù)與系統(tǒng) [M]. 北京: 科學(xué)出版社 , 2021, [3] 盧亮 張博文 . 搜索引擎原理、實(shí)踐與應(yīng)用 [M]. 北京: 電子工業(yè)出版社 , 2021, 09. [4] 羅旭 . 主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) [M]. 北京: 科學(xué)出版社 ,2021, 03. [5] 聶哲 . 基于 WEB的面向主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) [J].計(jì)算機(jī)工程與設(shè)計(jì), 2021, 02. [6] 佘正平 . 搜索引擎的關(guān)鍵詞分析與處理 [J].情報(bào)探索, 2021, 05. [7] 車東 . 基于 Java的全文搜索引擎 Lucene[M]. 北京: 電子工業(yè)出版社 , 2021, 05. [8] 何會(huì)民 韓東霞 . 基于 Lucene的網(wǎng)絡(luò)新聞搜索引擎研究與實(shí)現(xiàn) [J]. 商場(chǎng)現(xiàn)代化, 2021, [9] 曾偉輝 . 深層網(wǎng)絡(luò)爬蟲研究綜述 [J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2021, 05. [10] 房志峰 . 中文搜索引擎 中的分詞技術(shù)研究 [J]. 科學(xué)技術(shù)與工程 .2021, 09. [11] ??藸? 著(美 ) ,陳昊鵬 譯 . JAVA編程思想 [M]. 北京:機(jī)械工業(yè)出版社, 2021, 06. 致謝 經(jīng)過這個(gè)學(xué)期的畢業(yè)設(shè)計(jì),我嘗試到了編程的“痛苦”和成功的喜悅。 ( )。 } (五)信息輸出 private void writePage(String bufferString,URL pageUrl,String fileName) { String path= ()+ ()+tmp+ 山東財(cái)經(jīng)大學(xué)學(xué)士學(xué)位論文 20 ()。i()。 (disallowPath)。 while((line=())!=null) { if((Disallow:)== 0) {//是否包含 Disallow: String disallowPath =(Disallow:.length())。 // 如果還沒有緩存 ,下載并緩存。最簡(jiǎn)單的 文件使用兩條規(guī)則: (1) UserAgent:適用下列規(guī)則的漫游 (2) Disallow:要攔截的網(wǎng)頁 Allow 允許語法是和 Disallow 結(jié)合起來使用的, 一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺(tái)管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片和背景圖片等等。 } (四) ROBOTS 文件 是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。 if((size=().getContentLength())1024*20) { if(!(verifiedLink)) { (verifiedLink)。 } (link)。 } //如果限定主機(jī),排除那些不合條件的 URL if (limitHost amp。39。 //具體篩選過程跳過各種不符合的鏈接 String link = (1).trim()。 while(()) { //處理匹配的鏈接,篩選合格的 (link)。 } continue。 if((indexofpoint=(.))!= 1) { pageHost = (indexofpoint+1)。 String startHost = ().toLowerCase()。 } 過濾完后的 URLs,再判斷它為站內(nèi) URL或者 為站外 URL。很多 URL 它們指向的文件不是HTML文件,而是一些 CSS文件,或者 RAR包文件,或者只是接續(xù)“ ”符號(hào),代表只是調(diào)用一段 javascript代碼。 } else { String path = (0, (39。 } else if((../)) { link = } else { String file = ()。需要將其轉(zhuǎn)化為絕對(duì)地址。 } } haveHref = (href)。 == (0)) { html_text = (1)。 // HTML中是否還含有 href標(biāo)簽 boolean haveHref = (href)。就去檢索空格和 標(biāo)簽,以下標(biāo)較小的字符作為截取 URL的結(jié)束標(biāo)記。當(dāng)完成這一步操作后,原字符串被截取從“ class=”開始。截取過后的 href標(biāo)記就剔除它與它前面的部分,以便而后的操作可以繼續(xù)檢索 href標(biāo)記,直到正個(gè) HTML代碼中所有的 href標(biāo)記都被解析過后,操作終止。 } catch(Exception e) { return null。 String line。 } catch(ClassCastException e) { } //下載頁 面返回 html內(nèi)容 //爬取頁面鏈接返回 links //添加到 links } 如果沒有得到 URL就繼續(xù)向 URL等待隊(duì)列申請(qǐng)。 while(crawling amp。 //添加鏈接 (links)。 //若成功下載調(diào)用獲取連接函數(shù) if(pageContents != null amp。 String processUrlActionTime = getTimeStamp()。 if(!isRobotAllowed(verifiedUrl)) { continue。 } catch(ClassCastException e) 山東財(cái)經(jīng)大學(xué)學(xué)士學(xué)位論文 12 { } } //從待爬隊(duì)列中刪除該 url (url)。amp。 }catch(Exception e) {} } //具體爬行代 碼 private void crawlAction(String startUrl,int maxUrls) { //建立 url隊(duì)列 //加入初始 url String urlActionTime = getTimeStamp()。 (完成 )。第二種方法這個(gè)類中必須要實(shí)現(xiàn)重寫 run()這個(gè)方法。去除不合格 url,對(duì)合格 url規(guī)格化。 (三)各功能劃分 crawl():爬蟲線程啟動(dòng)。如果獲取到的 URL為相對(duì)地址,需要轉(zhuǎn)換為絕對(duì)地址,然后淘汰站外 URLs,山東財(cái)經(jīng)大學(xué)學(xué)士學(xué)位論文 10 錯(cuò)誤 URLs 或者不能解析的 URL地址。 (二)系統(tǒng)設(shè)計(jì) 方案 (1) 指定初始 URL并加入到 URL等待隊(duì)列。 (五)運(yùn)行需求 本設(shè) 計(jì)運(yùn)行需求: (1)硬件環(huán)境需求 ,Inter網(wǎng)絡(luò)連接 (2)軟件環(huán)境 ,該系統(tǒng)使用 Java語言開發(fā) ,要求 JDK、 eclipse,操作系統(tǒng) ,window xp 、 linux。 (二)功能需求 本設(shè)計(jì)要實(shí)現(xiàn)的功能: (1)能夠?qū)?Inter上的網(wǎng)頁內(nèi)容、標(biāo)題、鏈接等信息按鏈?zhǔn)绞占?(2)能夠?qū)崿F(xiàn)一定鏈接深度的網(wǎng)頁收集 ,也就是在 Inter 上實(shí)現(xiàn)一定的 URL 級(jí)的數(shù)據(jù)收錄。 表單標(biāo)簽:表單是 Web頁面中可以輸入數(shù)據(jù)的單元。 超連接標(biāo)簽:超連接定義了 WWW 通過 Inter鏈接文檔的功能。它提供了線性和嵌套兩種方式來解析網(wǎng)頁,主要用于 html 網(wǎng)頁的轉(zhuǎn)換 (Transformation) 以及網(wǎng)頁內(nèi)容的抽取 (Extraction)。 當(dāng)今的 Inter 上面有數(shù)億記的網(wǎng)頁,越來 越多應(yīng)用程序?qū)⑦@些網(wǎng)頁作為分析和處理的數(shù)據(jù)對(duì)象。 要從 URL 讀取內(nèi)容,可以用 URL 類非常容易的實(shí)現(xiàn)。其 中兩個(gè) 主要 的類 是 URL 和 URLConnection。低層 API 可以讓你直接訪問網(wǎng)絡(luò)協(xié)議,但是為此你不得不使用低層的 TCP 套接字和 UDP 數(shù)據(jù)包。 Java的核心可以分為兩個(gè)部分,一個(gè)是 Java平臺(tái),而另一個(gè)是 Java語言。所有這些類型在 MIME Inter郵件協(xié)議上模型化,即 Web服務(wù)器告訴 Web瀏覽器該文件所具有的種類,是 HTML 文檔、 GIF 格式圖像、聲音文件還是獨(dú)立的應(yīng)用程序。 HTTP遵循請(qǐng)求 (Request)/應(yīng)答 (Response)模型。相反,服務(wù)器重新發(fā)送這個(gè)對(duì)象,因?yàn)樗呀?jīng)徹底忘記早先做過什么。該機(jī)制迫使每個(gè)新的 TCP連接一開始以相對(duì)緩慢的速率傳輸數(shù)據(jù),然而只要網(wǎng)絡(luò)不擁塞,每個(gè)連接可以迅速上升到相對(duì)較高的速率。 TCP 給 HTTP 提供一個(gè)可靠的數(shù)據(jù)傳輸服務(wù),這意味著由客戶發(fā)出的每個(gè) HTTP請(qǐng)求消 息最終將無損地到達(dá)服務(wù)器,由服務(wù)器發(fā)出的每個(gè) HTTP響應(yīng)消息最終也將無損地到達(dá)客戶。如前所述,客戶端套接字是客戶進(jìn)程和 TCP 連接之間的“門”,服務(wù)器端套接字是服務(wù)器進(jìn)程和同一 TCP連接之間的“門”。 H1TP/ 與HTTP/,運(yùn)行 web服務(wù)器可以與運(yùn)行 “對(duì)話”,運(yùn)行 Web服務(wù)器“對(duì)話”。當(dāng)用戶請(qǐng)求一個(gè) Web頁面 (譬如說點(diǎn)擊某個(gè)超鏈接 )時(shí),瀏覽器把請(qǐng)求該頁面中各個(gè)對(duì)象的 HTTP請(qǐng)求消息發(fā)送給服務(wù)器。運(yùn) 行在不同端系統(tǒng)上的客戶程序和服務(wù)器程序通過交換 HTTP消息彼此交流。例如,“ colou? r”可以匹配colour 或 color; *:星號(hào)代表前面的字符可以不出現(xiàn),也可以出現(xiàn)一次或者多次。例如, (1)替換 |:數(shù)值分隔符代表替換。正則表達(dá) 式,是指一個(gè)用來描述或者匹配一系列符合某個(gè)句法規(guī)則的字符串的多個(gè)字符串。這一過程一直進(jìn)行到已發(fā)現(xiàn)從源結(jié)點(diǎn)可達(dá)的所有結(jié)點(diǎn)為止。而寬度優(yōu)先遍歷會(huì)以最快的速度到達(dá)這個(gè)網(wǎng)頁。 (3) 處理完畢 后,再次從 TODO 表中取得一條鏈接,直接放入 Visited 表中。 山東財(cái)經(jīng)大學(xué)學(xué)士學(xué)位論文 5 圖 31寬度優(yōu)先爬蟲過程 初始的 URL 地址是爬蟲系統(tǒng)中提供的種子 URL(一般在系統(tǒng)的配置文件中指定 )。整個(gè)的寬度優(yōu)先爬蟲過程就是從一系列的種子節(jié)點(diǎn)開始,把這些網(wǎng)頁中的“子節(jié)點(diǎn)” (也就是超鏈接 )提取出來,放入隊(duì)列中依次進(jìn)行抓取。每個(gè)鏈接對(duì)應(yīng)一個(gè) HTML 頁面或者其他文件 (word、 excel、 pdf、 jpg 等 ),在這些文件中,只有 HTML 頁面有相應(yīng)的“子節(jié)點(diǎn)”,這些“子節(jié)點(diǎn)”就是 HTML 頁面上對(duì)應(yīng)的超鏈接。而實(shí)際的爬蟲項(xiàng)目是從一系列的種子鏈接開始的。 (5) 若 V 的鄰接頂點(diǎn) col 未被訪問過,則 col 進(jìn)隊(duì)列。具體的算法如下所示: (1) 頂點(diǎn) V 入隊(duì)列。但是深度優(yōu)先遍歷可能會(huì)在深度上過“深”地遍歷或者陷入“黑洞”,大多數(shù)爬蟲都不采用這種方式?;ヂ?lián)網(wǎng)可以看成一個(gè)超級(jí)大的“圖”,而每個(gè)頁面可以看作是一個(gè)“節(jié)點(diǎn)”。只需在項(xiàng)目中引入 包,就可以模擬 IE 來獲取網(wǎng)頁內(nèi)容。 在實(shí)際的項(xiàng)目中,網(wǎng)絡(luò)環(huán)境比較復(fù)雜,因此,只用 包中的 API 來模擬 IE 客戶端的工作,代碼量非常大。它把請(qǐng)求和響應(yīng)封裝為流。 (二 ) 指定 URL獲取網(wǎng)頁 根據(jù)給定的 URL 來抓取網(wǎng)頁。 代表存放在主機(jī) 上的 pub/files/目錄下的一個(gè)文件,文件名是。 其計(jì)算機(jī)域名為 。 第一部分和第二部分用“ ://”符 號(hào)隔開,第二部分和第三部分用“ /”符號(hào)隔開 ,第一部分和第二部分是不可缺少的,第三部分有時(shí)可以省略。它是 Uniform Resource Locator 的縮寫,譯為“統(tǒng)一資源定位符”。同時(shí),搜索技術(shù)將更加智能化,可搜索資源將更加廣泛,搜索方式也將更加便捷有效,為用戶使用搜索引擎獲取信息獲得更好的體驗(yàn)。搜索引擎根據(jù)用戶鍵入的信息進(jìn)行匹配、排序和顯示。搜索引擎根據(jù)用戶鍵入的信息,根據(jù)預(yù)先設(shè)定的規(guī)則進(jìn)行簡(jiǎn)單的匹配、排序和顯示。 搜索引擎技術(shù)伴隨著 WWW的發(fā)展是引人注目的。 到了 1993 年, WWW 的技術(shù)有了突破性的進(jìn)展,它解決了遠(yuǎn)程信息服務(wù)中的文字顯示、數(shù)據(jù)連接以及圖像傳遞的問題,使得 WWW成為 Inter上最為流行的信息傳播方式。 (三)搜索引擎技術(shù)發(fā)展 長(zhǎng)期以來,人們只是通過傳統(tǒng)的媒體(如電視、報(bào)紙、雜志和廣播等)獲得信息。 全文搜索引擎通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。真正意義上的搜索引擎,通常指的是 收集了因特網(wǎng)上幾千萬到幾十億個(gè)網(wǎng)頁并對(duì)網(wǎng)頁中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。然后建立索引數(shù)據(jù)庫,由分析索引程序?qū)κ?集回來的網(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在 URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1