freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

一個(gè)java搜索引擎的實(shí)現(xiàn)論文-wenkub.com

2025-06-23 18:45 本頁(yè)面
   

【正文】 這其中爬蟲(chóng)是搜索引擎的基礎(chǔ),提供了原始數(shù)據(jù)集,而預(yù)處理是核心,提供后臺(tái)的查詢服務(wù)并且返回給前臺(tái) Web,而第三部分是與用戶交互的接口,提供查詢結(jié)果的輸入和輸出。所以,我們網(wǎng)頁(yè)相關(guān)性的計(jì)算公式也轉(zhuǎn)變?yōu)椋篢F1*IDF1+TF2*IDF2+...+TFn*IDFn。該權(quán)重應(yīng)該具有如下特性:首先一個(gè)詞預(yù)測(cè)主題能力越強(qiáng),權(quán)重越大,反之則權(quán)重越?。黄浯?,停用詞的權(quán)重為 0。相關(guān)性的一個(gè)簡(jiǎn)單的度量。網(wǎng)頁(yè)排名策略即是考評(píng)結(jié)果網(wǎng)頁(yè)集合排列順序的算法策略,最基本的策略要求就是使得與用戶輸入最相關(guān)的網(wǎng)頁(yè)排在之前,那么如何確定網(wǎng)頁(yè)內(nèi)容與用戶輸入關(guān)鍵詞的相關(guān)程度呢?我們還是以搜索“中國(guó)教育”為例解釋網(wǎng)頁(yè)排名策略。第二行將頁(yè)面的內(nèi)容簡(jiǎn)介進(jìn)行顯示,并在第三行顯示頁(yè)面對(duì)應(yīng)的 url 和頁(yè)面的抓取日期。 %=()%p % } % /body /html 在開(kāi)頭引入了 response 和 result 兩個(gè)類,其后的代碼與 有很大部分的相似之處,這里不再贅述,主要說(shuō)明一下 form/form 標(biāo)簽對(duì)之后查詢服務(wù)的調(diào)用以及返回的結(jié)果的顯示方式。amp。 Response resp = new Response()。 height:28px。接下來(lái)我們編寫(xiě)搜索結(jié)果顯示頁(yè)面。 font:14px 宋體 } textArea{ width:300px。清單 3. 查詢服務(wù)入口 % page language=java import=.* pageEncoding=gb2312% % String path = ()。 下載 ,參考地址:;我們按照 Web 服務(wù)器的搭建、與后臺(tái)查詢模塊的連接兩個(gè)部分來(lái)進(jìn)行敘述。 for(Result result : results){ (())。 String keyword = ()。由于我們?cè)趯⒕W(wǎng)頁(yè)格式化存儲(chǔ)時(shí)包含了摘錄該網(wǎng)頁(yè)的時(shí)間,我們可以直接獲取該日期顯示在結(jié)果中。 在提取的限定長(zhǎng)度的摘要中,關(guān)鍵詞的出現(xiàn)頻率應(yīng)該要比較高; 首先,用戶查詢的關(guān)鍵字在摘要中最好能處于相鄰位置。正文摘要的生成主要有兩種方法,一種是在 html 標(biāo)簽中提取 description 信息,網(wǎng)頁(yè)的摘要信息會(huì)放在形如:META content=關(guān)注搜索引擎… name=description 的標(biāo)簽中,仍舊通過(guò)正則表達(dá)式,我們可以匹配得到網(wǎng)頁(yè)的摘要信息,這種方法比較常用,同時(shí)也很方便。下面我們主要完成標(biāo)題的提取、正文摘要的提取兩個(gè)部分。如此我們得到了作為簡(jiǎn)單結(jié)果的 URL 集合,下一步我們要通過(guò)這個(gè)集合生成詳細(xì)結(jié)果并且進(jìn)行返回。簡(jiǎn)單的查詢服務(wù)過(guò)程如下:對(duì)于用戶的輸入,首先進(jìn)行分詞,對(duì)于每個(gè)詞組,搜索倒排索引獲取包含該詞組的網(wǎng)頁(yè) URL 信息, 找到各個(gè)分詞對(duì)應(yīng)的 URL 集合中共同的 URL,根據(jù)結(jié)果 URL 集合查詢網(wǎng)頁(yè)索引獲得 URL 對(duì)應(yīng)的網(wǎng)頁(yè)信息,整合網(wǎng)頁(yè)信息之后進(jìn)行返回。在這些部件的基礎(chǔ)上,我們開(kāi)始搭建我們搜索引擎的界面并且實(shí)現(xiàn)信息的輸入和輸出。接下來(lái)我們分析如何從正向索引來(lái)得到倒排索引。獲得正向索引看似對(duì)于我們的即將進(jìn)行的查詢操作沒(méi)有什么實(shí)際的幫助,因?yàn)椴樵兎?wù)是通過(guò)關(guān)鍵詞來(lái)獲得網(wǎng)頁(yè)信息,而正向索引并不能通過(guò)分詞結(jié)果反查網(wǎng)頁(yè)信息。而如果遇到歧義詞組,可以通過(guò)字典中附帶的詞頻來(lái)決定哪種分詞的結(jié)果更好。算法描述如下:輸入值為一個(gè)中文語(yǔ)句 S,以及最大匹配詞 n1. 取 S 中前 n 個(gè)字,根據(jù)詞典對(duì)其進(jìn)行匹配,若匹配成功,轉(zhuǎn) 3,否則轉(zhuǎn) 2;2. n = n – 1:如果 n 為 1,轉(zhuǎn) 3;否則轉(zhuǎn) 1;3. 將 S 中的前 n 個(gè)字作為分詞結(jié)果的一部分,S 除去前 n 個(gè)字,若 S 為空,轉(zhuǎn) 4;否則,轉(zhuǎn) 1;4. 算法結(jié)束。由于第二和第三種的實(shí)現(xiàn)需要大量的數(shù)據(jù)來(lái)支持,所以我們采用的是基于字符串匹配的方法。} return htmlStr。 p_script = (regEx_script,)。限于篇幅,我們以過(guò)濾 script 標(biāo)簽為示例,其代碼如下 :清單 4. 標(biāo)簽過(guò)濾 public String html2Text(String inputString) { String htmlStr = inputString。} return content。 (offset)。對(duì)于偏移的使用,BufferedReader 類提供一個(gè) skip(int offset) 的函數(shù),其作用是跳過(guò)文檔中,從當(dāng)前開(kāi)始計(jì)算的 offset 個(gè)字符,用這個(gè)函數(shù)我們就可以定位到我們需要的記錄。對(duì) MD5 算法簡(jiǎn)要的敘述可以為:MD5 以 512 位分組來(lái)處理輸入的信息,且每一分組又被劃分為 16 個(gè) 32 位子分組,經(jīng)過(guò)了一系列的處理后,算法的輸出由四個(gè) 32 位分組組成,將這四個(gè) 32 位分組級(jí)聯(lián)后將生成一個(gè) 128 位散列值。讀取頭部和讀取記錄都是通過(guò)數(shù)據(jù)間的空行來(lái)標(biāo)識(shí)的,其偽代碼如下:清單 2. 索引網(wǎng)頁(yè)庫(kù)建立For each record in Raws do begin 讀取 record 的頭部和數(shù)據(jù),從頭部中抽取 URL; 計(jì)算頭部和數(shù)據(jù)的長(zhǎng)度,加到當(dāng)前偏移值上得到新的偏移; 從 record 中數(shù)據(jù)中計(jì)算其 MD5 摘要值; 將數(shù)據(jù)插入數(shù)據(jù)庫(kù)中,包括:URL、偏移、數(shù)據(jù) MD5 摘要、Raws;end;Message Digest Algorithm MD5(中文名為消息摘要算法第五版)為計(jì)算機(jī)安全領(lǐng)域廣泛使用的一種散列函數(shù),用以提供消息的完整性保護(hù)。主要提供的操作是:建立連接、執(zhí)行 SQL 語(yǔ)句、返回操作結(jié)果。 安裝 mySql,最好需要三個(gè)組件,mySql,mySqlfront,分別可以在網(wǎng)絡(luò)中下載。數(shù)據(jù)庫(kù)們采用 mysql。之后,我們處理網(wǎng)頁(yè)數(shù)據(jù),對(duì)于一個(gè)網(wǎng)頁(yè),首先需要提取其網(wǎng)頁(yè)正文信息,其次對(duì)正文信息進(jìn)行分詞,之后再根據(jù)分詞的情況建立索引和倒排索引,這樣,網(wǎng)頁(yè)的預(yù)處理也全部完成。 ()。代碼如下:/** * 啟動(dòng)線程 gather,然后開(kāi)始收集網(wǎng)頁(yè)資料*/ public void start() { Dispatcher disp = ()。所以,Dispatcher 維護(hù)兩個(gè)列表 ,“已訪問(wèn)表”,和“未訪問(wèn)表”。經(jīng)過(guò)這兩步操作時(shí)候,可以把該網(wǎng)頁(yè)的收集到的 URL 放入 URL 池中,接下來(lái)我們處理爬蟲(chóng)的 URL 的派分問(wèn)題。第二步操作,URL 的整理,即對(duì)之前獲得的整個(gè)頁(yè)面中 URL 集合進(jìn)行篩選和整合。 } catch (MalformedURLException e) { ()。 //初次匹配到的url是形如:a href= target=_blank //為此,需要進(jìn)行下一步的處理,把真正的url抽取出來(lái), //可以對(duì)于前兩個(gè)之間的部分進(jìn)行記錄得到url while(()){ try { tempURL = ()。 Pattern pattern = (patternString,)。需要說(shuō)明的是,添加數(shù)據(jù)收集日期的原因,由于許多網(wǎng)站的內(nèi)容都是動(dòng)態(tài)變化的,比如一些大型門(mén)戶網(wǎng)站的首頁(yè)內(nèi)容,這就意味著如果不是當(dāng)天爬取的網(wǎng)頁(yè)數(shù)據(jù),很可能發(fā)生數(shù)據(jù)過(guò)期的問(wèn)題,所以需要添加日期信息加以識(shí)別。 網(wǎng)頁(yè)庫(kù)由若干記錄組成,每個(gè)記錄包含一條網(wǎng)頁(yè)數(shù)據(jù)信息,記錄的存放為順序添加; 使用 Java 語(yǔ)言的好處是不需要自己處理底層的連接操作,喜歡或者精通 Java 網(wǎng)絡(luò)編程的讀者也可以不用上述的方法,自己實(shí)現(xiàn) URL 類及相關(guān)操作,這也是一種很好的鍛煉。 URLConnection conn = ()。Spider 的設(shè)計(jì)網(wǎng)頁(yè)收集的過(guò)程如同圖的遍歷,其中網(wǎng)頁(yè)就作為圖中的節(jié)點(diǎn),而網(wǎng)頁(yè)中的超鏈接則作為圖中的邊,通過(guò)某網(wǎng)頁(yè)的超鏈接 得到其他網(wǎng)頁(yè)的地址,從而可以進(jìn)一步的進(jìn)行網(wǎng)頁(yè)收集;圖的遍歷分為廣度優(yōu)先和深度優(yōu)先兩種方法,網(wǎng)頁(yè)的收集過(guò)程也是如此。 假設(shè)分詞器和網(wǎng)頁(yè)排名的計(jì)算公式都是既定的,那么倒排索引以及原始網(wǎng)頁(yè)集從何而來(lái)?原始網(wǎng)頁(yè)集在之前的數(shù)據(jù)流程的介紹中,可以得知是由爬蟲(chóng) spider 爬取網(wǎng)頁(yè)并且保存在本地的,而倒排索引,即詞組到網(wǎng)頁(yè)的映射表是建立在正排索引的基礎(chǔ)上的,后者是分析了網(wǎng)頁(yè)的內(nèi)容并對(duì)其內(nèi)容進(jìn)行分詞后,得到的網(wǎng)頁(yè)到詞組的映射表,將正排索引倒置即可得到倒排索引;搜索引擎的三個(gè)部分是相互獨(dú)立的,三個(gè)部分分別工作
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1