freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

一個java搜索引擎的實現(xiàn)論文(參考版)

2025-06-29 18:45本頁面
  

【正文】 三者互相依賴,互相配合完成搜索引擎的工作??偨Y到現(xiàn)在為止,我們已經(jīng)完成了搜索引擎的實現(xiàn)過程講解,我們按照搜索引擎中處理的三個模塊進行分塊介紹,從第一部分的網(wǎng)絡爬蟲獲取原始網(wǎng)頁庫,到第二部分的預處理建立索引網(wǎng)頁庫、分詞以及建立倒排索引,到此文中搭建 Web 服務器提供網(wǎng)絡查詢服務并且進行網(wǎng)頁的排名。第三,既然搜索“中國教育”,那我們希望網(wǎng)頁中“中國”和“教育”這兩個詞的出現(xiàn)位置是更多的是處于相鄰位置,諸如“淺談中國教育”的網(wǎng)頁內(nèi)容應該比“中國工人先進性教育”更符合我們的搜索目標。假設全部網(wǎng)頁 D=10 億,“教育”在 2 百萬個網(wǎng)頁中出現(xiàn),則其權重 IDF=log(500)=,同理若“中國”在 5 億個網(wǎng)頁中出現(xiàn),則其權重為 IDF=log(2)=。那么,這個權重如何確定呢?在信息檢索中,使用最多的權重計算方法是“逆文本頻率指數(shù)”(Inverse Document Frequency:IDF)。進一步我們可以發(fā)現(xiàn),“中國”這個詞很普通,而“教育”是一個較為專業(yè)的詞,所以后者在相關性排名中應該比前者重要,因此我們引入關鍵詞的權重,以區(qū)分各個關鍵詞之間的重要性。概括地講,如果一個查詢包含關鍵詞 w1,w2,...,wn,它們在一個特定網(wǎng)頁中的詞頻分別是 :TF1,TF2,...,TFn (TF: Term Frequency)。但是,這樣的方法有個問題,那就是長的網(wǎng)頁比短的網(wǎng)頁跟占優(yōu)勢,所以我們需要根據(jù)網(wǎng)頁的長度,對關鍵詞的次數(shù)進行歸一化,也就是用關鍵詞的次數(shù)除以網(wǎng)頁的總字數(shù),這個商叫做“關鍵詞詞頻”(Term Frequency),比如,某個 1000 詞的網(wǎng)頁中,中國出現(xiàn)了 10 詞,教育出現(xiàn)了 3 次,那么兩者的詞頻分別為 和 ,則其和 就是該網(wǎng)頁與“中國教育”的相關度的一個簡單度量。我們知道,“中國教育”可以分為兩個關鍵詞:中國、教育。網(wǎng)頁排名簡單來說就是搜索引擎對搜索某個關鍵字產(chǎn)生的結果網(wǎng)頁集合的返回順序,由于對于用戶來說,用戶感興趣的網(wǎng)頁最好能夠排在前面來顯示,從而減少用戶篩選結果的開銷。圖 4. 搜索結果返回由于我們在試驗過程中,主要爬取的是幾大門戶網(wǎng)站的網(wǎng)頁,所以搜索“中國教育”并不會出來中國教育網(wǎng)之類的網(wǎng)站,但是,我們的結果返回了新浪和網(wǎng)易的教育頻道,可見我們的搜索引擎是可以正確運行的。第一行建立一個超鏈接,鏈接的顯示文字是 Result 類型中頁面的 title 屬性,鏈接的地址是對應的 url。第一行先獲取了用戶在文本框內(nèi)輸入的查詢關鍵字,為了防止編碼問題,我們在獲取結果時候加入編碼格式。nbsp。nbsp。nbsp。 ArrayListResult results = (keyword)。 font:14px 宋體 } /style /head body form action= name=search method=get table border=0 height=30px width=450px align=center tr tdimg src= //td td width =66%input name=keyword type=text maxlength=100 id=textArea /td td height=29 align=centerinput type=submit value=搜索一下 id = search/td /tr /table /form % String keyword = new String((keyword) .getBytes( ISO88591),GB2312)。 font:14px 宋體 } textArea{ width:300px。 % !DOCTYPE HTML PUBLIC //W3C//DTD HTML Transitional//EN html head base href=%=basePath% titleSearch Result/title style search{ width:78px。清單 4. 查詢結果顯示 % page language=java import=.* pageEncoding=gb2312% jsp: import= / jsp: import= / % String path = ()。另一部分是 body/body 標簽對中的代碼,第一行居中顯示 dySE 的 logo 圖標,然后空行,之后就是一個表單,其中包括了一個含有文本輸入框和按鈕的表格—— table /table 標簽對中,在 form 標簽中,設定了按下按鈕的動作——轉到 頁面,其中的 enctype=application/xformurlencoded指定了編碼格式,如果沒有指定,在搜索中文的時候會導致亂碼。 height:30px。 height:28px。 String basePath = ()+:// +()+: +()+path+/。查看大部分搜索引擎的界面,無論是主界面還是搜索結果顯示界面,其顯示的內(nèi)容都較為簡單,所以 JSP 的頁面開發(fā)環(huán)境您可以根據(jù)您的習慣和喜好自由選擇,本文主要在 MyEclipse 中進行頁面編寫。 Tomcat 是免安裝的,所以解壓到本地進行環(huán)境變量的配置即可使用;我們先來介紹 Tomcat 服務器的搭建過程:[Web 服務器搭建]由于我們的后臺 ( 即之前所述的倒排索引建立查詢和結果返回等部分 ) 是用 Java 編寫,所以很自然的,我們想到用 JSP(Java Server Page) 來提供查詢服務,在這小節(jié)中,我們重點介紹如何搭建服務器提供 JSP 服務。 } } 在控制臺輸入“中國教育”返回的結果大致如下:圖 2. 查詢“中國教育”返回的結果搭建 Web 服務器提供查詢服務一般的搜索引擎都是通過 Web 程序提供應用接口,從而提供服務,在本節(jié)我們介紹 Web 服務器的搭建提供查詢服務。 (())。 (返回結果如下:)。 //read the keyword from console Response response = new Response()。由于這些數(shù)據(jù)都是字符串類型,所以可以很容易的在控制臺上進行顯示并進行測試,我們可以在控制臺下測試如下:清單 2. 控制臺下檢索結果檢測 public static void main(String[] args) { Scanner cin=new Scanner()。為了更好的封裝返回的結果,我們創(chuàng)建 Result 類來存儲單個網(wǎng)頁的返回信息,這其中主要包括了標題 (title)、正文動態(tài)摘要、日期、URL 四種數(shù)據(jù)。除了上述的兩項信息,百度在搜索結果中還有網(wǎng)頁的日期這一項,我們可以參照這點在結果中顯示日期信息。 如果第一點不能達到,那么在摘要中,關鍵詞之間的間隔應該要盡可能的小。由于 URL 結果是在分詞的基礎上搜索生成的,所以 URL 對應頁面包含的關鍵字可能也是分散的,例如,我們搜索“搜索引擎”關鍵字,如果一個頁面上有如下兩段文字:(1) 本文介紹搜索引擎的具體實現(xiàn)步驟…;(2) 警察通過搜索發(fā)現(xiàn),汽車的引擎不翼而飛…。正文摘要的目標是使摘要能盡量多的在一段內(nèi)容中顯示更多與查詢關鍵字相關的信息,為此,我們可以采用如下策略來進行摘要的生成:第二種方法在網(wǎng)頁正文的基礎上生成,由于某些網(wǎng)頁中可能不包含 description 標簽,這樣就需要在正文中抽取網(wǎng)頁摘要,這種方法也是第一種方法的一個備用方法。正則表達式具體的匹配過程在第二部分中有示例,這里不再贅述。在第二部分中,我們介紹了如何通過原始網(wǎng)頁庫的文件名和文件內(nèi)偏移進行某個 URL 對應的頁面數(shù)據(jù)查詢,所以這部分我們只是再簡單的提及,通過數(shù)據(jù)庫的查詢,我們可以得到某個 URL 所對應的文件的所在位置,通過 BufferedReader 類中提供的 skip 函數(shù)可以完成偏移量的跳轉從而直接開始讀取所需要的頁面信息??煺展δ苁侵甘珍浀木W(wǎng)頁的純文本備份,在網(wǎng)速很慢或者原始網(wǎng)頁無法打開的情況下,可以使用快照功能查看該網(wǎng)頁的文本內(nèi)容,快照功能的實現(xiàn)我們將在本文的末尾提及。我們可以使用其他的搜索引擎比如 google、百度等來了解一個網(wǎng)頁結果具體需要包含哪些信息,下圖是在 google 中搜索“中國教育”關鍵字的返回結果:從圖中可以看出,在第一行顯示的是該網(wǎng)頁的標題,并且是一個超級鏈接,第二行是正文內(nèi)容的一個
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1