freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

一個java搜索引擎的實現(xiàn)論文-資料下載頁

2025-06-26 18:45本頁面
  

【正文】 er tr td width =66%input name=keyword type=text maxlength=100 id=textArea/td td height=29 align=centerinput type=submit value=搜索一下 id = search/td /tr /table /form /body /html 我們在 MyEclipse 中新建一個 WEB PROJECT,并新建一個 JSP 頁面,命名為 ,MyEclipse 會自動生成基本的頁面代碼,我們編寫的代碼主要是兩個部分,一部分是 style/style 標(biāo)簽對中的 CSS 樣式,這部分指定了頁面中關(guān)鍵字輸入文本框和按鈕的樣式,這里就此略過。另一部分是 body/body 標(biāo)簽對中的代碼,第一行居中顯示 dySE 的 logo 圖標(biāo),然后空行,之后就是一個表單,其中包括了一個含有文本輸入框和按鈕的表格—— table /table 標(biāo)簽對中,在 form 標(biāo)簽中,設(shè)定了按下按鈕的動作——轉(zhuǎn)到 頁面,其中的 enctype=application/xformurlencoded指定了編碼格式,如果沒有指定,在搜索中文的時候會導(dǎo)致亂碼。接下來我們編寫搜索結(jié)果顯示頁面。清單 4. 查詢結(jié)果顯示 %@ page language=java import=.* pageEncoding=gb2312% jsp: import= / jsp: import= / % String path = ()。 String basePath = ()+://+()+: +()+path+/。 % !DOCTYPE HTML PUBLIC //W3C//DTD HTML Transitional//EN html head base href=%=basePath% titleSearch Result/title style search{ width:78px。 height:28px。 font:14px 宋體 } textArea{ width:300px。 height:30px。 font:14px 宋體 } /style /head body form action= name=search method=get table border=0 height=30px width=450px align=center tr tdimg src= //td td width =66%input name=keyword type=text maxlength=100 id=textArea /td td height=29 align=centerinput type=submit value=搜索一下 id = search/td /tr /table /form % String keyword = new String((keyword) .getBytes( ISO88591),GB2312)。 Response resp = new Response()。 ArrayListResult results = (keyword)。 for(Result result : results) { % h2a href=%=()%%=()%/a/h2 p%=()%p p%=()% amp。nbsp。amp。nbsp。amp。nbsp。 %=()%p % } % /body /html 在開頭引入了 response 和 result 兩個類,其后的代碼與 有很大部分的相似之處,這里不再贅述,主要說明一下 form/form 標(biāo)簽對之后查詢服務(wù)的調(diào)用以及返回的結(jié)果的顯示方式。第一行先獲取了用戶在文本框內(nèi)輸入的查詢關(guān)鍵字,為了防止編碼問題,我們在獲取結(jié)果時候加入編碼格式。之后通過我們建立的 Response 類來進行結(jié)果的獲得,通過傳入搜索的關(guān)鍵字,Response 類在 getResponse 操作中對倒排索引進行查詢,將查詢的結(jié)果放入到結(jié)果列表中(算法可參見簡單查詢部分),操作返回的結(jié)果是一個 Result 類型的 List,遍歷這個 List 并且按照一定的格式顯示這些數(shù)據(jù)即可得到所需要的輸出,輸出的內(nèi)容將按照一定的 html 格式進行設(shè)置。第一行建立一個超鏈接,鏈接的顯示文字是 Result 類型中頁面的 title 屬性,鏈接的地址是對應(yīng)的 url。第二行將頁面的內(nèi)容簡介進行顯示,并在第三行顯示頁面對應(yīng)的 url 和頁面的抓取日期。圖 4. 搜索結(jié)果返回由于我們在試驗過程中,主要爬取的是幾大門戶網(wǎng)站的網(wǎng)頁,所以搜索“中國教育”并不會出來中國教育網(wǎng)之類的網(wǎng)站,但是,我們的結(jié)果返回了新浪和網(wǎng)易的教育頻道,可見我們的搜索引擎是可以正確運行的。[網(wǎng)頁排名]到目前為止,我們的網(wǎng)頁已經(jīng)可以正確的返回所輸入和查詢的結(jié)果,但是還有一個問題需要我們考慮,那就是網(wǎng)頁排名策略。網(wǎng)頁排名簡單來說就是搜索引擎對搜索某個關(guān)鍵字產(chǎn)生的結(jié)果網(wǎng)頁集合的返回順序,由于對于用戶來說,用戶感興趣的網(wǎng)頁最好能夠排在前面來顯示,從而減少用戶篩選結(jié)果的開銷。網(wǎng)頁排名策略即是考評結(jié)果網(wǎng)頁集合排列順序的算法策略,最基本的策略要求就是使得與用戶輸入最相關(guān)的網(wǎng)頁排在之前,那么如何確定網(wǎng)頁內(nèi)容與用戶輸入關(guān)鍵詞的相關(guān)程度呢?我們還是以搜索“中國教育”為例解釋網(wǎng)頁排名策略。我們知道,“中國教育”可以分為兩個關(guān)鍵詞:中國、教育。根據(jù)經(jīng)驗,我們知道,包含這兩個詞多的網(wǎng)頁要比包含這兩個詞少的網(wǎng)頁相關(guān),所以我們可以統(tǒng)計網(wǎng)頁中,包含的關(guān)鍵詞的總數(shù),從而簡單的確定網(wǎng)頁的相關(guān)性。但是,這樣的方法有個問題,那就是長的網(wǎng)頁比短的網(wǎng)頁跟占優(yōu)勢,所以我們需要根據(jù)網(wǎng)頁的長度,對關(guān)鍵詞的次數(shù)進行歸一化,也就是用關(guān)鍵詞的次數(shù)除以網(wǎng)頁的總字?jǐn)?shù),這個商叫做“關(guān)鍵詞詞頻”(Term Frequency),比如,某個 1000 詞的網(wǎng)頁中,中國出現(xiàn)了 10 詞,教育出現(xiàn)了 3 次,那么兩者的詞頻分別為 和 ,則其和 就是該網(wǎng)頁與“中國教育”的相關(guān)度的一個簡單度量。相關(guān)性的一個簡單的度量。概括地講,如果一個查詢包含關(guān)鍵詞 w1,w2,...,wn,它們在一個特定網(wǎng)頁中的詞頻分別是 :TF1,TF2,...,TFn (TF: Term Frequency)。那么,這個查詢和該網(wǎng)頁的相關(guān)性就是:TF1+TF2+...+TFn。進一步我們可以發(fā)現(xiàn),“中國”這個詞很普通,而“教育”是一個較為專業(yè)的詞,所以后者在相關(guān)性排名中應(yīng)該比前者重要,因此我們引入關(guān)鍵詞的權(quán)重,以區(qū)分各個關(guān)鍵詞之間的重要性。該權(quán)重應(yīng)該具有如下特性:首先一個詞預(yù)測主題能力越強,權(quán)重越大,反之則權(quán)重越??;其次,停用詞的權(quán)重為 0。那么,這個權(quán)重如何確定呢?在信息檢索中,使用最多的權(quán)重計算方法是“逆文本頻率指數(shù)”(Inverse Document Frequency:IDF)。其公式為 log(D/DW), 其中,D 是全部網(wǎng)頁數(shù),而 DW 是關(guān)鍵詞 W 在 DW 個網(wǎng)頁中出現(xiàn)過。假設(shè)全部網(wǎng)頁 D=10 億,“教育”在 2 百萬個網(wǎng)頁中出現(xiàn),則其權(quán)重 IDF=log(500)=,同理若“中國”在 5 億個網(wǎng)頁中出現(xiàn),則其權(quán)重為 IDF=log(2)=。所以,我們網(wǎng)頁相關(guān)性的計算公式也轉(zhuǎn)變?yōu)椋篢F1*IDF1+TF2*IDF2+...+TFn*IDFn。第三,既然搜索“中國教育”,那我們希望網(wǎng)頁中“中國”和“教育”這兩個詞的出現(xiàn)位置是更多的是處于相鄰位置,諸如“淺談中國教育”的網(wǎng)頁內(nèi)容應(yīng)該比“中國工人先進性教育”更符合我們的搜索目標(biāo)。關(guān)于位置信息需要在倒排索引建立的過程中進行抽取,由于在第二部分的倒排索引中,為了方便理解,我們只是建立了最簡單的倒排索引,而沒有加入位置信息,所以這部分的策略我們將在后續(xù)的優(yōu)化部分進行說明??偨Y(jié)到現(xiàn)在為止,我們已經(jīng)完成了搜索引擎的實現(xiàn)過程講解,我們按照搜索引擎中處理的三個模塊進行分塊介紹,從第一部分的網(wǎng)絡(luò)爬蟲獲取原始網(wǎng)頁庫,到第二部分的預(yù)處理建立索引網(wǎng)頁庫、分詞以及建立倒排索引,到此文中搭建 Web 服務(wù)器提供網(wǎng)絡(luò)查詢服務(wù)并且進行網(wǎng)頁的排名。這其中爬蟲是搜索引擎的基礎(chǔ),提供了原始數(shù)據(jù)集,而預(yù)處理是核心,提供后臺的查詢服務(wù)并且返回給前臺 Web,而第三部分是與用戶交互的接口,提供查詢結(jié)果的輸入和輸出。三者互相依賴,互相配合完成搜索引擎的工作
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1