正文內(nèi)容

一個(gè)java搜索引擎的實(shí)現(xiàn)論文-資料下載頁

2025-06-26 18:45本頁面

　　

【正文】 er tr td width =66%input name=keyword type=text maxlength=100 id=textArea/td td height=29 align=centerinput type=submit value=搜索一下 id = search/td /tr /table /form /body /html 我們在 MyEclipse 中新建一個(gè) WEB PROJECT，并新建一個(gè) JSP 頁面，命名為，MyEclipse 會自動生成基本的頁面代碼，我們編寫的代碼主要是兩個(gè)部分，一部分是 style/style 標(biāo)簽對中的 CSS 樣式，這部分指定了頁面中關(guān)鍵字輸入文本框和按鈕的樣式，這里就此略過。另一部分是 body/body 標(biāo)簽對中的代碼，第一行居中顯示 dySE 的 logo 圖標(biāo)，然后空行，之后就是一個(gè)表單，其中包括了一個(gè)含有文本輸入框和按鈕的表格—— table /table 標(biāo)簽對中，在 form 標(biāo)簽中，設(shè)定了按下按鈕的動作——轉(zhuǎn)到頁面，其中的 enctype=application/xformurlencoded指定了編碼格式，如果沒有指定，在搜索中文的時(shí)候會導(dǎo)致亂碼。接下來我們編寫搜索結(jié)果顯示頁面。清單 4. 查詢結(jié)果顯示 %@ page language=java import=.* pageEncoding=gb2312% jsp: import= / jsp: import= / % String path = ()。 String basePath = ()+://+()+: +()+path+/。 % !DOCTYPE HTML PUBLIC //W3C//DTD HTML Transitional//EN html head base href=%=basePath% titleSearch Result/title style search{ width:78px。 height:28px。 font:14px 宋體 } textArea{ width:300px。 height:30px。 font:14px 宋體 } /style /head body form action= name=search method=get table border=0 height=30px width=450px align=center tr tdimg src= //td td width =66%input name=keyword type=text maxlength=100 id=textArea /td td height=29 align=centerinput type=submit value=搜索一下 id = search/td /tr /table /form % String keyword = new String((keyword) .getBytes( ISO88591),GB2312)。 Response resp = new Response()。 ArrayListResult results = (keyword)。 for(Result result : results) { % h2a href=%=()%%=()%/a/h2 p%=()%p p%=()% amp。nbsp。amp。nbsp。amp。nbsp。 %=()%p % } % /body /html 在開頭引入了 response 和 result 兩個(gè)類，其后的代碼與有很大部分的相似之處，這里不再贅述，主要說明一下 form/form 標(biāo)簽對之后查詢服務(wù)的調(diào)用以及返回的結(jié)果的顯示方式。第一行先獲取了用戶在文本框內(nèi)輸入的查詢關(guān)鍵字，為了防止編碼問題，我們在獲取結(jié)果時(shí)候加入編碼格式。之后通過我們建立的 Response 類來進(jìn)行結(jié)果的獲得，通過傳入搜索的關(guān)鍵字，Response 類在 getResponse 操作中對倒排索引進(jìn)行查詢，將查詢的結(jié)果放入到結(jié)果列表中（算法可參見簡單查詢部分），操作返回的結(jié)果是一個(gè) Result 類型的 List，遍歷這個(gè) List 并且按照一定的格式顯示這些數(shù)據(jù)即可得到所需要的輸出，輸出的內(nèi)容將按照一定的 html 格式進(jìn)行設(shè)置。第一行建立一個(gè)超鏈接，鏈接的顯示文字是 Result 類型中頁面的 title 屬性，鏈接的地址是對應(yīng)的 url。第二行將頁面的內(nèi)容簡介進(jìn)行顯示，并在第三行顯示頁面對應(yīng)的 url 和頁面的抓取日期。圖 4. 搜索結(jié)果返回由于我們在試驗(yàn)過程中，主要爬取的是幾大門戶網(wǎng)站的網(wǎng)頁，所以搜索“中國教育”并不會出來中國教育網(wǎng)之類的網(wǎng)站，但是，我們的結(jié)果返回了新浪和網(wǎng)易的教育頻道，可見我們的搜索引擎是可以正確運(yùn)行的。[網(wǎng)頁排名]到目前為止，我們的網(wǎng)頁已經(jīng)可以正確的返回所輸入和查詢的結(jié)果，但是還有一個(gè)問題需要我們考慮，那就是網(wǎng)頁排名策略。網(wǎng)頁排名簡單來說就是搜索引擎對搜索某個(gè)關(guān)鍵字產(chǎn)生的結(jié)果網(wǎng)頁集合的返回順序，由于對于用戶來說，用戶感興趣的網(wǎng)頁最好能夠排在前面來顯示，從而減少用戶篩選結(jié)果的開銷。網(wǎng)頁排名策略即是考評結(jié)果網(wǎng)頁集合排列順序的算法策略，最基本的策略要求就是使得與用戶輸入最相關(guān)的網(wǎng)頁排在之前，那么如何確定網(wǎng)頁內(nèi)容與用戶輸入關(guān)鍵詞的相關(guān)程度呢？我們還是以搜索“中國教育”為例解釋網(wǎng)頁排名策略。我們知道，“中國教育”可以分為兩個(gè)關(guān)鍵詞：中國、教育。根據(jù)經(jīng)驗(yàn)，我們知道，包含這兩個(gè)詞多的網(wǎng)頁要比包含這兩個(gè)詞少的網(wǎng)頁相關(guān)，所以我們可以統(tǒng)計(jì)網(wǎng)頁中，包含的關(guān)鍵詞的總數(shù)，從而簡單的確定網(wǎng)頁的相關(guān)性。但是，這樣的方法有個(gè)問題，那就是長的網(wǎng)頁比短的網(wǎng)頁跟占優(yōu)勢，所以我們需要根據(jù)網(wǎng)頁的長度，對關(guān)鍵詞的次數(shù)進(jìn)行歸一化，也就是用關(guān)鍵詞的次數(shù)除以網(wǎng)頁的總字?jǐn)?shù)，這個(gè)商叫做“關(guān)鍵詞詞頻”(Term Frequency)，比如，某個(gè) 1000 詞的網(wǎng)頁中，中國出現(xiàn)了 10 詞，教育出現(xiàn)了 3 次，那么兩者的詞頻分別為和，則其和就是該網(wǎng)頁與“中國教育”的相關(guān)度的一個(gè)簡單度量。相關(guān)性的一個(gè)簡單的度量。概括地講，如果一個(gè)查詢包含關(guān)鍵詞 w1,w2,...,wn，它們在一個(gè)特定網(wǎng)頁中的詞頻分別是 :TF1,TF2,...,TFn (TF: Term Frequency)。那么，這個(gè)查詢和該網(wǎng)頁的相關(guān)性就是：TF1+TF2+...+TFn。進(jìn)一步我們可以發(fā)現(xiàn)，“中國”這個(gè)詞很普通，而“教育”是一個(gè)較為專業(yè)的詞，所以后者在相關(guān)性排名中應(yīng)該比前者重要，因此我們引入關(guān)鍵詞的權(quán)重，以區(qū)分各個(gè)關(guān)鍵詞之間的重要性。該權(quán)重應(yīng)該具有如下特性：首先一個(gè)詞預(yù)測主題能力越強(qiáng)，權(quán)重越大，反之則權(quán)重越??；其次，停用詞的權(quán)重為 0。那么，這個(gè)權(quán)重如何確定呢？在信息檢索中，使用最多的權(quán)重計(jì)算方法是“逆文本頻率指數(shù)”(Inverse Document Frequency：IDF)。其公式為 log(D/DW), 其中，D 是全部網(wǎng)頁數(shù)，而 DW 是關(guān)鍵詞 W 在 DW 個(gè)網(wǎng)頁中出現(xiàn)過。假設(shè)全部網(wǎng)頁 D=10 億，“教育”在 2 百萬個(gè)網(wǎng)頁中出現(xiàn)，則其權(quán)重 IDF=log(500)=，同理若“中國”在 5 億個(gè)網(wǎng)頁中出現(xiàn)，則其權(quán)重為 IDF=log(2)=。所以，我們網(wǎng)頁相關(guān)性的計(jì)算公式也轉(zhuǎn)變?yōu)椋篢F1*IDF1+TF2*IDF2+...+TFn*IDFn。第三，既然搜索“中國教育”，那我們希望網(wǎng)頁中“中國”和“教育”這兩個(gè)詞的出現(xiàn)位置是更多的是處于相鄰位置，諸如“淺談中國教育”的網(wǎng)頁內(nèi)容應(yīng)該比“中國工人先進(jìn)性教育”更符合我們的搜索目標(biāo)。關(guān)于位置信息需要在倒排索引建立的過程中進(jìn)行抽取，由于在第二部分的倒排索引中，為了方便理解，我們只是建立了最簡單的倒排索引，而沒有加入位置信息，所以這部分的策略我們將在后續(xù)的優(yōu)化部分進(jìn)行說明。總結(jié)到現(xiàn)在為止，我們已經(jīng)完成了搜索引擎的實(shí)現(xiàn)過程講解，我們按照搜索引擎中處理的三個(gè)模塊進(jìn)行分塊介紹，從第一部分的網(wǎng)絡(luò)爬蟲獲取原始網(wǎng)頁庫，到第二部分的預(yù)處理建立索引網(wǎng)頁庫、分詞以及建立倒排索引，到此文中搭建 Web 服務(wù)器提供網(wǎng)絡(luò)查詢服務(wù)并且進(jìn)行網(wǎng)頁的排名。這其中爬蟲是搜索引擎的基礎(chǔ)，提供了原始數(shù)據(jù)集，而預(yù)處理是核心，提供后臺的查詢服務(wù)并且返回給前臺 Web，而第三部分是與用戶交互的接口，提供查詢結(jié)果的輸入和輸出。三者互相依賴，互相配合完成搜索引擎的工作

點(diǎn)擊復(fù)制文檔內(nèi)容

環(huán)評公示相關(guān)推薦

搜索引擎推廣試題一-資料下載頁

【總結(jié)】湖南省高等職業(yè)院校電子商務(wù)專業(yè)技能抽考試題考試模塊：網(wǎng)絡(luò)推廣考核項(xiàng)目：搜索引擎推廣考試時(shí)間：60分鐘試題編號：2-2-1背景資料：多喜愛家飾織用品有限公司（）是一家以專業(yè)設(shè)計(jì)生產(chǎn)和銷售床上用品為主，產(chǎn)品涉及被套、床笠、床單、床裙、枕套、被芯、枕芯、婚慶產(chǎn)品、墊類產(chǎn)品、床具等。公司營銷中心設(shè)在中國湖南長沙市，開發(fā)中心及生產(chǎn)企業(yè)等在廣東

2025-03-25 02:40

搜索引擎介紹-資料下載頁

【總結(jié)】搜索引擎崔雷實(shí)例一欲在國內(nèi)購買酶聯(lián)免疫試劑，查詢試劑的類型、價(jià)格和商家檢索提示?本例涉及通用信息的查找，宜選擇Google。?核心概念是酶聯(lián)免疫，修飾概念是試劑、價(jià)格等，要考慮到各種概念的各種表達(dá)方式。?可以使用的檢索詞–酶聯(lián)免疫、酶免、ELISA；–產(chǎn)品、試劑、試劑盒；

2025-07-25 08:21

搜索引擎技術(shù)-資料下載頁

【總結(jié)】搜索引擎技術(shù)閆宏飛，北京大學(xué)計(jì)算機(jī)系網(wǎng)絡(luò)實(shí)驗(yàn)室2020年12月24日@CERNET2020內(nèi)容提要?搜索引擎工作原理?信息檢索相關(guān)研究和機(jī)構(gòu)搜索引擎—WebSearchEngines?定義：允許用戶遞交查詢，檢索出與查詢相關(guān)的網(wǎng)頁結(jié)果列表，并且排序輸出。?創(chuàng)建索引的方法–手工索引

2025-08-23 10:45

ehkaaa搜索引擎-資料下載頁

【總結(jié)】搜索引擎的使用進(jìn)入?RSS?XML?博客Blog?播客?維客Wiki?……?服務(wù)用戶?開放獲取?參與?集體智能?草根?豐富體驗(yàn)?……博客，是繼Email、BBS、ICQ(IM)之后出現(xiàn)的第四種網(wǎng)絡(luò)交流方式，是互聯(lián)網(wǎng)深度交流

2025-08-04 09:33

tbhaaa搜索引擎-資料下載頁

【總結(jié)】搜索引擎文獻(xiàn)檢索教研室?隨著信息社會的到來,因特網(wǎng)作為信息交流的中心與樞紐作用也愈顯重要。因特網(wǎng)可以稱之為一個(gè)巨大的信息庫,它擁有眾多但卻雜亂無章的信息,并且這些信息每時(shí)每刻都在以幾何級數(shù)遞增。?如何從因特網(wǎng)上獲取自己所需信息就成了一個(gè)大問題。搜索引擎正是在這

2025-08-04 09:38

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-外文翻譯-資料下載頁

【總結(jié)】江漢大學(xué)畢業(yè)論文（設(shè)計(jì)）外文翻譯原文來源TheHadoopDistributedFileSystem:ArchitectureandDesign中文譯文Hadoop分布式文件系統(tǒng)：架構(gòu)和設(shè)計(jì)姓名XXXX

2025-01-18 14:15

搜索引擎及搜索技巧-資料下載頁

【總結(jié)】（SearchEngine）搜索引擎是指用于因特網(wǎng)信息查找的網(wǎng)絡(luò)工具一、搜索引擎的發(fā)展歷史最早的搜索引擎出現(xiàn)于1994年4月。斯坦福大學(xué)的兩名博士生，美籍華人楊致遠(yuǎn)和美國人DavidFilo共同創(chuàng)辦了超級目錄索引雅虎（YAHOO），并成功地使用搜索引擎的概念深入人心。??????

2025-05-13 10:00

nuwaaa搜索引擎-資料下載頁

【總結(jié)】信息檢索與分析利用第3章搜索引擎1第3章搜索引擎概述典型的搜索引擎搜索引擎的檢索技巧信息檢索與分析利用第3章搜索引擎2概述基本概念I(lǐng)nter的主要信息服務(wù)類型搜索引擎的類型信息檢索與分析利用第3章搜索引擎31．搜索引擎搜

2025-08-04 09:37

kegaaa搜索引擎-資料下載頁

【總結(jié)】所有搜索引擎的祖先，是1990年由Montreal的McGillUniversity三名學(xué)生（AlanEmtage、PeterDeutsch、BillWheelan）發(fā)明的Archie（ArchieFAQ）。AlanEmtage等想到了開發(fā)一個(gè)可以用文件名查找文件的系統(tǒng)，于是便有了Archie。Archie是第一個(gè)自動索引互聯(lián)網(wǎng)上匿名

2025-08-04 09:55

搜索引擎優(yōu)化-資料下載頁

【總結(jié)】搜索引擎優(yōu)化百度版影響搜索引擎優(yōu)化的因素?域名及空間?網(wǎng)站建設(shè)?網(wǎng)站運(yùn)營域名及空間?域名盡量簡短、與網(wǎng)站主題有關(guān)聯(lián)?域名后綴盡量常見如、、等?查看域名是否有被懲罰歷史?服務(wù)器空間要穩(wěn)定、訪問速度要快?相同服務(wù)器要看有沒有相同IP的網(wǎng)站被懲罰網(wǎng)站建設(shè)?對用戶體

2025-08-04 15:47

搜索引擎(3)-資料下載頁

【總結(jié)】搜索引擎?1、什么是搜索引擎?2、搜索引擎的工作原理?3、搜索引擎的發(fā)展過程?4、搜索引擎的類型及使用技巧什么是搜索引擎(p54)?搜索引擎是指通過網(wǎng)絡(luò)機(jī)器人在網(wǎng)際某一空間、某一領(lǐng)域中尋找和發(fā)現(xiàn)有用或相關(guān)的信息，并在此基礎(chǔ)上建立檢索數(shù)據(jù)庫，通過簡單友好的界面提供給用戶查詢的工具。

2025-08-04 17:13

外文搜索引擎-資料下載頁

【總結(jié)】SpringerLink新平臺使用指南徐州師范大學(xué)圖書館信息咨詢部2022-10-9LibraryofHenanNormalUniversityJuneSpringerLink簡介?Springer出版社擁有165年的出版歷史?全球最大的學(xué)術(shù)與科技圖書出版社（每年出版4,000種新

2025-07-25 04:13

ftp搜索引擎設(shè)計(jì)-資料下載頁

【總結(jié)】西華大學(xué)畢業(yè)設(shè)計(jì)說明書摘要隨著信息的快速速增長，讓搜索引擎成了人們查找信息的首要工具。如今在中文搜索引擎領(lǐng)域，國內(nèi)搜索引擎已經(jīng)同國外搜索引擎效果上相差不大了。能形成現(xiàn)在這樣的局面，是有一個(gè)重要的原因：英文和中文兩種語言自身的書寫方式不相同，其中在計(jì)算機(jī)涉及的技術(shù)就是中文分詞技術(shù)。本設(shè)計(jì)的主要目的是利用爬蟲獲取的網(wǎng)頁，將網(wǎng)頁的內(nèi)容按照

2024-12-07 10:16

搜索引擎銷售協(xié)議-資料下載頁

【總結(jié)】搜索引擎銷售協(xié)議搜索引擎銷售協(xié)議搜索引擎銷售協(xié)議本合同用于代理商向客戶銷售_______公司的搜索引擎登錄服務(wù)。如有任何附加合同，請客戶參照本合同中關(guān)于服務(wù)詳情與收費(fèi)報(bào)價(jià)的部分。本...

2024-12-16 23:11

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文-資料下載頁

【總結(jié)】江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）I全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)作者聲明本人鄭重聲明：所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。本人完全了解有關(guān)保障、使用學(xué)位論文的規(guī)定，同意學(xué)校保留并向有關(guān)學(xué)位論文管理機(jī)構(gòu)送交論文的復(fù)印

2025-06-28 12:38

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片