正文內(nèi)容

jsp基于產(chǎn)品的搜索引擎-在線瀏覽

2025-01-17 04:00本頁面

　　

【正文】 s in the inter are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structure of search engine based on the inter in detail, then gives a minute explanation form Spider search, engine and web server. In order to understand the technology more deeply, I have programmed a news search engine by myself. The news search engine is explained and searched according to hyperlink from a appointed web page, then indexs every searched information and adds it to the index database. Then after receiving the customers39。因此它也成為除了電子郵件以外最多人使用的網(wǎng)上服務(wù)。搜索引擎大約經(jīng)歷了三代的更新發(fā)展：第一代搜索引擎出現(xiàn)于 1994 年。而且其檢索速度非常慢，一般都要等待 10 秒甚至更長的時(shí)間。在 1994 年 3 月到 4 月，網(wǎng)絡(luò)爬蟲 World Web Worm (WWWW)平均每天承受大約 1500 次查詢。 1997 年 11月，當(dāng)時(shí)最先進(jìn)的幾個(gè)搜索引擎號(hào)稱能建立從 2， 000， 000 到100， 000， 000 的網(wǎng)頁索引。 2020 年搜索引擎 2020 年大會(huì)上，按照 Google 公司總裁 Larry Page 的演講，Google 正在用 3,000 臺(tái)運(yùn)行 Linux 系統(tǒng)的個(gè)人電腦在搜集 Web 上的網(wǎng)頁，而且以每天 30 臺(tái)的速度向這個(gè)微機(jī)集群里添加電腦，以保持與網(wǎng)絡(luò)的發(fā)展相同步。在美國搜索引擎通常指的是基于因特網(wǎng)的搜索引擎，他們通過網(wǎng)絡(luò)機(jī)器人程序收集上千萬到幾億個(gè)網(wǎng)頁，并且每一個(gè)詞都被搜索引擎索引，也就是我們說的全文檢索。在中國，搜索引擎通常指基于網(wǎng)站目錄的搜索服務(wù)或是特定網(wǎng)站的搜索服務(wù)，本人這里研基于的搜索引擎第 6 頁共 34 頁究的是基于因特網(wǎng)的搜索技術(shù)。為了保證用戶查找信息的精度和新鮮度，搜索引擎需要建立并維護(hù)一個(gè)龐大的索引數(shù)據(jù)庫。系統(tǒng)結(jié)構(gòu)圖網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人也稱為“網(wǎng)絡(luò)蜘蛛” (Spider)，是一個(gè)功能很強(qiáng)的 WEB掃描程序。因?yàn)?WEB 中廣泛使用超鏈接，所以一個(gè) Spider 程序理論上可以訪問整個(gè) WEB 頁面。索引與搜索網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁面存放在臨時(shí)數(shù)據(jù)庫中，如果通過 SQL 直接查詢WWW 文檔網(wǎng)絡(luò)機(jī)器人程序建立 Lucene 索引從數(shù)據(jù)庫中搜索信息 Tomcat 服務(wù)器 Lucene 索引數(shù)據(jù)庫 WWW 瀏覽器 WWW 瀏覽器 JSP 網(wǎng)絡(luò)機(jī)器人程序基于的搜索引擎第 8 頁共 34 頁信息速度將會(huì)難以忍受。如果索引不及時(shí)跟新的話，用戶用搜索引擎也不能檢索到。 Web 服務(wù)器客戶一般通過瀏覽器進(jìn)行查詢，這就需要系統(tǒng)提供 Web 服務(wù)器并且與索引數(shù)據(jù)庫進(jìn)行連接。搜索引擎的主要指標(biāo)有響應(yīng)時(shí)間、召回率、準(zhǔn)確率、相關(guān)度等。搜索引擎的技術(shù)指標(biāo)決定了搜索引擎的評(píng)價(jià)指標(biāo)。召回率：一次搜索結(jié)果中符合用戶要求的數(shù)目與用戶查詢相關(guān)信息的總數(shù)之比準(zhǔn)確率：一次搜索結(jié)果中符合用戶要求的數(shù)目與該次搜索結(jié)果總數(shù)之比相關(guān)度：用戶查詢與搜索結(jié)果之間相似度的一種度量精確度：對(duì)搜索結(jié)果的排序分級(jí)能力和對(duì)垃圾網(wǎng)頁的抗干擾能力以上對(duì)基于因特網(wǎng)的搜索引擎結(jié)構(gòu)和性能指標(biāo)進(jìn)行了分析，本人在這些研究的基礎(chǔ)上利用 JavaTM 技術(shù)和一些 Open Source 工具實(shí)現(xiàn)了一個(gè)簡單的搜索引擎—— 新聞搜索引擎。基于的搜索引擎第 9 頁共 34 頁第三章網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人又稱為 Spider 程序，是一種專業(yè)的 Bot 程序。它從一個(gè)簡單的 Web 頁面上開始執(zhí)行，然后通過其超鏈接在訪問其他頁面，如此反復(fù)理論上可以掃描互聯(lián)網(wǎng)上的所有頁面。例如搜索巨頭 Google 公司，就利用網(wǎng)絡(luò)機(jī)器人程序來遍歷 Web 站點(diǎn)，以創(chuàng)建并維護(hù)這些大型數(shù)據(jù)庫。還可以掃描出中斷的超鏈接和拼寫錯(cuò)誤等。 Web 就是建立在 HTTP ( Hypertext Transfer Protocol ) 協(xié)議基礎(chǔ)上，而 HTTP 又是建立在 TCP/IP ( Transmission Control Protocol / Inter Protocol ) 協(xié)議之上，它同時(shí)也是一種 Socket 協(xié)議。如何解析 HTML 因?yàn)?Web 中的信息都是建立在 HTML 協(xié)議之上的，所以網(wǎng)絡(luò)機(jī)器人在檢索網(wǎng)頁時(shí)的第一個(gè)問題就是如何解析 HTML。文本：除了腳本和標(biāo)簽之外的所有數(shù)據(jù) 注釋：程序員留下的說明文字，對(duì)用戶是不可見的簡單標(biāo)簽：由單個(gè)表示的 HTML標(biāo)簽開始標(biāo)簽和結(jié)束標(biāo)簽：用來控制所包含的 HTML代碼我們在進(jìn)行解析的時(shí)候不用關(guān)心所有的標(biāo)簽，只需要對(duì)其中幾種重要的進(jìn)行解析即可。他們的主要目的是使用戶能夠任意遷移到新的頁面，這正是網(wǎng)絡(luò)機(jī)器人最關(guān)心的標(biāo)簽。它可以讓用戶通過點(diǎn)擊圖片來遷移到新的頁面中。許多站點(diǎn)讓用戶填寫數(shù)據(jù)然后通過點(diǎn)擊按鈕來提交內(nèi)容，這就是表單的典型應(yīng)用。我們在具體解析這些 HTMl 標(biāo)簽有兩種方法：通過 JavaTM 中的 Swing 類來解析或者通過 Bot 包中的 HTMLPage 類來解析，本人在實(shí)際編程中采用后者。下面給出該類幾種重要的方法。程序首先解析網(wǎng)頁的 HTML 代碼，查找該頁面內(nèi)的超連接然后通過遞歸和非遞歸兩種結(jié)構(gòu)來實(shí)現(xiàn) Spider 程序。雖然比較容易實(shí)現(xiàn)但耗費(fèi)內(nèi)存且不能使用多線程技術(shù)，故不適合大型項(xiàng)目。當(dāng) Spider 程序掃描完當(dāng)前頁面后會(huì)根據(jù)制定的策略訪問隊(duì)列中的下一個(gè)超連接地址。等待隊(duì)列在這個(gè)隊(duì)列中， URL 等待被 Spider 程序處理。該隊(duì)列中的 URL 不能被移入其他隊(duì)列中完成隊(duì)列如果解析網(wǎng)頁沒有出錯(cuò)， URL 將被送到這里。以上的圖表示了隊(duì)列的變化過程，在這個(gè)過程中，當(dāng)一個(gè) URL 被加入到等待隊(duì)列中時(shí) Spider 程序就會(huì)開始運(yùn)行。當(dāng)?shù)却?duì)列為空并且當(dāng)前沒有任何網(wǎng)頁時(shí)， Spider 程序就會(huì)停止它的工作。以及如何對(duì)這個(gè)程序進(jìn)行擴(kuò)展。是這個(gè)網(wǎng)頁包含其他超級(jí)連接嗎？將這一網(wǎng)頁送入完成隊(duì)列并繼續(xù) 查看網(wǎng)頁上的下一個(gè)超連接是否為指向Web 的連接？報(bào)告其他類型連接連接是否與網(wǎng)頁所在主機(jī)不同且只處理本地連接？報(bào)告外部連接報(bào)告網(wǎng)頁連接將連接加入等候隊(duì)列否是否是否是基于的搜索引擎第 13 頁共 34 頁 IspiderReportable 接口這是一個(gè)必須實(shí)現(xiàn)的接口，可以通過回調(diào)函數(shù)接受 Spider 所遇到的頁面。通過提供對(duì)每個(gè)事件的處理程序，可以創(chuàng)建各種 Spider 程序。 public boolean foundExternalLink(String url)。 public void processPage(HTTP page)。 public boolean getRemoveQuery()。 } 如何提高程序性能 Inter 中擁有海量的 Web 頁面，如果開發(fā)出高效的 Spider 程序是非常重要的。多線程是一個(gè)程序同時(shí)運(yùn)行多個(gè)任務(wù)的能力。優(yōu)化程序的通常方法是確定瓶頸并改進(jìn)他。據(jù)個(gè)例子說明：一個(gè) Spider 程序需要下載十個(gè)頁面，要完成這一任務(wù)，程序必須向服務(wù)器發(fā)出請(qǐng)求然后接受這些網(wǎng)頁。如果用多線程技術(shù)可以讓這些網(wǎng)頁的等待時(shí)間合在一起，不用互相影響，這就可以極大的改進(jìn)程序性能。這些隊(duì)列管理 Spider 程序必須維護(hù)大型網(wǎng)頁的列表。網(wǎng)絡(luò)機(jī)器人的代碼分析程序結(jié)構(gòu)圖如下：程序代碼實(shí)現(xiàn)如下： package news。 import 。 import 。 import 。 Searcher _searcher = new Searcher()。 (100)。 } // 發(fā)現(xiàn)內(nèi)部連接時(shí)調(diào)用， url表示程序發(fā)現(xiàn)的 URL，若返回 true則加入作業(yè)中，否則不加入。 } // 發(fā)現(xiàn)外部連接時(shí)調(diào)用， url表示程序所發(fā)現(xiàn)的 URL，若返回 true則把加入作業(yè)中，否則不加入。 } // 當(dāng)發(fā)現(xiàn)其他連接時(shí)調(diào)用這個(gè)方法。 } // 用于處理網(wǎng)頁，這是 Spider程序要完成的實(shí)際工作。 new HTMLParse().start()。 public void pletePage(HTTP , boolean error) { } // 由 Spider程序調(diào)用以確定查詢字符串是否應(yīng)刪除。 public boolean getRemoveQuery() { return true。 public void spiderComplete() { } } 在本章中，首先介紹了網(wǎng)絡(luò)機(jī)器人的基本概念，然后具體分析了 Spider 程序的結(jié)構(gòu)和功能。本人在編程中運(yùn)用了 JavaTM技術(shù)，主要涉及到了和 io 兩個(gè)包。基于的搜索引擎第 17 頁共 34 頁第四章基于 lucene 的索引與搜索 Lucene 全文檢索 Lucene 是 Jakarta Apache 的開源項(xiàng)目。 Lucene 的原理分析全文檢索的實(shí)現(xiàn)機(jī)制 Lucene 的 API 接口設(shè)計(jì)的比較通用，輸入輸出結(jié)構(gòu)都很像數(shù)據(jù)庫的表 ==記錄 ==字段，所以很多傳統(tǒng)的應(yīng)用的文件、數(shù)據(jù)庫等都可以比較方便的映射到 Lucene 的存儲(chǔ)結(jié)構(gòu) 和接口中。索引數(shù)據(jù)源： doc(field1,field2...) doc(field1,field2...) \ indexer / _____________ | Lucene Index| / searcher \ 結(jié)果輸出： Hits(doc(field1,field2) doc(field1...)) Document：一個(gè)需要進(jìn)行索引的 “單元 ”，一個(gè) Document由多個(gè)字段組成 Field：字段 Hits：查詢結(jié)果集，由匹配的 Document組成 Lucene 的索引效率通常書籍后面常常附關(guān)鍵詞索引表（比如：北京： 12,

點(diǎn)擊復(fù)制文檔內(nèi)容

試題試卷相關(guān)推薦

搜索引擎教案-在線瀏覽

【摘要】案例名稱因特網(wǎng)信息的查找——搜索技巧科目信息技術(shù)教學(xué)對(duì)象高中一年級(jí)（上學(xué)期）課時(shí)一課時(shí)一、教材內(nèi)容分析掌握一定的搜索技巧，使學(xué)生能夠更快更準(zhǔn)確的搜索到需要的信息。二、教學(xué)目標(biāo)（知識(shí)，技能，情感態(tài)度、價(jià)值觀）1．知識(shí)與技能讓學(xué)生探索并理解基本的搜索技巧。2．過程與方法了解信息來源的一般分類，學(xué)會(huì)根據(jù)需求選擇信息來源，掌握信息獲取的

2024-09-15 07:04

dxaaaa搜索引擎-在線瀏覽

【摘要】GOOGLE簡介Google（）是一個(gè)搜索引擎，由兩個(gè)斯坦福大學(xué)博士生于1998年9月發(fā)明，GoogleInc.于1999年創(chuàng)立。2022年7月份，Google替代Inktomi成為Yahoo公司的搜索引擎，同年9月份，Google成為中國網(wǎng)易公司的搜索引擎。GOOGLE支持多達(dá)132種語言，包括簡體中文和繁體中文；GOOGLE速

2024-09-14 09:32

搜索引擎營銷-在線瀏覽

【摘要】請(qǐng)每組學(xué)生展示自己的思維導(dǎo)圖，列出與主題相關(guān)的關(guān)鍵詞案例以組為單位，為“汽車音響“網(wǎng)站選擇推廣關(guān)鍵詞，并填寫報(bào)告任務(wù)關(guān)鍵詞選擇提示：1．自己如果是用戶，會(huì)用什么詞搜索呢？2．問問其他人會(huì)用什么詞來搜索？3．競爭者的網(wǎng)站用了哪些關(guān)鍵詞？（搜索引擎前二十名網(wǎng)站）

2024-09-04 08:22

基于lucene的全文搜索引擎設(shè)計(jì)-在線瀏覽

【摘要】基于Lucene的搜索引擎作者姓名:王旭專業(yè)班級(jí):2010050704指導(dǎo)教師:涂德志摘要從1994年至今，萬維網(wǎng)經(jīng)過了二十年的飛速發(fā)展，當(dāng)前的萬維網(wǎng)數(shù)據(jù)規(guī)模到底有多大無從估量。隨著網(wǎng)絡(luò)信息資源的急劇增長，現(xiàn)如今，信息已經(jīng)不再是一種稀缺的資源，我們的注意力反而變得稀缺了。人們越來越多地關(guān)注如何快速有效地從海量的網(wǎng)絡(luò)信息中，抽取出潛在的、有價(jià)值的信息，使之有效地在管理和決策中發(fā)

2024-08-02 19:21

基于java語言的搜索引擎開發(fā)論文-在線瀏覽

【摘要】1基于JAVA語言的搜索引擎開發(fā)摘要：隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展與普及，如何在較短的時(shí)間內(nèi)從海量的網(wǎng)絡(luò)數(shù)據(jù)中搜索全面且準(zhǔn)確的信息成為人們越來越關(guān)注的問題。搜索引擎的出現(xiàn)為人們在網(wǎng)絡(luò)中查找信息提供了極大的方便。因此，網(wǎng)絡(luò)搜索引擎的開發(fā)及相關(guān)技術(shù)的研究有著重要的意義。本畢業(yè)設(shè)計(jì)利用JAVA語言開發(fā)了一個(gè)基于機(jī)器人和全文索

2025-01-20 21:54

搜索引擎外文翻譯-在線瀏覽

【摘要】外文資料翻譯資料來源:網(wǎng)絡(luò)文章名：UsingtheSEOforFirefoxPlus-In書刊名：《SearchEngineOptimization》作者：KristopherB.Jones出版社：WileyPublishing,Inc,2021章節(jié)：Usingth

2025-02-09 08:58

搜索引擎使用技巧-在線瀏覽

【摘要】搜索引擎使用技巧南京農(nóng)業(yè)大學(xué)現(xiàn)代教育技術(shù)中心周勇有人說，會(huì)搜索才叫會(huì)上網(wǎng)，搜索引擎在我們?nèi)粘Ｉ钪械牡匚灰咽桥e足輕重。你也許是個(gè)剛要興沖沖地要上網(wǎng)沖浪，也許已經(jīng)在互聯(lián)網(wǎng)上蟄伏了好幾年，無論怎樣，要想在浩如煙海的互聯(lián)網(wǎng)信息中找到自己所需的信息，都需要一點(diǎn)點(diǎn)技巧。對(duì)于企業(yè)而言，學(xué)習(xí)搜索，提高技巧，就能找到更多的潛在客戶。對(duì)于大家而言，學(xué)習(xí)搜索引擎技巧可以有助我們的學(xué)習(xí)和生活！

2024-08-08 14:26

搜索引擎營銷實(shí)驗(yàn)-在線瀏覽

【摘要】n更多企業(yè)學(xué)院：《中小企業(yè)管理全能版》183套講座+89700份資料《總經(jīng)理、高層管理》49套講座+16388份資料《中層管理學(xué)院》46套講座+6020份資料?《國學(xué)智慧、易經(jīng)》46套講座《人力資源學(xué)院》56套講座+27123份資料《各階段員工培訓(xùn)學(xué)院》77套講座+324份資料

2025-06-04 01:34

搜索引擎推廣代理-在線瀏覽

【摘要】搜索引擎推廣代理搜索引擎推廣代理本合同用于代理商向客戶銷售_______公司的搜索引擎登錄服務(wù)。如有任何附加合同，請(qǐng)客戶參照本合同中關(guān)于服務(wù)詳情與收費(fèi)報(bào)價(jià)的部分。本合同由以下當(dāng)事人訂立...

2024-12-16 23:11

ehkaaa搜索引擎-在線瀏覽

【摘要】搜索引擎的使用進(jìn)入?RSS?XML?博客Blog?播客?維客Wiki?……?服務(wù)用戶?開放獲取?參與?集體智能?草根?豐富體驗(yàn)?……博客，是繼Email、BBS、ICQ(IM)之后出現(xiàn)的第四種網(wǎng)絡(luò)交流方式，是互聯(lián)網(wǎng)深度交流

2024-09-14 09:33

tbhaaa搜索引擎-在線瀏覽

【摘要】搜索引擎文獻(xiàn)檢索教研室?隨著信息社會(huì)的到來,因特網(wǎng)作為信息交流的中心與樞紐作用也愈顯重要。因特網(wǎng)可以稱之為一個(gè)巨大的信息庫,它擁有眾多但卻雜亂無章的信息,并且這些信息每時(shí)每刻都在以幾何級(jí)數(shù)遞增。?如何從因特網(wǎng)上獲取自己所需信息就成了一個(gè)大問題。搜索引擎正是在這

2024-09-14 09:38

搜索引擎介紹-在線瀏覽

【摘要】搜索引擎崔雷實(shí)例一欲在國內(nèi)購買酶聯(lián)免疫試劑，查詢試劑的類型、價(jià)格和商家檢索提示?本例涉及通用信息的查找，宜選擇Google。?核心概念是酶聯(lián)免疫，修飾概念是試劑、價(jià)格等，要考慮到各種概念的各種表達(dá)方式。?可以使用的檢索詞–酶聯(lián)免疫、酶免、ELISA；–產(chǎn)品、試劑、試劑盒；

2024-09-04 08:21

搜索引擎技術(shù)-在線瀏覽

【摘要】搜索引擎技術(shù)閆宏飛，北京大學(xué)計(jì)算機(jī)系網(wǎng)絡(luò)實(shí)驗(yàn)室2020年12月24日@CERNET2020內(nèi)容提要?搜索引擎工作原理?信息檢索相關(guān)研究和機(jī)構(gòu)搜索引擎—WebSearchEngines?定義：允許用戶遞交查詢，檢索出與查詢相關(guān)的網(wǎng)頁結(jié)果列表，并且排序輸出。?創(chuàng)建索引的方法–手工索引

2024-11-04 10:45

基于lucene與heritrix的搜索引擎構(gòu)建-在線瀏覽

【摘要】大連民族學(xué)院本科畢業(yè)設(shè)計(jì)（論文）基于Lucene與Heritrix的搜索引擎構(gòu)建學(xué)院（系）：計(jì)算機(jī)科學(xué)與工程專業(yè)：軟件工程學(xué)生

2024-07-24 13:13

iqraaa搜索引擎-在線瀏覽

【摘要】獲取信息的方法1搜索引擎主流搜索引擎搜索引擎(searchengine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息，在對(duì)信息進(jìn)行組織和處理后，為用戶提供檢索服務(wù)的系統(tǒng)。搜索信息的機(jī)器2常用的檢索工具兩種檢索方法?目錄檢索?關(guān)鍵字檢索Contents3Cont

2024-09-14 09:44