正文內容

畢業(yè)論文搜索引擎的研究與實現(xiàn)-在線瀏覽

2025-08-06 17:55本頁面

　　

【正文】 ..............27參考文獻 ..........................................................................................................................................28摘要網(wǎng)絡中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個問題的最好方法。為了更加深刻的理解這種技術，本人還親自實現(xiàn)了一個自己的搜索引擎——新聞搜索引擎。然后通過 Web 服務器接受客戶端請求后從索引數(shù)據(jù)庫中搜索出所匹配的新聞。AbstractThe resources in the inter are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structure of search engine based on the inter in detail, then gives a minute explanation form Spider search, engine and web server. In order to understand the technology more deeply, I have programmed a news search engine by myself.The news search engine is explained and searched according to hyperlink from a appointed web page, then indexs every searched information and adds it to the index database. Then after receiving the customers39。因此它也成為除了電子郵件以外最多人使用的網(wǎng)上服務。搜索引擎大約經(jīng)歷了三代的更新發(fā)展：第一代搜索引擎出現(xiàn)于 1994 年。而且其檢索速度非常慢，一般都要等待 10 秒甚至更長的時間。在 1994 年 3 月到 4 月，網(wǎng)絡爬蟲 World Web Worm (WWWW)平均每天承受大約 1500 次查詢。1997 年 11 月，當時最先進的幾個搜索引擎號稱能建立從 2，000，000 到 100，000，000 的網(wǎng)頁索引。2022 年搜索引擎 2022 年大會上，按照 Google 公司總裁 Larry Page 的演講，Google 正在用 3,000 臺運行 Linux 系統(tǒng)的個人電腦在搜集 Web 上的網(wǎng)頁，而且以每天 30 臺的速度向這個微機集群里添加電腦，以保持與網(wǎng)絡的發(fā)展相同步。在美國搜索引擎通常指的是基于因特網(wǎng)的搜索引擎，他們通過網(wǎng)絡機器人程序收集上千萬到幾億個網(wǎng)頁，并且每一個詞都被搜索引擎索引，也就是我們說的全文檢索。在中國，搜索引擎通常指基于網(wǎng)站目錄的搜索服務或是特定網(wǎng)站的搜索服務，本人這里研究的是基于因特網(wǎng)的搜索技術。為了保證用戶查找信息的精度和新鮮度，搜索引擎需要建立并維護一個龐大的索引數(shù)據(jù)庫。系統(tǒng)結構圖網(wǎng)絡機器人也稱為“網(wǎng)絡蜘蛛”(Spider)，是一個功能很強的 WEB 掃描程序。因為 WEB 中廣泛使用超鏈接，所以一個 Spider 程序理論上可以訪問整個 WEB 頁面。網(wǎng)絡機器人將遍歷得到的頁面存放在臨時數(shù)據(jù)庫中，如果通過 SQL 直接查詢信息速度將會難以忍受。如果索引不及時跟新的話，用戶用搜索引擎也不能檢索到。 Web 服務器客戶一般通過瀏覽器進行查詢，這就需要系統(tǒng)提供 Web 服務器并且與索引數(shù)據(jù)庫進行連接。搜索引擎的主要指標有響應時間、召回率、準確率、相關度等。搜索引擎的技術指標決定了搜索引擎的評價指標。召回率：一次搜索結果中符合用戶要求的數(shù)目與用戶查詢相關信息的總數(shù)之比準確率：一次搜索結果中符合用戶要求的數(shù)目與該次搜索結果總數(shù)之比相關度：用戶查詢與搜索結果之間相似度的一種度量精確度：對搜索結果的排序分級能力和對垃圾網(wǎng)頁的抗干擾能力以上對基于因特網(wǎng)的搜索引擎結構和性能指標進行了分析，本人在這些研究的基礎上利用 JavaTM 技術和一些 Open Source 工具實現(xiàn)了一個簡單的搜索引擎——新聞搜索引擎。第三章網(wǎng)絡機器人網(wǎng)絡機器人又稱為 Spider 程序，是一種專業(yè)的 Bot 程序。它從一個簡單的 Web 頁面上開始執(zhí)行，然后通過其超鏈接在訪問其他頁面，如此反復理論上可以掃描互聯(lián)網(wǎng)上的所有頁面。例如搜索巨頭 Google 公司，就利用網(wǎng)絡機器人程序來遍歷 Web 站點，以創(chuàng)建并維護這些大型數(shù)據(jù)庫。還可以掃描出中斷的超鏈接和拼寫錯誤等。Web 就是建立在 HTTP ( Hypertext Transfer Protocol ) 協(xié)議基礎上，而 HTTP 又是建立在TCP/IP ( Transmission Control Protocol / Inter Protocol ) 協(xié)議之上，它同時也是一種Socket 協(xié)議。 HTML因為 Web 中的信息都是建立在 HTML 協(xié)議之上的，所以網(wǎng)絡機器人在檢索網(wǎng)頁時的第一個問題就是如何解析 HTML。文本：除了腳本和標簽之外的所有數(shù)據(jù)注釋：程序員留下的說明文字，對用戶是不可見的簡單標簽：由單個表示的 HTML標簽開始標簽和結束標簽：用來控制所包含的 HTML代碼我們在進行解析的時候不用關心所有的標簽，只需要對其中幾種重要的進行解析即可。他們的主要目的是使用戶能夠任意遷移到新的頁面，這正是網(wǎng)絡機器人最關心的標簽。它可以讓用戶通過點擊圖片來遷移到新的頁面中。許多站點讓用戶填寫數(shù)據(jù)然后通過點擊按鈕來提交內容，這就是表單的典型應用。我們在具體解析這些 HTMl 標簽有兩種方法：通過 JavaTM 中的 Swing 類來解析或者通過 Bot 包中的 HTMLPage 類來解析，本人在實際編程中采用后者。下面給出該類幾種重要的方法。程序首先解析網(wǎng)頁的 HTML 代碼，查找該頁面內的超連接然后通過遞歸和非遞歸兩種結構來實現(xiàn) Spider 程序。雖然比較容易實現(xiàn)但耗費內存且不能使用多線程技術，故不適合大型項目。當 Spider 程序掃描完當前頁面后會根據(jù)制定的策略訪問隊列中的下一個超連接地址。等待隊列在這個隊列中，URL 等待被 Spider 程序處理。該隊列中的 URL 不能被移入其他隊列中完成隊列如果解析網(wǎng)頁沒有出錯，URL 將被送到這里。發(fā)現(xiàn) URL 等待隊列運行隊列完成隊列錯誤隊列完成 URL以上的圖表示了隊列的變化過程，在這個過程中，當一個 URL 被加入到等待隊列中時Spider 程序就會開始運行。當?shù)却犃袨榭詹⑶耶斍皼]有任何網(wǎng)頁時，Spider 程序就會停止它的工作。以及如何對這個程序進行擴展。是這個網(wǎng)頁包含其他超級連接嗎？將這一網(wǎng)頁送入完成隊列并繼續(xù)查看網(wǎng)頁上的下一個超連接是否為指向Web 的連接？報告其他類型連接連接是否與網(wǎng)頁所在主機不同且只處理本地連接？報告外部連接報告網(wǎng)頁連接將連接加入等候隊列否是否是否是IspiderReportable 接口這是一個必須實現(xiàn)的接口，可以通過回調函數(shù)接受 Spider 所遇到的頁面。通過提供對每個事件的處理程序，可以創(chuàng)建各種Spider 程序。public boolean foundExternalLink(String url)。public void processPage(HTTP page)。public boolean getRemoveQuery()。}Inter 中擁有海量的 Web 頁面，如果開發(fā)出高效的 Spider 程序是非常重要的。多線程是一個程序同時運行多個任務的能力。優(yōu)化程序的通常方法是確定瓶頸并改進他。據(jù)個例子說明：一個 Spider 程序需要下載十個頁面，要完成這一任務，程序必須向服務器發(fā)出請求然后接受這些網(wǎng)頁。如果用多線程技術可以讓這些網(wǎng)頁的等待時間合在一起，不用互相影響，這就可以極大的改進程序性能。這些隊列管理 Spider 程序必須維護大型網(wǎng)頁的列表。程序結構圖如下：程序代碼實現(xiàn)如下：package news。import 。import 。import 。 Searcher _searcher = new Searcher()。 (100)。 }// 發(fā)現(xiàn)內部連接時調用，url 表示程序發(fā)現(xiàn)的 URL，若返回 true則加入作業(yè)中，否則不加入。 }// 發(fā)現(xiàn)外部連接時調用，url 表示程序所發(fā)現(xiàn)的 URL，若返回 true則把加入作業(yè)中，否則不加入。 }// 當發(fā)現(xiàn)其他連接時調用這個方法。 }// 用于處理網(wǎng)頁，這是 Spider程序要完成的實際工作。 new HTMLParse().start()。 public void pletePage(HTTP , boolean error) { }// 由 Spider程序調用以確定查詢字符串是否應刪除。 public boolean getRemoveQuery() { return true。 public void spiderComplete() { }}在本章中，首先介紹了網(wǎng)絡機器人的基本概念，然后具體分析了 Spider 程序的結構和功能。本人在編程中運用了 JavaTM 技術，主要涉及到了和 io 兩個包。第四章基于 lucene 的索引與搜索 Lucene 全文檢索Lucene 是 Jakarta Apache 的開源項目。 Lucene 的原理分析Lucene 的 API 接口設計的比較通用，輸入輸出結構都很像數(shù)據(jù)庫的表== 記錄==字段，所以很多傳統(tǒng)的應用的文件、數(shù)據(jù)庫等都可以比較方便的映射到 Lucene 的存儲結構和接口中。索引數(shù)據(jù)源：doc(field1,field2...) doc(field1,field2...) \ indexer /

點擊復制文檔內容

畢業(yè)設計相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

畢業(yè)論文搜索引擎的研究與實現(xiàn)-在線瀏覽

基于nutch的新聞主題搜索引擎的設計與實現(xiàn)畢業(yè)論文-在線瀏覽

基于nutch的新聞主題搜索引擎的設計與實現(xiàn)畢業(yè)論文-在線瀏覽

java面向主題的搜索引擎畢業(yè)論文-在線瀏覽

畢業(yè)論文基于lucene的桌面搜索引擎-在線瀏覽

全文搜索引擎技術的研究和實現(xiàn)-在線瀏覽

元搜索引擎的設計與實現(xiàn)-在線瀏覽

聚焦搜索引擎的設計與開發(fā)查詢系統(tǒng)設計與實現(xiàn)畢業(yè)論文-在線瀏覽

基于lucene與heritrix的搜索引擎構建畢業(yè)論文-在線瀏覽

網(wǎng)絡營銷中的搜索引擎優(yōu)化研究畢業(yè)論文-在線瀏覽

關于seo搜索引擎優(yōu)化的實施畢業(yè)論文-在線瀏覽

一個java搜索引擎的實現(xiàn)論文-在線瀏覽

站內全文搜索引擎的設計與實現(xiàn)-在線瀏覽

基于網(wǎng)絡爬蟲的搜索引擎設計與實現(xiàn)—畢業(yè)設計論文-在線瀏覽

搜索引擎課件介紹學習搜索引擎的人必看的-在線瀏覽

基于java技術搜索引擎的研究及實現(xiàn)-在線瀏覽

畢業(yè)論文搜索引擎的研究與實現(xiàn)-預覽頁

畢業(yè)論文搜索引擎的研究與實現(xiàn)-免費閱讀

畢業(yè)論文搜索引擎的研究與實現(xiàn)(存儲版)

畢業(yè)論文搜索引擎的研究與實現(xiàn)-文庫吧在線文庫

畢業(yè)論文搜索引擎的研究與實現(xiàn)(完整版)