freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

java面向主題的搜索引擎畢業(yè)論文-展示頁

2025-07-07 08:17本頁面
  

【正文】 主題的搜索引擎的設(shè)計(jì)。3. 數(shù)據(jù)庫系統(tǒng):MS SQL Server 2000?;镜拈_發(fā)和運(yùn)行環(huán)境要求如下:1. 硬件環(huán)境:CPU類型P4,內(nèi)存1GB以上。本系統(tǒng)采用Windows平臺,基本的服務(wù)形式為Tomcat環(huán)境下的Web服務(wù)。本系統(tǒng)能夠?qū)崿F(xiàn)面向主題的Web信息收集與檢索功能,專題搜索可以為特定領(lǐng)域用戶提供面向主題的搜索功能,能提供快速、準(zhǔn)確的主題信息查詢,較好的解決了專有信息檢索困難的問題。在我們所熟知的百度、google、雅虎等搜索引擎,都是通用搜索引擎,其求大求全決定了不能滿足特定領(lǐng)域、特殊人群的精準(zhǔn)化信息需求服務(wù)。面向主題的搜索引擎是為了提高互聯(lián)網(wǎng)特定領(lǐng)域信息搜索的效率而產(chǎn)生的,又叫專題搜索引擎。用戶往往需要在檢索結(jié)果中進(jìn)一步查找,才能獲得感興趣的信息。隨著互聯(lián)網(wǎng)的發(fā)展,通用搜索引擎的結(jié)構(gòu)越來越復(fù)雜。目前,搜索引擎技術(shù)正成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界爭相研究、開發(fā)的對象。 Cygwin目 錄第一章 系統(tǒng)概述 1 系統(tǒng)開發(fā)背景 1 系統(tǒng)開發(fā)意義 1 可行性研究 1 技術(shù)可行性 2 經(jīng)濟(jì)可行性 2 操作可行性 2 可行性研究結(jié)論 2第二章 系統(tǒng)技術(shù)簡介 3 Nutch簡介 3 Tomcat簡介 3 Cygwin簡介 4 JSP簡介 4 Java簡介 5 Dreamweaver簡介 6第三章 需求分析 7 信息需求 7 處理需求 7 系統(tǒng)數(shù)據(jù)流圖 8 數(shù)據(jù)字典 9 數(shù)據(jù)流字典 9 加工處理數(shù)據(jù)字典 10 數(shù)據(jù)項(xiàng)數(shù)據(jù)字典 11 數(shù)據(jù)存儲字典 11第四章 總體設(shè)計(jì) 12 系統(tǒng)功能模塊圖 12 系統(tǒng)ER圖 12 數(shù)據(jù)庫設(shè)計(jì) 14第五章 詳細(xì)設(shè)計(jì) 15 管理員處理的程序流程圖 15 獲取主題資源的程序流程圖 15 提取網(wǎng)頁文本內(nèi)容程序流程圖 16 對文本進(jìn)行分詞和過濾程序流程圖 16 網(wǎng)頁索引程序流程圖 17 用戶檢索程序流程圖 17第六章 編碼實(shí)現(xiàn) 18 管理員登錄 18 關(guān)鍵詞管理 19 面向主題資源的發(fā)現(xiàn) 20 待下載URL列表管理 22 面向主題資源的下載 23 用戶檢索功能 28 數(shù)據(jù)庫的創(chuàng)建 29第七章 測試 31 確定測試方法的原則 31 黑盒測試 31 白盒測試 31 本系統(tǒng)選擇的測試方法 31 測試的目標(biāo) 31 測試項(xiàng)目 31 系統(tǒng)管理員登錄的測試 31 關(guān)鍵詞管理的測試 32 待下載URL列表管理的測試 33結(jié)束語 35致謝 36參考文獻(xiàn) 37附錄 38第一章 系統(tǒng)概述搜索引擎在我們的日常生活中起到越來越重要的作用,“百度一下,你就知道”這句話被廣大網(wǎng)民所熟知。 Nutch。由于本系統(tǒng)在下載網(wǎng)頁時(shí)資源較少,因此用戶檢索出的結(jié)果較少。本文首先介紹了面向主題搜索引擎系統(tǒng)開發(fā)的背景及意義,分析了系統(tǒng)開發(fā)的可行性,并對系統(tǒng)開發(fā)過程中所涉及到的相關(guān)理論知識進(jìn)行簡要的介紹,然后進(jìn)行需求分析、總體設(shè)計(jì)和詳細(xì)設(shè)計(jì),得到系統(tǒng)所要實(shí)現(xiàn)的主要功能,繪制出系統(tǒng)的功能模塊圖并用程序流程圖描述系統(tǒng)的各個(gè)模塊的處理過程,而后進(jìn)行系統(tǒng)的實(shí)現(xiàn)。JAVA面向主題的搜索引擎中文摘要由于Web海量的信息處于不斷的變化中,搜索引擎己經(jīng)很難再為用戶提供一個(gè)高質(zhì)量的、全面并且更新及時(shí)的信息搜索服務(wù),其局限性在于它試圖索引全部Web信息并服務(wù)于所有主題的查詢請求。相比之下,面向主題的搜索引擎只覆蓋與特定主題相關(guān)的Web區(qū)域,這樣它搜索的內(nèi)容可以更深,搜索的周期可以更短,因此能滿足用戶對快速、準(zhǔn)確的獲取信息資源的要求。本系統(tǒng)實(shí)現(xiàn)了管理員登錄系統(tǒng),添加關(guān)鍵詞,發(fā)現(xiàn)主題資源信息,下載主題資源,用戶檢索等功能。關(guān)鍵詞:搜索引擎;Nutch;Tomcat;CygwinSubjectOriented Search EnginesAuthor: ZhaoBei Tutor: XunYalingAbstractAs a result of massive information of web is in change constantly, the search engines has been difficult to provide users with a highquality, prehensive and timely information to update the search service, its limitations in that it attempts to index all the web information and services to all the theme query request. In contrast, subjectoriented search engines only cover a specific theme and webrelated areas, so that it can be a deeper search, search the cycle can be shorter, so they can meet the fast and accurate access to information resources of the user’s requirements. This paper first introduces development’s background and significance of subjectoriented search engines system, feasibility of the analysis ,development of systems and the brief introduction to the theoretical knowledge relevant of systems involved in the process of developing, followed by needs analysis, design and detailed design, in order to achieve the main function the system , drawn the map of function of the system modules and system process flow chart to describe the process of each module, and then the realization of the system.This system realized the manager to register the system, the increase key word, the discovery of subject resources information, the downloading subject resources, and user retrieval functions so on. Because this system when downloads the homepage the resources are few,so the user retrieves the result are few.Keywords: search engines。 Tomcat。隨著因特網(wǎng)的迅猛發(fā)展、Web信息的增加,用戶要在信息海洋里查找信息,就像大海撈針一樣,搜索引擎技術(shù)恰好解決了這一難題(它可以為用戶提供信息檢索服務(wù))。 目前搜索引擎領(lǐng)域的商業(yè)開發(fā)非常活躍,各大搜索引擎公司都在投巨資研制搜索引擎系統(tǒng),同時(shí)也不斷地涌現(xiàn)出新的具有鮮明特色的搜索引擎產(chǎn)品,搜索引擎已經(jīng)成為信息領(lǐng)域的產(chǎn)業(yè)之一。通用搜索引擎擁有龐大的索引數(shù)據(jù)和寬泛的主題,但搜索結(jié)果越來越無法滿足用戶對信息精確查找的需求。互聯(lián)網(wǎng)需要能夠快速、準(zhǔn)確查找信息的面向主題的搜索引擎。面向主題的搜索引擎搜集和索引的信息是某一個(gè)領(lǐng)域或者面向某一個(gè)方面的應(yīng)用。多元化的人群決定了多元化的信息搜索需求,在引入結(jié)構(gòu)化的網(wǎng)頁分析技術(shù)后所形成的垂直搜索引擎在互聯(lián)網(wǎng)中已經(jīng)并且將繼續(xù)占有部分市場,是互聯(lián)網(wǎng)內(nèi)容細(xì)分的必然趨勢。可行性研究就是對系統(tǒng)進(jìn)行全面、概要的分析,確定本系統(tǒng)是否值得進(jìn)行開發(fā),并在此基礎(chǔ)上提出開發(fā)系統(tǒng)的初步方案與計(jì)劃。整個(gè)系統(tǒng)采用Java語言進(jìn)行開發(fā),搜索引擎內(nèi)核部分,在Nutch搜索引擎的基礎(chǔ)上進(jìn)行二次開發(fā),由于Nutch開放源代碼,修改非常方便。2. 操作系統(tǒng):Windows XP SP2系統(tǒng)。4. 開發(fā)工具:,Eclipse,Tomcat 。由于對源代碼修改比自己開發(fā)一個(gè)搜索引擎要容易,而且人力消耗和資源消耗也比較少,因此從經(jīng)濟(jì)方面來說,可以省去大量的人力和物力。 可行性研究結(jié)論經(jīng)過上述的可行性研究,可知本系統(tǒng)的開發(fā)能夠補(bǔ)充現(xiàn)有的通用搜索引擎的不足,因此本系統(tǒng)是值得開發(fā)的。盡管Web搜索是漫游Internet的基本要求,但是現(xiàn)有Web搜索引擎的數(shù)目卻在下降,并且這很有可能進(jìn)一步演變成為一個(gè)公司,其壟斷了幾乎所有的Web搜索為其謀取商業(yè)利益,這顯然不利于廣大Internet用戶?,F(xiàn)在所有主要的搜索引擎都采用私有的排序算法,而不會解釋為什么一個(gè)網(wǎng)頁會排在一個(gè)特定的位置。與它們不同,Nucth沒有什么需要隱瞞,也沒有動(dòng)機(jī)去扭曲搜索的結(jié)果,Nutch將盡自己最大的努力為用戶提供最好的搜索結(jié)果。為了完成這一宏偉的目標(biāo),Nutch必須能夠每個(gè)月取幾十億網(wǎng)頁,為這些網(wǎng)頁建立一個(gè)索引,對索引文件進(jìn)行每秒上千次的搜索,提供高質(zhì)量的搜索結(jié)果并且以最小的成本運(yùn)作。Crawler主要用于從網(wǎng)絡(luò)上抓取網(wǎng)頁并為這些網(wǎng)頁建立索引。兩者之間的接口是索引,所以除去索引部分,兩者之間的耦合度很低。Tomcat是Apache軟件基金會(Apache Software Foundation)的Jakarta 項(xiàng)目中的一個(gè)核心項(xiàng)目,由Apache、Sun 和其他一些公司及個(gè)人共同開發(fā)而成。因?yàn)門omcat 技術(shù)先進(jìn)、性能穩(wěn)定,而且免費(fèi),因而深受Java 愛好者的喜愛并得到了部分軟件開發(fā)商的認(rèn)可,成為目前比較流行的Web 應(yīng)用服務(wù)器。對于一個(gè)初學(xué)者來說,可以這樣認(rèn)為,當(dāng)在一臺機(jī)器上配置好Apache 服務(wù)器,可利用它響應(yīng)對HTML 頁面的訪問請求。 這里的訣竅是,當(dāng)配置正確時(shí),Apache 為HTML頁面服務(wù),而Tomcat 實(shí)際上運(yùn)行JSP 頁面和Servlet。 Cygwin簡介Cygwin是一個(gè)運(yùn)行在 Windows 下的仿 Linux/Unix 環(huán)境,它由兩部分組成:一個(gè)用來充當(dāng) Linux API 仿真層的 dll 文件 ,它用來提供基礎(chǔ)的 Linux API 功能,另外是一些以 Linux 習(xí)慣工作的程序/工具包。Cygwin的主要目的是通過重新編譯,將POSIX系統(tǒng)(例如Linux、BSD以及其他Unix系統(tǒng))上的軟件移植到Windows上。2001年,新增了X Window System。 JSP簡介JSP(Java Server Pages)是目前十分流行的一種技術(shù),主要是用于開發(fā)服務(wù)端的腳本程序和動(dòng)態(tài)生成網(wǎng)站。JSP(Java Server Pages)是由Sun Microsystems公司倡導(dǎo)、許多公司參與一起建立的一種動(dòng)態(tài)網(wǎng)頁技術(shù)標(biāo)準(zhǔn)。 Web服務(wù)器在遇到訪問JSP網(wǎng)頁的請求時(shí),首先執(zhí)行其中的程序段,然后將執(zhí)行結(jié)果連同JSP文件中的HTML代碼一起返回給客戶。 JSP與Java Servlet一樣,是在服務(wù)器端執(zhí)行的,通常返回該客戶端的就是一個(gè)HTML文本,因此客戶端只要有瀏覽器就能瀏覽。服務(wù)器在頁面被客戶端請求以后對這些Java代碼進(jìn)行處理,然后將生成的HTML頁面返回給客戶端的瀏覽器。JSP具備了Java技術(shù)的簡單易用,完全的面向?qū)ο?,具有平臺無關(guān)性且安全可靠,主要面向因特網(wǎng)的所有特點(diǎn)。Java語言是當(dāng)今流行的網(wǎng)絡(luò)編程語言,它的面向?qū)ο?、跨平臺、分布應(yīng)用等特點(diǎn)給編程人員帶來了一種嶄新的計(jì)算機(jī)概念,使WWW從最初的單純提供靜態(tài)信息發(fā)展到現(xiàn)在的提供各種各樣的動(dòng)態(tài)服務(wù)。自從1995年正式問世以來,Java已經(jīng)逐步從一種單純的計(jì)算機(jī)高級編程語言發(fā)展為一種重要的Internet平臺,并進(jìn)而引發(fā)、帶動(dòng)了Java產(chǎn)業(yè)的發(fā)展和壯大,成為計(jì)算機(jī)業(yè)界不可忽視的力量和重要的發(fā)展潮流與方向。簡單地說,Java Application是完整的程序,需要獨(dú)立的解釋器來解釋運(yùn)行;而Java Applet則是嵌在HTML編寫的Web頁面的非獨(dú)立程序,由Web瀏覽器內(nèi)部包含的Java解釋器來運(yùn)行。Dreamweaver最主要的長處在于它的可擴(kuò)展性。隨著可擴(kuò)展性概念的引入,Dreamweaver中易于自定義的對象和行為得到了更為廣泛的應(yīng)用。第三章 需求分析需求分析的基本任務(wù)是為了滿足用戶的需要,系統(tǒng)必須完成哪些任務(wù),具備哪些功能和性能,并進(jìn)行系統(tǒng)數(shù)據(jù)要求的分析,以此導(dǎo)出系統(tǒng)的邏輯模型。面向主題的搜索引擎是針對某個(gè)特定領(lǐng)域進(jìn)行的搜索,其信息主要包含系統(tǒng)管理員信息、關(guān)鍵詞信息、待下載URL(Uniform Resource Locator)列表信息、網(wǎng)頁信息、網(wǎng)頁純文字信息、網(wǎng)頁索引信息等。關(guān)鍵詞信息是存儲有關(guān)主題的信息,關(guān)鍵詞信息包括關(guān)鍵詞內(nèi)容和關(guān)鍵詞權(quán)值。網(wǎng)頁信息包括網(wǎng)頁名稱、網(wǎng)頁內(nèi)容簡介、網(wǎng)頁地址、關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、與其他網(wǎng)頁的鏈接信息。網(wǎng)頁索引信息包括索引編號、索引名稱、網(wǎng)頁名稱、網(wǎng)頁內(nèi)容簡介、網(wǎng)頁地址、關(guān)鍵詞、關(guān)鍵詞位置。面向主題的搜索引擎是對通用搜索引擎的行業(yè)細(xì)分,專業(yè)性的服務(wù)對通用搜索引擎是必要和有益的。對關(guān)鍵詞的管理,管理員可以添加關(guān)鍵詞,這樣能夠擴(kuò)大主題資源的信息量,并且也使數(shù)據(jù)庫中的關(guān)鍵詞能夠有效的代表主題信息,在發(fā)現(xiàn)主題信息時(shí)能夠使網(wǎng)站具有代表性。面向主題資源發(fā)現(xiàn)采用元搜索的策略,即通過程序從大型通用搜索引擎中下載相關(guān)結(jié)果,得到的頁面中包含了大
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1