【正文】
,XMLHttpRequest為運(yùn)行于瀏覽器中的JavaScript腳本提供了一種在頁(yè)面之內(nèi)與服務(wù)器通信的手段。后來(lái)這個(gè)技術(shù)被上述的規(guī)范命名為XMLHttpRequest。包括:HTML和CSS,使用文檔對(duì)象模型DOM作動(dòng)態(tài)顯示和交互,使用XML做數(shù)據(jù)交互和操作,使用XMLHttpRequest進(jìn)行異步數(shù)據(jù)接收,使用JavaScript將它們綁定在一起。 Ajax技術(shù)Ajax全稱為“Asynchronous JavaScript and XML”(異步JavaScript和XML),是指一種創(chuàng)建交互式網(wǎng)頁(yè)應(yīng)用的網(wǎng)頁(yè)開(kāi)發(fā)技術(shù)。對(duì)文檔建立好索引后,就可以在這些索引上面進(jìn)行搜索了。這樣在用戶輸入查詢條件的時(shí)候,就能非常快的得到搜索結(jié)果。Lucene采用的是一種稱為反向索引(inverted index)的機(jī)制。為什么索引這么重要呢,試想你現(xiàn)在要在大量的文檔中搜索含有某個(gè)關(guān)鍵詞的文檔,那么如果不建立索引的話你就需要把這些文檔順序的讀入內(nèi)存,然后檢查這個(gè)文章中是不是含有要查找的關(guān)鍵詞,這樣的話就會(huì)耗費(fèi)非常多的時(shí)間,想想搜索引擎可是在毫秒級(jí)的時(shí)間內(nèi)查找出要搜索的結(jié)果的。不規(guī)定要索引的文檔的格式也使Lucene能夠適用于幾乎所有的搜索應(yīng)用程序。Lucene能夠?yàn)槲谋绢愋偷臄?shù)據(jù)建立索引,所以你只要能把你要索引的數(shù)據(jù)格式轉(zhuǎn)化的文本的,Lucene就能對(duì)你的文檔進(jìn)行索引和搜索。 Lucene與搜索引擎Lucene是一個(gè)全文信息檢索工具包,為應(yīng)用程序提供索引和搜索功能。最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。然后建立索引數(shù)據(jù)庫(kù),由分析索引程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。不同的搜索引擎,網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)不同,搜索結(jié)果也就不盡相同。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁(yè),還要有其它程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁(yè)索引,才能添加到索引數(shù)據(jù)庫(kù)中。全文搜索引擎的 “網(wǎng)絡(luò)蜘蛛”能夠掃描一定地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁(yè)到另一個(gè)網(wǎng)頁(yè),從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁(yè)資料。另外,在網(wǎng)上的一些導(dǎo)航站點(diǎn),也可以歸屬為原始的分類目錄。從搜索來(lái)源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,并自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用;另一種則是租用其他引擎的數(shù)據(jù)庫(kù),并按自定的格式排列搜索結(jié)果。按照工作原理的不同,可以把它們分為兩個(gè)基本類別:全文搜索和分類目錄。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁(yè)面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結(jié)果被搜出來(lái)。2 全文搜索引擎 搜索引擎的分類獲得網(wǎng)站網(wǎng)頁(yè)資料,能夠建立數(shù)據(jù)庫(kù)并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。由于Lucene不是完整的搜索引擎程序,只為搜索引擎應(yīng)用提供了工具包??梢院芊奖愕臉?gòu)建起搜索引擎,本畢業(yè)設(shè)計(jì)除了考查使學(xué)生綜合運(yùn)用以前所學(xué)知識(shí)的能力,同時(shí)也使學(xué)生了解當(dāng)今搜索及編程的一些新技術(shù),并模擬簡(jiǎn)單的搜索引擎開(kāi)發(fā)。這也意味著搜索不再是簡(jiǎn)單的技術(shù)或者是網(wǎng)絡(luò)導(dǎo)航而已,而是會(huì)成為普通人生活中必備的工具之一。如何將人類的知識(shí)和智能加入到檢索中,如何使搜索引擎的質(zhì)量產(chǎn)生一個(gè)質(zhì)的飛躍,也是國(guó)內(nèi)搜索引擎努力的方向。目前國(guó)內(nèi)外都在做中文引擎,門戶網(wǎng)站、非門戶網(wǎng)站也都在進(jìn)軍搜索業(yè),成立搜索門戶。國(guó)內(nèi)比較著名的比如百度,更專注對(duì)中文的處理。如果把這些海量搜索歷史記錄當(dāng)作是詞典的話,那么如果與搜索技術(shù)的結(jié)合發(fā)展成為低層次的只能搜索,那么應(yīng)用就將大大加強(qiáng)與廣泛。利用搜索技術(shù),加上經(jīng)驗(yàn)主義發(fā)展出來(lái)的Google翻譯機(jī)器人,在外語(yǔ)翻譯方面已經(jīng)比傳統(tǒng)的翻譯好很多了。Google專業(yè)領(lǐng)域搜索方面做的成效是有目共睹的。 國(guó)內(nèi)外研究現(xiàn)狀國(guó)內(nèi)外對(duì)搜索引擎研究比較著名的便是Google了。Lucene是Java世界中常用的索引API,使用它提供的方法可以為文本資料創(chuàng)建索引,并提供檢索。Lucene目前是Apache Jakarta家族中的一個(gè)開(kāi)源項(xiàng)目。 Ajax。s lives. Lucene is the way of constructing search engine. This system is based on the .Net platform using C. The database is MSSQL Server 2000. Main functions are grasping web pages with crawls, adding effective information to the database, establishing index with Lucene, searching through keywords, and displaying the results finally.This paper has showed the principle of search engine in the form of different modules, functions of this system, improving traditional web application model using Ajax. It shows explanation of the system’s background, development environment, system analysis of demanding, and functions of design.Key words: 。同時(shí)講述了搜索引擎的原理,系統(tǒng)功能,并探討使用Ajax與服務(wù)器進(jìn)行數(shù)據(jù)異步交互,從而改善現(xiàn)有的Web應(yīng)用模式。主要完成的功能有:用爬蟲(chóng)抓取網(wǎng)頁(yè);獲取有效信息放入數(shù)據(jù)庫(kù);通過(guò)Lucene建立索引;對(duì)簡(jiǎn)單關(guān)鍵字進(jìn)行搜索;使用Ajax的局部刷新頁(yè)面展示結(jié)果。畢業(yè)設(shè)計(jì)(論文)基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)論文作者姓名:申請(qǐng)學(xué)位專業(yè):申請(qǐng)學(xué)位類別:指導(dǎo)教師姓名(職稱):論文提交日期:基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)摘 要通過(guò)搜索引擎從互聯(lián)網(wǎng)上獲取有用信息已經(jīng)成為人們生活的重要組成部分,Lucene是構(gòu)建搜索引擎的其中一種方式。開(kāi)發(fā)的,數(shù)據(jù)庫(kù)是MSSQL Server 2000。論文詳細(xì)說(shuō)明了系統(tǒng)開(kāi)發(fā)的背景,開(kāi)發(fā)環(huán)境,系統(tǒng)的需求分析,以及功能的設(shè)計(jì)與實(shí)現(xiàn)。關(guān)鍵詞:;異步更新;Ajax;搜索引擎The Design and Implementation for Constructing the Search Engine with Ajax and LuceneAbstractObtaining