freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

畢業(yè)設計-基于ajaxlucene構建搜索引擎的設計和實現-論文-wenkub

2022-09-21 11:23:20 本頁面
 

【正文】 jax+Lucene構建搜索引擎的設計與實現摘 要通過搜索引擎從互聯網上獲取有用信息已經成為人們生活的重要組成部分,Lucene是構建搜索引擎的其中一種方式。同時講述了搜索引擎的原理,系統(tǒng)功能,并探討使用Ajax與服務器進行數據異步交互,從而改善現有的Web應用模式。 Ajax。Lucene是Java世界中常用的索引API,使用它提供的方法可以為文本資料創(chuàng)建索引,并提供檢索。Google專業(yè)領域搜索方面做的成效是有目共睹的。如果把這些海量搜索歷史記錄當作是詞典的話,那么如果與搜索技術的結合發(fā)展成為低層次的只能搜索,那么應用就將大大加強與廣泛。目前國內外都在做中文引擎,門戶網站、非門戶網站也都在進軍搜索業(yè),成立搜索門戶。這也意味著搜索不再是簡單的技術或者是網絡導航而已,而是會成為普通人生活中必備的工具之一。由于Lucene不是完整的搜索引擎程序,只為搜索引擎應用提供了工具包。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。從搜索來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,并自建網頁數據庫,搜索結果直接從自身的數據庫中調用;另一種則是租用其他引擎的數據庫,并按自定的格式排列搜索結果。全文搜索引擎的 “網絡蜘蛛”能夠掃描一定地址范圍內的網站,并沿著網絡上的鏈接從一個網頁到另一個網頁,從一個網站到另一個網站采集網頁資料。不同的搜索引擎,網頁索引數據庫不同,搜索結果也就不盡相同。最后,由頁面生成系統(tǒng)將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。Lucene能夠為文本類型的數據建立索引,所以你只要能把你要索引的數據格式轉化的文本的,Lucene就能對你的文檔進行索引和搜索。為什么索引這么重要呢,試想你現在要在大量的文檔中搜索含有某個關鍵詞的文檔,那么如果不建立索引的話你就需要把這些文檔順序的讀入內存,然后檢查這個文章中是不是含有要查找的關鍵詞,這樣的話就會耗費非常多的時間,想想搜索引擎可是在毫秒級的時間內查找出要搜索的結果的。這樣在用戶輸入查詢條件的時候,就能非??斓牡玫剿阉鹘Y果。 Ajax技術Ajax全稱為“Asynchronous JavaScript and XML”(異步JavaScript和XML),是指一種創(chuàng)建交互式網頁應用的網頁開發(fā)技術。后來這個技術被上述的規(guī)范命名為XMLHttpRequest。XMLHttpRequest的出現為Web開發(fā)提供了一種全新的可能性,甚至整個改變了人們對于Web應用由什么來組成的看法。每個頁面上面都包括有一些使用JavaScript開發(fā)的Ajax組件。3. 系統(tǒng)僅由少量頁面組成。本設計要實現的功能:1. 能夠對Internet上的網頁內容、標題、鏈接等信息按鏈式收集。5. 對收集到的數據進行關鍵詞的檢索。9. 邏輯搜索功能比如“中國”AND“北京”AND NOT(“海淀區(qū)”AND“中關村”)。 ,無論搜索的記錄多少。輸出:Web頁面上顯示搜索信息。 搜索引擎模型模型包括爬蟲、索引生成、查詢以及系統(tǒng)配置部分。如圖4所示。 功能流程圖 模塊圖該系統(tǒng)用3個模塊來實現搜索引擎的主要功能。當在獲取URL時存在這樣的問題就是在實際應用中主要以絕對地址和相對地址來表現。因為抓取的網頁含有HTML標簽、Javascript等,對搜索多余的信息,如果抓取到的網頁不經過處理就會使搜索變得不夠精確。一個Document對象由多個Field對象組成的。針對不同的語言和應用需要選擇適合的Analyzer。在用Lucene的搜索引擎中,用到了Lucene提供的方法,可從所建立的索引文檔中獲得結果。 關鍵代碼詳解 代碼結構如圖6:數據庫網頁爬蟲Console端應用程序索引生成Console端應用 寫入 讀取 生成引用查詢Web程序 檢索圖6 代碼結構在網頁爬蟲Console端應用程序里輸入一個有效的URL后這部份就開始從第一個URL開始遍歷相關的鏈接并把相關的信息寫入到網頁數據存儲數據庫里,然后就由索引生成程序讀取網頁數據存儲數據庫,對每條記錄生成索引記錄,存放于生成的索引庫文件里。 爬蟲部分這部份的功能就是從輸入的URL開始遍歷各個相關的網頁,它包括三個功能模塊:網頁抓取模塊、網頁減肥模塊、爬蟲維持模塊。再下步就是循環(huán)的對獲取到的URL列表創(chuàng)建線程,針對每個URL來循環(huán)的執(zhí)行上面的網頁信息的抓取操作。 string URL=。 try { Stream strm=null。 } StreamReader sr=new StreamReader(strm,(gb2312))。 title=GetTitle(PageString)。 mata=。 URL != ) { (insert into WebContent(url,content,title,mata) values(39。,39。))。|39。i++) { url=urlArr[i]。 } } catch{}}這部分包含對文本的索引生成以及對數據庫數據的索引生成,下面只對數據庫索引生成的關鍵代碼進行介紹:下面這段代碼實現對數據庫里存儲的記錄創(chuàng)建索引。此方式有助于減少索引文件數量,減少同時打開的文件數量。endregionDateTime start = 。(Index Finished. {0} Documents takes {1} second.,docNum, ((TimeSpan)(end start)).TotalSeconds)。 (Indexing {0} , row[title].ToString())。((CreateDate,row[CreateDate].ToString()))。這部分主要完成的功能是獲取前臺表單中輸入的關鍵字,在程序中獲取查詢結果,最后把列表顯示在前臺頁面。選取部分代碼來說明:首先在頁面后臺程序中進行Ajax注冊,代碼如下:private void Page_Load(object sender, e) { //ajax注冊 (typeof(Search))。nbsp。 i++){在顯示內容中,仍然使用到了Lucene提供的類,可以方便的從所建立的索引文檔中獲取網址,網頁標題,內容,時間。(tr class=+c+)。(td+content+br+(CreateDate)+/td)。運行界面及過程如圖7:圖7 spider第二步:運行index模塊,把數據庫中的記錄建立索引,運行界面及過程如下:
點擊復制文檔內容
醫(yī)療健康相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1