freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文(留存版)

2025-10-08 11:23上一頁面

下一頁面
  

【正文】 信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。和Java 。Ajax技術(shù)之中,核心的技術(shù)就是XMLHttpRequest,它最初的名稱叫做XMLHTTP,是微軟公司為了滿足開發(fā)者的需要。3 需求分析 同步環(huán)境本系統(tǒng)的同步環(huán)境如圖3:圖3 同步環(huán)境檢索服務(wù)器通過Internet檢索Web頁面。處理:去前后空格,關(guān)鍵字,查詢索引庫。這條件可以是限定的謀個(gè)域名空間、或者是限定的網(wǎng)頁抓取級數(shù)。通過查詢頁面,輸入關(guān)鍵字,提交給系統(tǒng),程序就開始處理,最后把結(jié)果以列表的形式顯示出來。 String mata=。 //得到去了HTML標(biāo)簽的網(wǎng)頁文本 URL=url。 } urlArr=().Split(39。(iDexDir,true)。(doc)。content=(keywords,font color=red+keywords+/font)。Ajax技術(shù)解決了數(shù)據(jù)與服務(wù)器的異步交互問題,在前臺不再出現(xiàn)整個(gè)頁面的重新加載。[5] 方睿,刁仁宏,[M].成都:四川大學(xué)出版社,2005。除非另有科研合同和其他法律文書的制約,本論文的科研成果屬于成都信息工程學(xué)院。參考文獻(xiàn)[1] 李剛,宋偉,邱哲.征服Ajax和Lucene構(gòu)建搜索引擎[M].北京:人民郵電出版社,2006。該系統(tǒng)引入了當(dāng)前用于構(gòu)建搜索引擎的Lucene工具包,,充分利用Lucene所提供的工具,完成搜索引擎的基本功能。 i endNum。((mata,row[mata].ToString()))。 在創(chuàng)建索引庫時(shí),會合并多個(gè)Segments文件。+mata+39。 urlList = GetHttpUrl(PageString)。再下步就是對獲取到的標(biāo)題、網(wǎng)頁內(nèi)容、鏈接等信息調(diào)用數(shù)據(jù)庫操作通用類DAI保存到數(shù)據(jù)庫里,這就實(shí)現(xiàn)了一個(gè)網(wǎng)頁的抓取。Analyzer類是一個(gè)抽象類,它有多個(gè)實(shí)現(xiàn)。系統(tǒng)的功能流程()。收集數(shù)據(jù)時(shí)不能夠出現(xiàn)無響應(yīng)的等待。2. 使用異步方式與服務(wù)器通信,不需要打斷用戶的操作,具有更加迅速的響應(yīng)能力。搜索引擎首先會對搜索的關(guān)鍵詞進(jìn)行解析,然后再在建立好的索引上面進(jìn)行查找,最終返回和用戶輸入的關(guān)鍵詞相關(guān)聯(lián)的文檔。接下來在索引數(shù)據(jù)庫中搜索排序,當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個(gè)網(wǎng)頁并對網(wǎng)頁中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。但是翻譯僅僅是學(xué)術(shù)方面的應(yīng)用,更重要的是Google建立起來的海量搜索歷史記錄。論文詳細(xì)說明了系統(tǒng)開發(fā)的背景,開發(fā)環(huán)境,系統(tǒng)的需求分析,以及功能的設(shè)計(jì)與實(shí)現(xiàn)。Lucene是Java世界中常用的索引API,使用它提供的方法可以為文本資料創(chuàng)建索引,并提供檢索。這也意味著搜索不再是簡單的技術(shù)或者是網(wǎng)絡(luò)導(dǎo)航而已,而是會成為普通人生活中必備的工具之一。全文搜索引擎的 “網(wǎng)絡(luò)蜘蛛”能夠掃描一定地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁到另一個(gè)網(wǎng)頁,從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁資料。為什么索引這么重要呢,試想你現(xiàn)在要在大量的文檔中搜索含有某個(gè)關(guān)鍵詞的文檔,那么如果不建立索引的話你就需要把這些文檔順序的讀入內(nèi)存,然后檢查這個(gè)文章中是不是含有要查找的關(guān)鍵詞,這樣的話就會耗費(fèi)非常多的時(shí)間,想想搜索引擎可是在毫秒級的時(shí)間內(nèi)查找出要搜索的結(jié)果的。XMLHttpRequest的出現(xiàn)為Web開發(fā)提供了一種全新的可能性,甚至整個(gè)改變了人們對于Web應(yīng)用由什么來組成的看法。5. 對收集到的數(shù)據(jù)進(jìn)行關(guān)鍵詞的檢索。 搜索引擎模型模型包括爬蟲、索引生成、查詢以及系統(tǒng)配置部分。因?yàn)樽ト〉木W(wǎng)頁含有HTML標(biāo)簽、Javascript等,對搜索多余的信息,如果抓取到的網(wǎng)頁不經(jīng)過處理就會使搜索變得不夠精確。 關(guān)鍵代碼詳解 代碼結(jié)構(gòu)如圖6:數(shù)據(jù)庫網(wǎng)頁爬蟲Console端應(yīng)用程序索引生成Console端應(yīng)用 寫入 讀取 生成引用查詢Web程序 檢索圖6 代碼結(jié)構(gòu)在網(wǎng)頁爬蟲Console端應(yīng)用程序里輸入一個(gè)有效的URL后這部份就開始從第一個(gè)URL開始遍歷相關(guān)的鏈接并把相關(guān)的信息寫入到網(wǎng)頁數(shù)據(jù)存儲數(shù)據(jù)庫里,然后就由索引生成程序讀取網(wǎng)頁數(shù)據(jù)存儲數(shù)據(jù)庫,對每條記錄生成索引記錄,存放于生成的索引庫文件里。 try { Stream strm=null。 URL != ) { (insert into WebContent(url,content,title,mata) values(39。i++) { url=urlArr[i]。(Index Finished. {0} Documents takes {1} second.,docNum, ((TimeSpan)(end start)).TotalSeconds)。選取部分代碼來說明:首先在頁面后臺程序中進(jìn)行Ajax注冊,代碼如下:private void Page_Load(object sender, e) { //ajax注冊 (typeof(Search))。(td+content+br+(CreateDate)+/td)。但從總的情況看來,使用Ajax 和Lucene構(gòu)建搜索引擎還有不完善的地方,系統(tǒng)還存在很多有待解決的問題,主要的表現(xiàn)有以下幾個(gè)方面:1. 全世界對搜索引擎的研究一直不斷的深入,搜索引擎原理的每一步,從數(shù)據(jù)庫到前臺頁面,都是可能要經(jīng)過十幾億數(shù)據(jù)的考驗(yàn),應(yīng)有很復(fù)雜的算法來處理。文中除了特別加以標(biāo)注地方外,不包含他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得成都信息工程學(xué)院或其他教學(xué)機(jī)構(gòu)的學(xué)位或證書而使用過的材料。關(guān)于學(xué)位論文使用權(quán)和研究成果知識產(chǎn)權(quán)的說明:本人完全了解成都信息工程學(xué)院有關(guān)保管使用學(xué)位論文的規(guī)定,其中包括:(1)學(xué)校有權(quán)保管并向有關(guān)部門遞交學(xué)位論文的原件與復(fù)印件。同時(shí),搜索引擎的速度,智能都需要很完善的優(yōu)化處理。}}6 測試為了檢驗(yàn)搜索引擎的基本功能是否實(shí)現(xiàn),過程是否出現(xiàn)錯(cuò)誤,以及是否達(dá)到了需求說明中所定義的需求,測試結(jié)果介紹如下: 功能測試第一步:確定數(shù)據(jù)庫中數(shù)據(jù)為空。[]public string SearchResult(string keywords,string pageNo){其中,前臺所存在的文字的代碼如下:StringBuilder sb = new StringBuilder()。()。 Thread th = new Thread(new ThreadStart(UrlThread))。,39。 } catch {
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1