freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)-論文-閱讀頁

2024-09-12 11:23本頁面
  

【正文】 收集的存儲區(qū)里。收集數(shù)據(jù)時不能夠出現(xiàn)無響應(yīng)的等待。3. 靈活性。處理:去前后空格,關(guān)鍵字,查詢索引庫。 運行需求1.硬件環(huán)境需求:需要使用專用服務(wù)器,P4以上,512M以上內(nèi)存,80G以上硬盤;Internet網(wǎng)絡(luò)連接。4 方案設(shè)計結(jié)合前面的同步原理,以及需求的介紹,下面給出同步的方案設(shè)計。爬蟲包括:網(wǎng)頁抓取模塊、網(wǎng)頁減肥模塊、爬蟲維持模塊。查詢部分有Ajax、后臺處理、前臺界面模塊。圖4 系統(tǒng)模塊 數(shù)據(jù)庫的設(shè)計本課題包含一張用于存放抓取回來的網(wǎng)頁信息如表1。系統(tǒng)的功能流程()。流程如上圖所示。這條件可以是限定的謀個域名空間、或者是限定的網(wǎng)頁抓取級數(shù)。絕對地址是指一個準(zhǔn)確的、無歧義的Internet資源的位置,包含域名(主機名)、路徑名和文件名;相對地址是絕對地址的一部分。然后通過正則表達式,去掉多余的HTML標(biāo)簽。讓爬蟲程序能繼續(xù)運行下去,就得抓取這個網(wǎng)頁上的其它URL,所以要用正則將這個網(wǎng)頁上的所有URL都取出來放到一個隊列里。為了對文檔進行索引,Lucene提供了五個基礎(chǔ)的類,他們分別是Document,F(xiàn)ield,IndexWriter,Analyzer,Directory Document是用來描述文檔的,這里的文檔可以指一個HTML頁面,一封電子郵件,或者是一個文本文件??梢园岩粋€Document對象想象成數(shù)據(jù)庫中的一個記錄,而每個Field對象就是記錄的一個字段。Analyzer類是一個抽象類,它有多個實現(xiàn)。Analyzer把分詞后的內(nèi)容交給IndexWriter來建立索引。通過查詢頁面,輸入關(guān)鍵字,提交給系統(tǒng),程序就開始處理,最后把結(jié)果以列表的形式顯示出來。5 系統(tǒng)實現(xiàn) 開發(fā)環(huán)境開發(fā)平臺的選擇:。數(shù)據(jù)庫選擇:根據(jù)需求分析選擇了MSSQL Server 2000。索引生成后在查詢部分就能夠在網(wǎng)頁上輸入關(guān)鍵字,對剛才抓取的信息的查詢。下面對各部分關(guān)鍵代碼進行詳解。首先定義一些變量用于保存抓取到的網(wǎng)頁信息,urlList用于保存當(dāng)前頁面上的URL集合。再下步就是對獲取到的標(biāo)題、網(wǎng)頁內(nèi)容、鏈接等信息調(diào)用數(shù)據(jù)庫操作通用類DAI保存到數(shù)據(jù)庫里,這就實現(xiàn)了一個網(wǎng)頁的抓取。具體代碼如下:private static void UrlThread(){ String title=。 String mata=。 string[] urlArr = null。 Client=new ()。 try {//讀取一個URL的信息到流變量里 Stream strm=(url)。 return。 String PageString=()。 urlList = GetHttpUrl(PageString)。 Content = parseScript(PageString)。 //得到去了HTML標(biāo)簽的網(wǎng)頁文本 URL=url。 Content = parseChar(Content)。amp。+URL+39。+Content+39。+title+39。+mata+39。 (對url:+URL+相關(guān)信息寫入數(shù)據(jù)庫成功!)。 } urlArr=().Split(39。)。i。 if(url == || url == null || url == ) continue。 ()。主要通過Lucene提供的方法來協(xié)助實現(xiàn)。 在創(chuàng)建索引庫時,會合并多個Segments文件。(false)。(iDexDir,true)。DoIndexByDB(writer)。int docNum = ()。()。}使用Lucene提供的方法對數(shù)據(jù)庫中的每條記錄建立索引實現(xiàn)如下:Document doc = new Document()。((contents, row[content].ToString()))。((mata,row[mata].ToString()))。((Url,row[Url].ToString()))。(doc)。Ajax在此部分中被使用到,它完成的功能是部分刷新頁面,不需整個頁面的重新加載。在程序中注冊后,在html里就可以使用Javascript來調(diào)用后臺的程序。 }如果前臺Javascript需要調(diào)用某個方法,那就在那個函數(shù)前加上[],表示此方法屬于ajax應(yīng)用。(trtd結(jié)果數(shù):+result+amp。所用時間:+t+毫秒/td/tr)。 i endNum。Document doc = (i)。content=(keywords,font color=red+keywords+/font)。(tda href=+(Url)++(title)+/a/td)。 (tr class=+c+)。(/tr)。運行spider爬蟲,抓取網(wǎng)頁。圖10 search1當(dāng)在表單中輸入信息時,結(jié)果以列表形式顯示,其中關(guān)鍵字顯示為紅色,網(wǎng)頁的title顯示為藍(lán)色,其他信息包括搜集信息時的日期,內(nèi)容。該系統(tǒng)引入了當(dāng)前用于構(gòu)建搜索引擎的Lucene工具包,,充分利用Lucene所提供的工具,完成搜索引擎的基本功能。比較搜索引擎的實現(xiàn)方法。Ajax技術(shù)解決了數(shù)據(jù)與服務(wù)器的異步交互問題,在前臺不再出現(xiàn)整個頁面的重新加載。3. 用模塊的形式分步展示搜索引擎的原理。,使用Lucene工具包完成搜索引擎的基本功能,同時輔助Ajax技術(shù)優(yōu)化頁面體驗。比如爬蟲抓取十幾億網(wǎng)頁前后的程序處理。在現(xiàn)有水平和條件的限制下,本系統(tǒng)距離商業(yè)應(yīng)用的研究水平還差較多。相比之下,本系統(tǒng)的檢索能力就很有限制。參考文獻[1] 李剛,宋偉,邱哲.征服Ajax和Lucene構(gòu)建搜索引擎[M].北京:人民郵電出版社,2006。[3] #經(jīng)典范例50講[M].北京:北京希望電子出版社,2003。[5] 方睿,刁仁宏,[M].成都:四川大學(xué)出版社,2005。[7] Paul Nielsen[美].Microsoft SQL Server 2000寶典[M].劉瑞,陳微,閆繼忠,劉文[譯].北京:中國鐵道出版社,2004。在此向他表示我最衷心的感謝!在論文完成過程中,本人還得到了其他老師和許多同學(xué)的熱心幫助,本人向他們表示深深的謝意!最后向在百忙之中評審本文的各位專家、老師表示衷心的感謝!作者簡介:姓 名:閆秋云 性別:女出生年月:1984年10月 民族:漢Email:qiuyuny聲 明本論文的工作是2007年2月至2007年6月在成都信息工程學(xué)院網(wǎng)絡(luò)工程系完成的。除非另有說明,本文的工作是原始性工作。(2)學(xué)校可以采用影印、縮印或其他復(fù)制方式保存學(xué)位論文。(4)學(xué)??稍试S學(xué)位論文被查閱或借閱。除非另有科研合同和其他法律文書的制約,本論文的科研成果屬于成都信息工程學(xué)院
點擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1