freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文-文庫吧資料

2024-09-06 11:23本頁面
  

【正文】 ad th = new Thread(new ThreadStart(UrlThread))。i++) { url=urlArr[i]。 //對(duì)前面獲取的URL列表循環(huán)的創(chuàng)建線程再執(zhí)行本方法實(shí)現(xiàn)爬蟲的維持 for(int i=0。|39。 } else { (對(duì)url:+URL+相關(guān)信息寫入數(shù)據(jù)庫失敗!)。))。,39。,39。,39。 URL != ) { (insert into WebContent(url,content,title,mata) values(39。 if((title != || title != ) amp。 mata=。 //去掉腳本的網(wǎng)頁文本 Content=parseHtml(PageString)。 title=GetTitle(PageString)。//從流中讀取網(wǎng)頁信息到字符串變量中 ()。 } StreamReader sr=new StreamReader(strm,(gb2312))。 } catch { (url無法找到!)。 try { Stream strm=null。 StringBuilder urlList = new StringBuilder()。 string URL=。 String Content=。再下步就是循環(huán)的對(duì)獲取到的URL列表創(chuàng)建線程,針對(duì)每個(gè)URL來循環(huán)的執(zhí)行上面的網(wǎng)頁信息的抓取操作。然后根據(jù)全局變量url抓取此URL的網(wǎng)頁信息到字節(jié)流變量里,經(jīng)過轉(zhuǎn)碼后讀取到變量PageString里,下步通過函數(shù)GetHttpUrl(PageString)對(duì)PageString中的URL標(biāo)記進(jìn)行提取并返回到urlList變量里,函數(shù)GetTitle(PageString)、parseScript(PageString)、parseHtml(PageString)、parseChar(Content)分別對(duì)網(wǎng)頁信息變量獲取標(biāo)題、去除腳本塊、去除HTML標(biāo)記、去除特殊字符操作。 爬蟲部分這部份的功能就是從輸入的URL開始遍歷各個(gè)相關(guān)的網(wǎng)頁,它包括三個(gè)功能模塊:網(wǎng)頁抓取模塊、網(wǎng)頁減肥模塊、爬蟲維持模塊。并可以定位到信息的出處。 關(guān)鍵代碼詳解 代碼結(jié)構(gòu)如圖6:數(shù)據(jù)庫網(wǎng)頁爬蟲Console端應(yīng)用程序索引生成Console端應(yīng)用 寫入 讀取 生成引用查詢Web程序 檢索圖6 代碼結(jié)構(gòu)在網(wǎng)頁爬蟲Console端應(yīng)用程序里輸入一個(gè)有效的URL后這部份就開始從第一個(gè)URL開始遍歷相關(guān)的鏈接并把相關(guān)的信息寫入到網(wǎng)頁數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫里,然后就由索引生成程序讀取網(wǎng)頁數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫,對(duì)每條記錄生成索引記錄,存放于生成的索引庫文件里。.NET是Microsoft面向Web服務(wù)的平臺(tái),由框架、Web服務(wù)、.NET企業(yè)服務(wù)器等幾部分組成,提供涉及面較廣、功能較全面的解決方案。在用Lucene的搜索引擎中,用到了Lucene提供的方法,可從所建立的索引文檔中獲得結(jié)果。所有的搜索引擎的目標(biāo)都是為了用戶查詢。針對(duì)不同的語言和應(yīng)用需要選擇適合的Analyzer。在一個(gè)文檔被索引之前,首先需要對(duì)文檔內(nèi)容進(jìn)行分詞處理,這部分工作就是由Analyzer來做的。一個(gè)Document對(duì)象由多個(gè)Field對(duì)象組成的。用同樣的方法繼續(xù)抓取網(wǎng)頁,這里將運(yùn)用到多線程技術(shù)。因?yàn)樽ト〉木W(wǎng)頁含有HTML標(biāo)簽、Javascript等,對(duì)搜索多余的信息,如果抓取到的網(wǎng)頁不經(jīng)過處理就會(huì)使搜索變得不夠精確。然后把抓取到的網(wǎng)頁信息包括網(wǎng)頁內(nèi)容、標(biāo)題、鏈接抓取時(shí)間等信息經(jīng)過‘減肥’后保存到網(wǎng)頁存儲(chǔ)數(shù)據(jù)庫表里。當(dāng)在獲取URL時(shí)存在這樣的問題就是在實(shí)際應(yīng)用中主要以絕對(duì)地址和相對(duì)地址來表現(xiàn)。從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。 功能流程圖 模塊圖該系統(tǒng)用3個(gè)模塊來實(shí)現(xiàn)搜索引擎的主要功能。表1 網(wǎng)頁數(shù)據(jù)存儲(chǔ)表邏輯字段名物理字段名字段類型是否為空主鍵外鍵說 明編號(hào)IDintNOT NULLYes自增加地址UrlVarchar(50)NOT NULL內(nèi)容ContentVARCHAR(1000)NOT NULLmeta標(biāo)簽內(nèi)容MataVarchar(100)NOT NULL網(wǎng)頁標(biāo)題TitleVarchar(100)NOT NULL創(chuàng)建時(shí)間CreatedateDatetime(8)NOT NULL 模塊設(shè)計(jì)該模型按照功能劃分為三個(gè)部分,一是爬蟲抓取網(wǎng)頁部分,二是從數(shù)據(jù)庫建立索引部分,三是從前臺(tái)頁面查詢部分。如圖4所示。索引生成包括:基于文本文件的索引、基于數(shù)據(jù)庫的索引。 搜索引擎模型模型包括爬蟲、索引生成、查詢以及系統(tǒng)配置部分。2.軟件環(huán)境:源端:Windows 2003/XP操作系統(tǒng)、MSSQL Server 2000數(shù)據(jù)庫、.NET 。輸出:Web頁面上顯示搜索信息。 輸入輸出要求輸入:搜索的關(guān)鍵字。 ,無論搜索的記錄多少。2. 時(shí)間特性要求: ,因?yàn)槭菍?duì)Internet網(wǎng)上Web信息的收集,并且采用URL級(jí)鏈?zhǔn)降木W(wǎng)頁收集。9. 邏輯搜索功能比如“中國”AND“北京”AND NOT(“海淀區(qū)”AND“中關(guān)村”)。7. 實(shí)現(xiàn)中英文分詞功能,能夠按中文或者英文單詞檢索數(shù)據(jù)。5. 對(duì)收集到的數(shù)據(jù)進(jìn)行關(guān)鍵詞的檢索。3. 對(duì)收集到的數(shù)據(jù)存入MSSQL Server 2000等關(guān)系型數(shù)據(jù)庫中、或者存入文本文件中。本設(shè)計(jì)要實(shí)現(xiàn)的功能:1. 能夠?qū)nternet上的網(wǎng)頁內(nèi)容、標(biāo)題、鏈接等信息按鏈?zhǔn)绞占?。由此可見,Ajax使得Web應(yīng)用更加動(dòng)態(tài),帶來了更高的智能,并且提供了表現(xiàn)能力豐富的Ajax UI組件。3. 系統(tǒng)僅由少量頁面組成。因此Ajax應(yīng)用與傳統(tǒng)的Web應(yīng)用的區(qū)別主要在三個(gè)地方:1. 不刷新整個(gè)頁面,在頁面內(nèi)與服務(wù)器通信。每個(gè)頁面上面都包括有一些使用JavaScript開發(fā)的Ajax組件。傳統(tǒng)的web應(yīng)用模型如圖2:用戶操作后等待……..服務(wù)器端處理客戶端頁面處理新的頁面呈現(xiàn)數(shù)據(jù)提交數(shù)據(jù)返回圖2 Web應(yīng)用模型與傳統(tǒng)的Web開發(fā)不同,Ajax并不是以一種基于靜態(tài)頁面的方式來看待Web應(yīng)用的。XMLHttpRequest的出現(xiàn)為Web開發(fā)提供了一種全新的可能性,甚至整個(gè)改變了人們對(duì)于Web應(yīng)用由什么來組成的看法。簡(jiǎn)而言之
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1