正文內(nèi)容

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文-文庫吧資料

2024-09-06 11:23本頁面

　　

【正文】 ad th = new Thread(new ThreadStart(UrlThread))。i++) { url=urlArr[i]。 //對(duì)前面獲取的URL列表循環(huán)的創(chuàng)建線程再執(zhí)行本方法實(shí)現(xiàn)爬蟲的維持 for(int i=0。|39。 } else { (對(duì)url:+URL+相關(guān)信息寫入數(shù)據(jù)庫失敗!)。))。,39。,39。,39。 URL != ) { (insert into WebContent(url,content,title,mata) values(39。 if((title != || title != ) amp。 mata=。 //去掉腳本的網(wǎng)頁文本 Content=parseHtml(PageString)。 title=GetTitle(PageString)。//從流中讀取網(wǎng)頁信息到字符串變量中 ()。 } StreamReader sr=new StreamReader(strm,(gb2312))。 } catch { (url無法找到！)。 try { Stream strm=null。 StringBuilder urlList = new StringBuilder()。 string URL=。 String Content=。再下步就是循環(huán)的對(duì)獲取到的URL列表創(chuàng)建線程，針對(duì)每個(gè)URL來循環(huán)的執(zhí)行上面的網(wǎng)頁信息的抓取操作。然后根據(jù)全局變量url抓取此URL的網(wǎng)頁信息到字節(jié)流變量里，經(jīng)過轉(zhuǎn)碼后讀取到變量PageString里，下步通過函數(shù)GetHttpUrl(PageString)對(duì)PageString中的URL標(biāo)記進(jìn)行提取并返回到urlList變量里，函數(shù)GetTitle(PageString)、parseScript(PageString)、parseHtml(PageString)、parseChar(Content)分別對(duì)網(wǎng)頁信息變量獲取標(biāo)題、去除腳本塊、去除HTML標(biāo)記、去除特殊字符操作。爬蟲部分這部份的功能就是從輸入的URL開始遍歷各個(gè)相關(guān)的網(wǎng)頁，它包括三個(gè)功能模塊：網(wǎng)頁抓取模塊、網(wǎng)頁減肥模塊、爬蟲維持模塊。并可以定位到信息的出處。關(guān)鍵代碼詳解代碼結(jié)構(gòu)如圖6：數(shù)據(jù)庫網(wǎng)頁爬蟲Console端應(yīng)用程序索引生成Console端應(yīng)用寫入讀取生成引用查詢Web程序檢索圖6 代碼結(jié)構(gòu)在網(wǎng)頁爬蟲Console端應(yīng)用程序里輸入一個(gè)有效的URL后這部份就開始從第一個(gè)URL開始遍歷相關(guān)的鏈接并把相關(guān)的信息寫入到網(wǎng)頁數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫里，然后就由索引生成程序讀取網(wǎng)頁數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫，對(duì)每條記錄生成索引記錄，存放于生成的索引庫文件里。.NET是Microsoft面向Web服務(wù)的平臺(tái)，由框架、Web服務(wù)、.NET企業(yè)服務(wù)器等幾部分組成，提供涉及面較廣、功能較全面的解決方案。在用Lucene的搜索引擎中，用到了Lucene提供的方法，可從所建立的索引文檔中獲得結(jié)果。所有的搜索引擎的目標(biāo)都是為了用戶查詢。針對(duì)不同的語言和應(yīng)用需要選擇適合的Analyzer。在一個(gè)文檔被索引之前，首先需要對(duì)文檔內(nèi)容進(jìn)行分詞處理，這部分工作就是由Analyzer來做的。一個(gè)Document對(duì)象由多個(gè)Field對(duì)象組成的。用同樣的方法繼續(xù)抓取網(wǎng)頁，這里將運(yùn)用到多線程技術(shù)。因?yàn)樽ト〉木W(wǎng)頁含有HTML標(biāo)簽、Javascript等，對(duì)搜索多余的信息，如果抓取到的網(wǎng)頁不經(jīng)過處理就會(huì)使搜索變得不夠精確。然后把抓取到的網(wǎng)頁信息包括網(wǎng)頁內(nèi)容、標(biāo)題、鏈接抓取時(shí)間等信息經(jīng)過‘減肥’后保存到網(wǎng)頁存儲(chǔ)數(shù)據(jù)庫表里。當(dāng)在獲取URL時(shí)存在這樣的問題就是在實(shí)際應(yīng)用中主要以絕對(duì)地址和相對(duì)地址來表現(xiàn)。從一個(gè)或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。功能流程圖模塊圖該系統(tǒng)用3個(gè)模塊來實(shí)現(xiàn)搜索引擎的主要功能。表1 網(wǎng)頁數(shù)據(jù)存儲(chǔ)表邏輯字段名物理字段名字段類型是否為空主鍵外鍵說明編號(hào)IDintNOT NULLYes自增加地址UrlVarchar(50)NOT NULL內(nèi)容ContentVARCHAR(1000)NOT NULLmeta標(biāo)簽內(nèi)容MataVarchar(100)NOT NULL網(wǎng)頁標(biāo)題TitleVarchar(100)NOT NULL創(chuàng)建時(shí)間CreatedateDatetime(8)NOT NULL 模塊設(shè)計(jì)該模型按照功能劃分為三個(gè)部分，一是爬蟲抓取網(wǎng)頁部分，二是從數(shù)據(jù)庫建立索引部分，三是從前臺(tái)頁面查詢部分。如圖4所示。索引生成包括：基于文本文件的索引、基于數(shù)據(jù)庫的索引。搜索引擎模型模型包括爬蟲、索引生成、查詢以及系統(tǒng)配置部分。2．軟件環(huán)境：源端：Windows 2003/XP操作系統(tǒng)、MSSQL Server 2000數(shù)據(jù)庫、.NET 。輸出：Web頁面上顯示搜索信息。輸入輸出要求輸入：搜索的關(guān)鍵字。，無論搜索的記錄多少。2. 時(shí)間特性要求：，因?yàn)槭菍?duì)Internet網(wǎng)上Web信息的收集，并且采用URL級(jí)鏈?zhǔn)降木W(wǎng)頁收集。9. 邏輯搜索功能比如“中國”AND“北京”AND NOT（“海淀區(qū)”AND“中關(guān)村”）。7. 實(shí)現(xiàn)中英文分詞功能，能夠按中文或者英文單詞檢索數(shù)據(jù)。5. 對(duì)收集到的數(shù)據(jù)進(jìn)行關(guān)鍵詞的檢索。3. 對(duì)收集到的數(shù)據(jù)存入MSSQL Server 2000等關(guān)系型數(shù)據(jù)庫中、或者存入文本文件中。本設(shè)計(jì)要實(shí)現(xiàn)的功能：1. 能夠?qū)nternet上的網(wǎng)頁內(nèi)容、標(biāo)題、鏈接等信息按鏈?zhǔn)绞占?。由此可見，Ajax使得Web應(yīng)用更加動(dòng)態(tài)，帶來了更高的智能，并且提供了表現(xiàn)能力豐富的Ajax UI組件。3. 系統(tǒng)僅由少量頁面組成。因此Ajax應(yīng)用與傳統(tǒng)的Web應(yīng)用的區(qū)別主要在三個(gè)地方：1. 不刷新整個(gè)頁面，在頁面內(nèi)與服務(wù)器通信。每個(gè)頁面上面都包括有一些使用JavaScript開發(fā)的Ajax組件。傳統(tǒng)的web應(yīng)用模型如圖2：用戶操作后等待……..服務(wù)器端處理客戶端頁面處理新的頁面呈現(xiàn)數(shù)據(jù)提交數(shù)據(jù)返回圖2 Web應(yīng)用模型與傳統(tǒng)的Web開發(fā)不同，Ajax并不是以一種基于靜態(tài)頁面的方式來看待Web應(yīng)用的。XMLHttpRequest的出現(xiàn)為Web開發(fā)提供了一種全新的可能性，甚至整個(gè)改變了人們對(duì)于Web應(yīng)用由什么來組成的看法。簡(jiǎn)而言之

點(diǎn)擊復(fù)制文檔內(nèi)容

醫(yī)療健康相關(guān)推薦

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)—畢業(yè)設(shè)計(jì)論文-文庫吧資料

【摘要】本科畢業(yè)設(shè)計(jì)題目：基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)系別：專業(yè)：計(jì)算機(jī)科學(xué)與技術(shù)班級(jí)：學(xué)號(hào)：

2024-12-01 16:36

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-文庫吧資料

【摘要】本科畢業(yè)論文（設(shè)計(jì)、創(chuàng)作）題目：基于Web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)DesignandImplementationofWeb-basedsearchengine學(xué)生姓名：楊衛(wèi)中學(xué)號(hào)：0802115所在院系：信息與通信技術(shù)系專業(yè)：電子信息工程入學(xué)時(shí)間：2008

2025-06-29 21:30

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-文庫吧資料

2024-09-08 17:54

畢業(yè)設(shè)計(jì)---基于asp的搜索引擎開發(fā)-畢業(yè)設(shè)計(jì)-文庫吧資料

【摘要】基于ASP的搜索引擎的開發(fā)論文作者姓名：申請(qǐng)學(xué)位專業(yè)：申請(qǐng)學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：基于ASP的搜索引擎的開發(fā)摘要隨著互聯(lián)網(wǎng)和寬帶上網(wǎng)的普及，搜索引擎在中國異軍突起，并日益滲透到人們的日常生活中。在互聯(lián)網(wǎng)普及

2025-01-27 04:50

基于lucene的站內(nèi)搜索引擎的設(shè)計(jì)實(shí)現(xiàn)論文-文庫吧資料

【摘要】畢業(yè)論文第I頁基于LUCENE的站內(nèi)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)摘要LUCENE[1]是apache軟件基金會(huì)jakarta項(xiàng)目組的一個(gè)子項(xiàng)目，是一個(gè)開放源代碼的全文檢索引擎工具包，即它不是一個(gè)完整的全文檢索引擎，而是一個(gè)全文檢索引擎的架構(gòu)，提供了完整的查詢引擎和索引引擎，LUCENE

2024-11-18 15:58

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-文庫吧資料

【摘要】江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）I全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文目錄1緒論...................................................................................1課題背景及介紹.....................................

2025-07-04 12:48

畢業(yè)設(shè)計(jì)-一個(gè)小型搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-論文-文庫吧資料

【摘要】畢業(yè)設(shè)計(jì)(論文)一個(gè)小型搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)論文作者姓名：申請(qǐng)學(xué)位專業(yè)：申請(qǐng)學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：一個(gè)小型搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)摘要隨著互聯(lián)網(wǎng)和寬帶上網(wǎng)的普

2024-12-09 17:24

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-文庫吧資料

【摘要】江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）I作者聲明本人鄭重聲明：所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。本人完全了解有關(guān)保障、使用學(xué)位論文的規(guī)定，同意學(xué)校保留并向有關(guān)學(xué)位論文管理機(jī)構(gòu)送交論文的復(fù)印件和電子版。同意省級(jí)優(yōu)秀學(xué)位

2025-07-04 13:40

淺議seo搜索引擎優(yōu)化_畢業(yè)設(shè)計(jì)論文-文庫吧資料

【摘要】淺議SEO搜索引擎優(yōu)化_畢業(yè)設(shè)計(jì)論文畢業(yè)設(shè)計(jì)（論文）題目：淺議SEO搜索引擎優(yōu)化系別：信息技術(shù)系專業(yè)：電子商務(wù)年級(jí)：09電子商務(wù)G3（年月）目錄摘要4第一章SEO概述5SEO的定義

2024-12-10 06:25

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-文庫吧資料

2024-09-04 16:43

基于java的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-文庫吧資料

【摘要】摘要網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個(gè)問題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu)，然后從網(wǎng)絡(luò)機(jī)器人、索引引擎、Web服務(wù)器三個(gè)方面進(jìn)行詳細(xì)的說明。為了更加深刻的理解這種技術(shù)，本人還親自實(shí)現(xiàn)了一個(gè)自己的搜索引擎——新聞搜索引擎。新聞搜索引擎是從指定的Web頁面中按照超連接進(jìn)行解析、搜索

2025-06-29 07:09

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文-文庫吧資料

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)—畢業(yè)設(shè)計(jì)論文-文庫吧資料

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-文庫吧資料

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-文庫吧資料

畢業(yè)設(shè)計(jì)---基于asp的搜索引擎開發(fā)-畢業(yè)設(shè)計(jì)-文庫吧資料

基于lucene的站內(nèi)搜索引擎的設(shè)計(jì)實(shí)現(xiàn)論文-文庫吧資料

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-文庫吧資料

畢業(yè)設(shè)計(jì)-一個(gè)小型搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-論文-文庫吧資料

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-文庫吧資料

淺議seo搜索引擎優(yōu)化_畢業(yè)設(shè)計(jì)論文-文庫吧資料

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-文庫吧資料

基于java的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-文庫吧資料

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)—計(jì)算機(jī)畢業(yè)設(shè)計(jì)-文庫吧資料

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文-文庫吧資料

基于nutch的新聞主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-文庫吧資料

基于lucene的圖書搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-文庫吧資料

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文-文庫吧在線文庫

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文(完整版)

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文(更新版)

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文(專業(yè)版)

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文(留存版)