freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)-論文-全文預(yù)覽

2024-09-16 11:23 上一頁面

下一頁面
  

【正文】 的目標(biāo)都是為了用戶查詢。在一個(gè)文檔被索引之前,首先需要對文檔內(nèi)容進(jìn)行分詞處理,這部分工作就是由Analyzer來做的。用同樣的方法繼續(xù)抓取網(wǎng)頁,這里將運(yùn)用到多線程技術(shù)。然后把抓取到的網(wǎng)頁信息包括網(wǎng)頁內(nèi)容、標(biāo)題、鏈接抓取時(shí)間等信息經(jīng)過‘減肥’后保存到網(wǎng)頁存儲數(shù)據(jù)庫表里。從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。表1 網(wǎng)頁數(shù)據(jù)存儲表邏輯字段名物理字段名字段類型是否為空主鍵外鍵說 明編號IDintNOT NULLYes自增加地址UrlVarchar(50)NOT NULL內(nèi)容ContentVARCHAR(1000)NOT NULLmeta標(biāo)簽內(nèi)容MataVarchar(100)NOT NULL網(wǎng)頁標(biāo)題TitleVarchar(100)NOT NULL創(chuàng)建時(shí)間CreatedateDatetime(8)NOT NULL 模塊設(shè)計(jì)該模型按照功能劃分為三個(gè)部分,一是爬蟲抓取網(wǎng)頁部分,二是從數(shù)據(jù)庫建立索引部分,三是從前臺頁面查詢部分。索引生成包括:基于文本文件的索引、基于數(shù)據(jù)庫的索引。2.軟件環(huán)境:源端:Windows 2003/XP操作系統(tǒng)、MSSQL Server 2000數(shù)據(jù)庫、.NET 。 輸入輸出要求輸入:搜索的關(guān)鍵字。2. 時(shí)間特性要求: ,因?yàn)槭菍nternet網(wǎng)上Web信息的收集,并且采用URL級鏈?zhǔn)降木W(wǎng)頁收集。7. 實(shí)現(xiàn)中英文分詞功能,能夠按中文或者英文單詞檢索數(shù)據(jù)。3. 對收集到的數(shù)據(jù)存入MSSQL Server 2000等關(guān)系型數(shù)據(jù)庫中、或者存入文本文件中。由此可見,Ajax使得Web應(yīng)用更加動(dòng)態(tài),帶來了更高的智能,并且提供了表現(xiàn)能力豐富的Ajax UI組件。因此Ajax應(yīng)用與傳統(tǒng)的Web應(yīng)用的區(qū)別主要在三個(gè)地方:1. 不刷新整個(gè)頁面,在頁面內(nèi)與服務(wù)器通信。傳統(tǒng)的web應(yīng)用模型如圖2:用戶操作后等待……..服務(wù)器端處理客戶端頁面處理新的頁面呈現(xiàn)數(shù)據(jù)提交數(shù)據(jù)返回圖2 Web應(yīng)用模型與傳統(tǒng)的Web開發(fā)不同,Ajax并不是以一種基于靜態(tài)頁面的方式來看待Web應(yīng)用的。簡而言之,XMLHttpRequest為運(yùn)行于瀏覽器中的JavaScript腳本提供了一種在頁面之內(nèi)與服務(wù)器通信的手段。包括:HTML和CSS,使用文檔對象模型DOM作動(dòng)態(tài)顯示和交互,使用XML做數(shù)據(jù)交互和操作,使用XMLHttpRequest進(jìn)行異步數(shù)據(jù)接收,使用JavaScript將它們綁定在一起。對文檔建立好索引后,就可以在這些索引上面進(jìn)行搜索了。Lucene采用的是一種稱為反向索引(inverted index)的機(jī)制。不規(guī)定要索引的文檔的格式也使Lucene能夠適用于幾乎所有的搜索應(yīng)用程序。 Lucene與搜索引擎Lucene是一個(gè)全文信息檢索工具包,為應(yīng)用程序提供索引和搜索功能。然后建立索引數(shù)據(jù)庫,由分析索引程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁,還要有其它程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁索引,才能添加到索引數(shù)據(jù)庫中。另外,在網(wǎng)上的一些導(dǎo)航站點(diǎn),也可以歸屬為原始的分類目錄。按照工作原理的不同,可以把它們分為兩個(gè)基本類別:全文搜索和分類目錄。2 全文搜索引擎 搜索引擎的分類獲得網(wǎng)站網(wǎng)頁資料,能夠建立數(shù)據(jù)庫并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎??梢院芊奖愕臉?gòu)建起搜索引擎,本畢業(yè)設(shè)計(jì)除了考查使學(xué)生綜合運(yùn)用以前所學(xué)知識的能力,同時(shí)也使學(xué)生了解當(dāng)今搜索及編程的一些新技術(shù),并模擬簡單的搜索引擎開發(fā)。如何將人類的知識和智能加入到檢索中,如何使搜索引擎的質(zhì)量產(chǎn)生一個(gè)質(zhì)的飛躍,也是國內(nèi)搜索引擎努力的方向。國內(nèi)比較著名的比如百度,更專注對中文的處理。利用搜索技術(shù),加上經(jīng)驗(yàn)主義發(fā)展出來的Google翻譯機(jī)器人,在外語翻譯方面已經(jīng)比傳統(tǒng)的翻譯好很多了。 國內(nèi)外研究現(xiàn)狀國內(nèi)外對搜索引擎研究比較著名的便是Google了。Lucene目前是Apache Jakarta家族中的一個(gè)開源項(xiàng)目。s lives. Lucene is the way of constructing search engine. This system is based on the .Net platform using C. The database is MSSQL Server 2000. Main functions are grasping web pages with crawls, adding effective information to the database, establishing index with Lucene, searching through keywords, and displaying the results finally.This paper has showed the principle of search engine in the form of different modules, functions of this system, improving traditional web application model using Ajax. It shows explanation of the system’s background, development environment, system analysis of demanding, and functions of design.Key words: 。主要完成的功能有:用爬蟲抓取網(wǎng)頁;獲取有效信息放入數(shù)據(jù)庫;通過Lucene建立索引;對簡單關(guān)鍵字進(jìn)行搜索;使用Ajax的局部刷新頁面展示結(jié)果。開發(fā)的,數(shù)據(jù)庫是MSSQL Server 2000。關(guān)鍵詞:;異步更新;Ajax;搜索引擎The Design and Implementation for Constructing the Search Engine with Ajax and LuceneAbstractObtaining useful information from web by search engines has bee the important part of people39。 Search engines目 錄論文總頁數(shù):19頁1 引言 1 課題背景 1 國內(nèi)外研究現(xiàn)狀 1 本課題研
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1