freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎畢業(yè)設(shè)計(jì)論文(存儲(chǔ)版)

2025-01-12 20:50上一頁面

下一頁面
  

【正文】 6 發(fā)題時(shí)間: 2020 年 12 月 28 日 指導(dǎo)教師: (簽名) 學(xué) 生: (簽名) 湖 南 科 技 大 學(xué) 畢業(yè)設(shè)計(jì)(論文)指導(dǎo)人評(píng)語 [主要對(duì)學(xué)生畢業(yè) 設(shè)計(jì) ( 論文 )的 工作態(tài)度 , 研究?jī)?nèi)容 與方法, 工作量 ,文獻(xiàn)應(yīng)用, 創(chuàng)新性 ,實(shí) 用性 ,科學(xué)性, 文本 (圖紙) 規(guī)范 程度 , 存在的不足 等進(jìn)行 綜合評(píng)價(jià) ] 指導(dǎo)人: (簽名) 年 月 日 指導(dǎo)人評(píng)定成績(jī): 湖 南 科 技 大 學(xué) 畢業(yè)設(shè)計(jì)(論文)評(píng)閱人評(píng)語 [主要對(duì)學(xué)生畢業(yè) 設(shè)計(jì)(論文)的 文本 格式 、圖紙 規(guī)范 程度, 工作量 ,研究?jī)?nèi)容與 方法 ,實(shí)用性與科學(xué)性, 結(jié)論 和 存在的不足 等進(jìn)行 綜合評(píng)價(jià) ] 評(píng)閱人: (簽名) 年 月 日 評(píng)閱人評(píng)定成績(jī): 湖 南 科 技 大 學(xué) 畢業(yè)設(shè)計(jì)(論文) 答辯記錄 日期: 學(xué)生: 學(xué)號(hào): 班級(jí): 題目: 提交畢業(yè)設(shè)計(jì)(論文) 答辯委員會(huì)下列材料: 1 設(shè)計(jì)(論文)說明書 共 頁 2 設(shè)計(jì)(論文)圖 紙 共 頁 3 指導(dǎo)人、評(píng)閱人評(píng)語 共 頁 畢業(yè)設(shè)計(jì)(論文) 答辯委員會(huì) 評(píng)語: [主要對(duì)學(xué)生畢業(yè) 設(shè)計(jì) (論文) 的 研究 思路, 設(shè)計(jì) ( 論文 ) 質(zhì)量 ,文本圖紙規(guī)范程度 和 對(duì)設(shè)計(jì)(論文)的介紹,回答問題 情況 等 進(jìn)行 綜合評(píng)價(jià) ] 答辯委員會(huì)主任: (簽名) 委員: (簽名) (簽名) (簽名) (簽名) 答辯成績(jī): 總評(píng)成績(jī): I 摘 要 搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互 聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,并將處理后的信息顯示給用戶,是為用戶提供檢索服務(wù)的系統(tǒng)。索引和搜索部分借助 Lucene 全文搜索引擎庫中的 Java 類進(jìn)行實(shí) 現(xiàn) 。 第一代搜索引擎出現(xiàn)于 1994 年,以集中式檢索為主要特征。 ( 2) 除了一般意義上的搜索以外,開始出現(xiàn)主題搜索和地域搜索。 [1] 湖南科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 2 搜索引擎的分類 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎( Full Text Search Engine)、目錄索引類搜索引擎( Search Index/Directory Search Engine)和元搜索引擎( Meta Search Engine)。其中在信息搜索的取全率和取準(zhǔn)率上做得做好的還數(shù) Google 和百度 。 YAHOO ( : //) : YAHOO 是世界上最著名的搜索引擎站點(diǎn)之一,擁有世界上最多的用戶,也是網(wǎng)上最流行的搜索引擎站點(diǎn),站點(diǎn)目錄分為 14 個(gè)大類,每一個(gè)大類下面又分若干子類,同時(shí)在其主頁上還提供了若干專題檢索功能, 還可以進(jìn)行關(guān)鍵詞檢索, 可以進(jìn)入高級(jí)檢索界面,在這里你可以構(gòu)造更精確的檢索要求,得到更詳細(xì)的檢索結(jié)果。 搜索引擎的信息檢索模型 布爾模型 布爾模型信息檢索模型是最簡(jiǎn)單的信息檢索模型,是基于集合理論和布爾代數(shù)的一種湖南科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 4 簡(jiǎn)單的檢索模型。向量空間模型 可方便地產(chǎn)生有效的查詢結(jié)果,能提供相關(guān)文檔的文摘,并對(duì)查詢結(jié)果進(jìn)行分類,為用戶提供準(zhǔn)確的信息。 “ 網(wǎng)絡(luò)蜘蛛 ” ( Spider) 是一種自動(dòng)運(yùn)行的軟件 , 其功能是搜索互聯(lián)網(wǎng)上的網(wǎng)站或網(wǎng)頁。而對(duì)其它文件格式的支持 , 不同搜索引擎則有不同的規(guī)定 , 最多的能支持 200 多種文件格式。 自然語言理解技術(shù)。 本章小結(jié) 本章大致介紹了搜索引擎的基本情況, 首先對(duì)搜索引擎的現(xiàn)狀 和作用 進(jìn)行了大概的描述,其次粗略地介紹了搜索引擎的信息檢索模型 ,最后詳細(xì) 地介紹了實(shí)現(xiàn)搜索引擎的關(guān)鍵的技術(shù)。 ( 5) 頁面生成系統(tǒng)將搜索結(jié)果的鏈接地 址和摘要等內(nèi)容組織起來返回給用戶 。圖 是爬蟲的運(yùn)行過程。 圖 索引建立 過程 搜索器 用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;為了用戶便于判斷,除了 網(wǎng)頁標(biāo)題 和 URL 外,還會(huì)提供一段來自網(wǎng)頁的摘要以及其他信息。 鏈接存儲(chǔ) : 它不要求邏輯上相鄰的結(jié)點(diǎn)在物理位置上亦相鄰,結(jié)點(diǎn)間的邏輯關(guān)系是由附加的指針字段表示的。倒排文件可以實(shí)現(xiàn)快速檢索,這種索引存儲(chǔ)方法是目前搜索引擎最常用的存儲(chǔ)方法。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就 可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。然后還要記錄每次爬行的分支節(jié)點(diǎn),下次從這個(gè)分支節(jié)點(diǎn)進(jìn)行爬取。 通過所走的路徑,我們看到了深度優(yōu)先的策略是盡量往 設(shè)置好的深度走 。一方面讓網(wǎng)站管理員了解網(wǎng)絡(luò)機(jī)器人都來自哪兒,做了些什么,另一方面也告訴網(wǎng)絡(luò)蜘 蛛哪些網(wǎng)頁不應(yīng)該抓取,哪些網(wǎng)頁應(yīng)該更新。 抓取周期分析 : 由于網(wǎng)站的內(nèi)容經(jīng)常在變化,因此網(wǎng)絡(luò)蜘蛛也需不斷的更新其抓取網(wǎng)頁的內(nèi)容,這就需要網(wǎng)絡(luò)蜘蛛按照一定的周期去掃描網(wǎng)站,查看哪些頁面是需要更新的頁面,哪些頁面是新增頁面,哪些頁面是已經(jīng)過期的死鏈接。網(wǎng)絡(luò)蜘蛛進(jìn)入一個(gè)網(wǎng)站,一般會(huì)訪問一個(gè)特殊的文本文件 ,這個(gè)文件一般放在網(wǎng)站 服務(wù)器的根目錄下。搜索引擎如果需要從這些文件里面提取出純文本,則就需要多這些各種各樣的文件進(jìn)行解析。在 Java 中,已經(jīng)有很多對(duì)于 Word、 Excel 的開源的解決方案,其中比較出色的是 Apache的 Jakata 項(xiàng)目的 POI 子項(xiàng) 目。這種文件格式與操作系統(tǒng)平臺(tái)無關(guān),可以在 Windows、 Unix 或 Mac OS 等操作系統(tǒng)上通用。 Lucene 不是一個(gè)完整的全文索引應(yīng)用,而是一個(gè)用 Java 寫的全文索引引擎工具包,它可以方便的嵌入到各種應(yīng)用中實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引 /檢索功能。 中文分詞技術(shù) 中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對(duì)于一句話,人可以通過自己的知識(shí)來明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解?其處理過程就是 分詞算法。定義兩個(gè)字的互現(xiàn)信息,計(jì)算兩個(gè)漢字 X、 Y 的相鄰共現(xiàn)概率。在中文分詞過程中,有兩大難題一直沒有完全突破。也就是那些在字典中都沒有收錄過,但又確實(shí)能稱為詞的那些詞。 而(Reader reader)則表示可以從 Reader 中讀取新詞。 Analyzer 類是一個(gè)抽象類,它有多個(gè)實(shí)現(xiàn)。一個(gè) Document 對(duì)象由多個(gè) Field 組成的。 [4] JE 分詞 JE(Job Estimate)分詞是一套由 java 寫的分詞軟件, JE 識(shí)別很多的詞,而且可以去掉很多的忽略詞,如 “ 的 ” 、 “ 在 ” 等。由于 沒有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案正確。但基于統(tǒng)計(jì)的分詞方法 也有一定的局限性,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如 “ 這一 ” 、 “ 之一 ” 、 “ 有的 ” 、 “ 我的 ” 、 “ 許多的 ” 等,并且對(duì)常用詞的識(shí)別精度差,時(shí)空開銷大。常用的幾種機(jī)械分詞方法如下: 1) 正向最大匹配法 ( 由左到右的方向 ) ; 2) 逆向最大匹配法 ( 由右到左的方向 ) ; 3) 最少切分 ( 使每一句中切出的詞數(shù)最小 ) 。 在建立索引之前要先對(duì)解析提取出來的文字分詞。 本章小結(jié) 用戶 是通過 關(guān)鍵字來 搜索他所需要的信息,搜索引擎其實(shí)就是先將網(wǎng)絡(luò)上的網(wǎng)頁抓取下來解析,然后建立索引提供給用戶搜索。函數(shù)內(nèi)容很簡(jiǎn)單,就是調(diào)用WordExtractor 的 API 來提取 DOC 的內(nèi)容到字符串 。 Htmlparser能超高速解析 HTML,而且不會(huì)出錯(cuò)。 WebLech 簡(jiǎn)介 WebLech 是一個(gè)功能強(qiáng)大的 Web 站點(diǎn)下載與鏡像工具。一般來說,網(wǎng)絡(luò)湖南科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 12 蜘蛛在更新網(wǎng)站內(nèi)容的時(shí)候,不用把網(wǎng)站網(wǎng)頁重新抓取一遍,對(duì)于大部分的網(wǎng)頁,只需要判斷網(wǎng)頁的屬性 ( 主要是日期 ) ,把得到的屬性和上次抓取的屬性相比較,如果一樣則不用更新。如果在網(wǎng)站上有訪問日志記錄,網(wǎng)站管理員就能知道,哪些搜索引擎的網(wǎng)絡(luò)機(jī)器人過來過,什么時(shí)候過來的,以及讀了多少數(shù)據(jù)等等。第一層( A)的優(yōu)先級(jí)最高,第二層( B、 C、 D)優(yōu)先級(jí)大于第三層( E、F、 G、 H),每層內(nèi)部的優(yōu)先級(jí)是從左到右排列的。 ( 1) A?B?E?J。 廣度優(yōu)先 是最常用的方式,因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。 湖南科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 10 第 三 章 數(shù)據(jù)抓取 和解析 技術(shù) 探究 搜索引擎要先用網(wǎng)絡(luò)蜘蛛從網(wǎng)絡(luò)上抓取各種各樣的資源(主要是 HTML 文件) ,然后判斷文件的類型,對(duì)文件進(jìn)行解析,提取出文件中的文字信息 和必要的關(guān)鍵信息 。 相互比較 順序存儲(chǔ)結(jié)構(gòu)是一種最基本的存儲(chǔ)表示方法, 可以換來很高的掃描速度,但是其效率很低,所以對(duì)一些相對(duì)固定的不易發(fā)生改變的數(shù)據(jù)應(yīng)當(dāng)采用順序存儲(chǔ)結(jié)構(gòu) 。 搜索器搜索過程 如圖 所示 。 我們 要 對(duì)網(wǎng)絡(luò)爬蟲爬下來的文件里的文字先進(jìn)行 解析 提取, 然后 建立索引 ,最 后實(shí)現(xiàn)搜索。 網(wǎng)絡(luò)蜘蛛 順著網(wǎng)頁中的超 鏈接,連續(xù)地抓取網(wǎng)頁。 工作原理 圖 描述了 搜索引擎的工作過程 ,一般 分為五 個(gè)步 驟: ( 1) 從互聯(lián)網(wǎng)上抓取 網(wǎng)頁,利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁的網(wǎng)絡(luò) 蜘蛛 程序,自動(dòng)訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有 URL 爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來 。 智能化、個(gè)性化的搜索技術(shù)。 湖南科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 5 信息檢索技術(shù)。 信息預(yù)處理技術(shù)。 [2] 建立搜索引擎的關(guān)鍵技術(shù) HTTP 協(xié)議 。 布爾模型的主要優(yōu)點(diǎn)在于 形式簡(jiǎn)潔、結(jié)構(gòu)簡(jiǎn)單。百度搜索引擎使用了高性能的 “ 網(wǎng)絡(luò)蜘蛛 ” 程序自動(dòng)的在互聯(lián)網(wǎng)中搜索信息,可定制、高擴(kuò)展性的調(diào)度算法使得搜索器能在極短的時(shí)間內(nèi)收集到最大數(shù)量的互聯(lián)網(wǎng)信息。 AltaVista ( : //) :根據(jù)檢索的頁面數(shù), AltaVista 一直都是互聯(lián)網(wǎng)上最大的搜索引擎之一。 元搜索引擎 : 元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。進(jìn)入 21 新世紀(jì)以后,隨著信息多元化的增長(zhǎng),千篇一律的給所有用戶同一個(gè)入口顯然已經(jīng)不能滿足特定用戶更深入的查詢需求。 第二代搜索 引擎系統(tǒng)大約出現(xiàn)在 1996 年,大多采用分布式檢索方案,即多個(gè)微型計(jì)算機(jī)協(xié)同工作來提高數(shù)據(jù)規(guī)模、響應(yīng)速度和用戶數(shù)量。目前網(wǎng)上的搜索引擎模式為 : 獲得信息 (抓取網(wǎng)頁) ?數(shù)據(jù)解析 ?建立 索引 數(shù)據(jù)庫 ?提供 搜索 查詢。 ④ 基于 Java技術(shù)實(shí)現(xiàn)一個(gè)搜索引擎 ,要求操作方便 ,界面友好 . 5 提交設(shè)
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1