freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎設(shè)計(jì)學(xué)士學(xué)位論文-資料下載頁

2025-07-08 04:14本頁面

【導(dǎo)讀】來越得到廣泛地使用。搜索引擎系統(tǒng)包括3個(gè)功能模塊:網(wǎng)頁獲取模塊,數(shù)據(jù)存儲(chǔ)模塊和檢索。本人在課題組中主要承擔(dān)工作有:系統(tǒng)整體設(shè)計(jì)、數(shù)據(jù)庫的設(shè)計(jì)實(shí)現(xiàn)以及中文分。本系統(tǒng)的整體設(shè)計(jì)突出操作簡(jiǎn)便、功能強(qiáng)大、人性化設(shè)置、并行處理可移植等特點(diǎn),其中中文分詞,各模塊的存儲(chǔ)流程是系統(tǒng)的設(shè)計(jì)亮點(diǎn)。本文中對(duì)搜索引擎的各種技術(shù)算。法進(jìn)行了介紹,而且根據(jù)系統(tǒng)的需要進(jìn)行了各功能模塊的設(shè)計(jì)。大容量存儲(chǔ)、高效檢索和簡(jiǎn)單查詢。索引數(shù)據(jù)庫以頁面信息表和詞庫表為核心,通過對(duì)。分割,使其分為單獨(dú)的詞或詞組。

  

【正文】 學(xué)位論文 XXV 物理結(jié)構(gòu)設(shè)計(jì),數(shù)據(jù)庫物理結(jié)構(gòu)設(shè)計(jì)包括存儲(chǔ)類型的選擇、屬性數(shù)據(jù)類型的確定、表的索引結(jié)構(gòu)的確定和數(shù)據(jù)庫存取路徑的確定,目前的主流數(shù)據(jù)庫管理系統(tǒng)提供易用的工具,幫助用戶完成數(shù)據(jù)庫的物理結(jié)構(gòu)設(shè)計(jì)。 在需求分析中已經(jīng)完成數(shù)據(jù)庫的規(guī)劃和需求分析,之后三個(gè)小節(jié)將給出系統(tǒng)數(shù)據(jù)庫的概念結(jié)構(gòu)設(shè)計(jì)、邏輯結(jié)構(gòu)設(shè)計(jì)和物理結(jié)構(gòu)設(shè)計(jì)。 數(shù)據(jù)庫概念結(jié)構(gòu)設(shè)計(jì) 由數(shù)據(jù)庫需求分析可知,搜索引擎數(shù)據(jù)庫 的實(shí)體包括鏈接詳細(xì)信息表、鏈接列表、鏈接表,實(shí)體之間關(guān)系如圖 所示。 鏈 接 詳 細(xì) 信息聯(lián) 系 鏈 接關(guān) 聯(lián)鏈 接 列 表 圖 實(shí)體及實(shí)體之間關(guān)系 ER 圖 本搜索引擎對(duì)數(shù)據(jù)庫的使用,主要集中在關(guān)鍵的鏈接詳細(xì)信息表和鏈接表,因?yàn)楸舅阉饕嬷粚?duì)互聯(lián)網(wǎng)上各個(gè)站點(diǎn)的信息標(biāo)題進(jìn)行搜索,鏈接列表是記錄當(dāng)前鏈接中它自身重定向的若干鏈接 信息。 鏈接詳細(xì)信息實(shí)體 ER 圖,如圖 所示。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXVI 鏈 接 詳 細(xì) 信 息I D 號(hào)字 符 集 格 式簡(jiǎn) 單 描 述標(biāo) 題 信 息關(guān) 鍵 字 信 息 圖 鏈接詳細(xì)信息 ER 圖 鏈接實(shí)體 ER 圖, 如圖 所示 鏈 接I D 號(hào)訪 問 地 址 收 錄 時(shí) 間 圖 鏈接實(shí)體 ER 圖 鏈接列表實(shí)體 ER 圖,如圖 所示 鏈 接 列 表I D 號(hào) 連 接 地 址 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXVII 圖 鏈接列表實(shí)體 ER 圖 數(shù)據(jù)庫邏輯結(jié)構(gòu)設(shè)計(jì) 數(shù)據(jù)庫邏輯 結(jié)構(gòu)設(shè)計(jì) 要將獨(dú)立于數(shù)據(jù)庫管理系統(tǒng)的概念模型轉(zhuǎn)換為適于數(shù)據(jù)庫系統(tǒng)邏輯結(jié)構(gòu),轉(zhuǎn)換后的邏輯結(jié)構(gòu)需合計(jì)算機(jī)處理信息的邏輯并能與數(shù)據(jù)庫系統(tǒng)的特性兼容。轉(zhuǎn)化過程中,每個(gè)實(shí)體都需要轉(zhuǎn)換為一個(gè)關(guān)系,每個(gè)關(guān)系的主碼必須不為空,對(duì)于二元聯(lián)系需要按 照一對(duì)多、弱實(shí)體、一對(duì)一、多對(duì)多等聯(lián)系來定義外碼。 根據(jù)數(shù)據(jù)庫實(shí)體 ER 圖可以得到各實(shí)體的屬性: 鏈接詳細(xì)信息: ID 號(hào),字符集格式,標(biāo)題信息,關(guān)鍵字信息,簡(jiǎn)單描述。 鏈接: ID 號(hào),訪問地址,收錄信息。 鏈接列表: ID 號(hào),鏈接地址。 將概念模型轉(zhuǎn)換為如下的關(guān)系模式: 鏈接詳細(xì)信息( ID 號(hào),字符集格式,標(biāo)題信息,關(guān)鍵字信息,簡(jiǎn)單描述),主碼為 ID 號(hào),外碼為鏈接的 ID 號(hào)。 鏈接( ID 號(hào),訪問地址,收錄信息),主碼為 ID 號(hào),外碼為鏈接詳細(xì)信息的 ID 號(hào)。 鏈接列表( ID 號(hào),鏈接地址),主碼為 ID 號(hào),外碼為鏈接詳細(xì)信息 的 ID 號(hào)。 聯(lián)系:聯(lián)系轉(zhuǎn)換為鏈接詳細(xì)信息與鏈接之間一對(duì)一關(guān)系,外碼為鏈接詳細(xì)信息的 ID 號(hào)和鏈接的 ID 號(hào)。 關(guān)聯(lián):關(guān)聯(lián)轉(zhuǎn)換為鏈接詳細(xì)信息與鏈接列表之間一對(duì)一關(guān)系,外碼為鏈接詳細(xì)信息的 ID 號(hào)與鏈接列表的 ID 號(hào)。 數(shù)據(jù)庫物理結(jié)構(gòu)設(shè)計(jì) 物理結(jié)構(gòu)設(shè)計(jì),數(shù)據(jù)庫物理結(jié)構(gòu)設(shè)計(jì)包括存儲(chǔ)類型的選擇、屬性數(shù)據(jù)類型的確定、表的索引結(jié)構(gòu)的確定和數(shù)據(jù)庫存取路徑的確定。 本系統(tǒng)的數(shù)據(jù)庫存放在與服務(wù)器程序相同的路徑中,在程序中通過應(yīng)用接口以應(yīng)用程序賬戶的方式訪問數(shù)據(jù)庫。在數(shù)據(jù)庫表設(shè)計(jì)器中,為每一個(gè)關(guān)系設(shè)計(jì)對(duì)應(yīng)的表,并確定各屬 性的數(shù)據(jù)類型和空間占用。 鏈接詳細(xì)信息( contents)數(shù)據(jù)表設(shè)計(jì) 見表 。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXVIII 表 鏈接詳細(xì)信息數(shù)據(jù)表 字段含義 字段名 數(shù)據(jù)類型 是否為主鍵 可否為空 ID 號(hào) id int(11) YES NO 字符集格式 charset Varchar(128) NO YES 標(biāo)題信息 Title text NO YES 關(guān)鍵字信息 Keyword text NO YES 簡(jiǎn)單描述 description longtext NO YES 鏈接( urls)數(shù)據(jù)表設(shè)計(jì) 見表 。 表 連接數(shù)據(jù)表 字段含義 字段名 數(shù)據(jù)類型 是否為主鍵 可否為空 ID 號(hào) id int(11) YES NO 訪問地址 url text NO YES 收錄時(shí)間 capture_time timestamp NO CURRENT_TIMESTAMP 鏈接列表( links)數(shù)據(jù)表設(shè)計(jì) 見表 。 表 鏈接列表數(shù)據(jù)表 字段含義 字段名 數(shù)據(jù)類型 是否為主鍵 可否為空 ID 號(hào) id int(11) YES NO 鏈接地址 link text NO YES 數(shù)據(jù)存儲(chǔ)流程設(shè)計(jì) 本 搜索引擎的數(shù)據(jù)錄入全部依賴 JSpider 軟件實(shí)現(xiàn)。 網(wǎng)絡(luò)機(jī)器人是搜索引擎 抓取系統(tǒng)的重要組成部分。機(jī)器人軟件的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁信息下載到本地形成一個(gè)或聯(lián)網(wǎng)內(nèi)容的鏡像備份。 網(wǎng)絡(luò)機(jī)器人的基本結(jié)構(gòu)及工作原理 一個(gè) 通用的網(wǎng)絡(luò)機(jī)器人的框架如圖 所示。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXIX 圖 網(wǎng)絡(luò)機(jī)器人原理圖 網(wǎng)絡(luò)機(jī)器人的基本工作流程如下: 1. 首先選取一部分精心挑選的種子 URL; 2. 將這些 URL 放入待抓取 URL 隊(duì)列; 3. 從待抓取 URL 隊(duì)列中取出待抓取的 URL,解析 DNS,并且得到主機(jī)的ip,并將 URL 對(duì)應(yīng)的網(wǎng)頁下載下來, 存儲(chǔ)進(jìn)已下砸網(wǎng)頁庫中。此外,將這些 URL 放進(jìn)已抓取 URL 隊(duì)列; 4. 分析已抓取 URL 隊(duì)列中的 URL,分析其中的其他 URL,并且將 URL放入待抓取 URL 隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)。 從網(wǎng)絡(luò)機(jī)器人的角度對(duì)互聯(lián)網(wǎng)進(jìn)行劃分 對(duì)應(yīng)的,可以將互聯(lián)網(wǎng)的所有頁面分為五個(gè)部分,如圖 所示。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXX 圖 互聯(lián)網(wǎng)頁面劃分 已下載未過期的網(wǎng)頁; 已下載已過期網(wǎng)頁:抓取到的網(wǎng)頁實(shí)際上市互聯(lián)網(wǎng)內(nèi)同過的一個(gè)鏡像與備份 ,互聯(lián)網(wǎng)是動(dòng)態(tài)變化的,一部分互聯(lián)網(wǎng)上的內(nèi)容已經(jīng)發(fā)生了變化,這時(shí),這部分抓取到的網(wǎng)頁就已經(jīng)過期了; 待下載網(wǎng)頁:也就是待抓取 URL 隊(duì)列中的那些頁面; 可知網(wǎng)頁:還沒有抓取下來,也沒有在待抓取 URL 隊(duì)列中,但是可以通過對(duì)已抓取頁面或者待抓取 URL 對(duì)應(yīng)頁面進(jìn)行分析獲取到的 URL,認(rèn)為是可知網(wǎng)頁; 還有一部分網(wǎng)頁,機(jī)器人是無法直接抓取下載的。稱為不可知網(wǎng)頁。 抓取策略 在網(wǎng)絡(luò)機(jī)器人中,待 抓取 URL 隊(duì)列是很重要的一部分。待抓取 URL 隊(duì)列中的 URL 以什么樣的順序排列也是一個(gè)很重要的問題,因?yàn)檫@涉及到先抓取那個(gè)頁面,后抓取哪個(gè)頁面。而決定這些 URL 排列順序的方法,叫做抓取策略。下面重點(diǎn)介紹幾 種常見的抓取策略: 深度優(yōu)先遍歷策略 深度優(yōu)先遍歷策略是指網(wǎng)絡(luò)爬蟲會(huì)從起始頁開始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁,繼續(xù)跟蹤鏈接。具體原理如圖沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXI 所示。 圖 深度優(yōu)先遍歷原理圖 遍歷的路徑: AFG EHI B C D 寬度有線遍歷策略 寬度優(yōu)先遍歷策略的基本思路是,將新下載網(wǎng)頁中發(fā)現(xiàn)的鏈接直接插入待抓取 URL 隊(duì)列的末尾。也就是指網(wǎng)絡(luò)爬蟲會(huì)先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個(gè)鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。以圖 為例: 遍歷路徑: ABCDEF G H I 反響鏈接數(shù)策略 反向鏈接數(shù)是指一個(gè)網(wǎng)頁被其他網(wǎng)頁鏈接指向的數(shù)量。反向鏈接數(shù)表示的是一個(gè)網(wǎng)頁的內(nèi)容受到其他人的推薦的程度。因此,很多時(shí)候搜索引擎的抓取系統(tǒng)會(huì)使用這個(gè)指標(biāo)來評(píng)價(jià)網(wǎng)頁的重要程度,從而決定不同網(wǎng)頁的抓取先后順序。 在真實(shí)的網(wǎng)絡(luò)環(huán)境中,由于廣告鏈接、作弊鏈接的存在,反向鏈接數(shù)不能完全等他我那個(gè)的重要程度。因此,搜索引擎往往考慮一些可靠的反向鏈接數(shù)。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXII Partial PageRank 策略 Partial PageRank 算法借鑒了 PageRank 算法的思想:對(duì)于已經(jīng)下載的網(wǎng)頁,連同待抓取 URL 隊(duì)列中的 URL,形成網(wǎng)頁集合,計(jì)算每個(gè)頁面的 PageRank 值,計(jì)算完之后, 將待抓取 URL 隊(duì)列中的 URL 按照 PageRank 值的大小排列,并按照該順序抓取頁面。 如果每次抓取一個(gè)頁面,就重新計(jì)算 PageRank 值,一種折中方案是:每抓取 K 個(gè)頁面后,重新計(jì)算一次 PageRank 值。但是這種情況還會(huì)有一個(gè)問題:對(duì)于已經(jīng)下載下來的頁面中分析出的鏈接,也就是我們之前提到的未知網(wǎng)頁那一部分,暫時(shí)是沒有 PageRank 值的。為了解決這個(gè)問題,會(huì)給這些頁面一個(gè)臨時(shí)的PageRank 值:將這個(gè)網(wǎng)頁所有入鏈傳遞進(jìn)來的 PageRank 值進(jìn)行匯總,這樣就形成了該未知頁面的 PageRank 值,從而參與排序。 OPIC 策略 該算法實(shí)際上也是對(duì)頁面進(jìn)行一個(gè)重要性打分。在算法開始前,給所有頁面一個(gè)相同的初始現(xiàn)金( cash)。當(dāng)下載了某個(gè)頁面 P 之后,將 P 的現(xiàn)金分?jǐn)偨o所有從 P 中分析出的鏈接,并且將 P 的現(xiàn)金清空。對(duì)于待抓取 URL 隊(duì)列中的所有頁面按照現(xiàn)金數(shù)進(jìn)行排序。 大站優(yōu)先策略 對(duì)于待抓取 URL 隊(duì)列中的所有網(wǎng)頁,根據(jù)所屬的網(wǎng)站進(jìn)行分類。對(duì)于待下載頁面數(shù)多的網(wǎng)站,優(yōu)先下載。這個(gè)策略也 因此叫做大站優(yōu)先策略。 搜索引擎流程設(shè)計(jì) 搜索引擎總體流程設(shè)計(jì) 用戶在載入起始搜索頁面后,通過輸入框輸入關(guān)鍵字進(jìn)行站點(diǎn)查找。具體流程如圖 所示。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXIII 載 入 起 始 搜 索 頁 面輸 入 關(guān) 鍵 字跳 轉(zhuǎn) 搜 索 執(zhí) 行 頁 面判 斷 關(guān) 鍵 字 合 法 性 ?分 詞 操 作站 點(diǎn) 查 詢返 回 結(jié) 果 集結(jié) 束連 接 數(shù) 據(jù) 庫是否開 始 圖 搜索引擎總體流程 檢驗(yàn)載入搜索頁面合法性 檢驗(yàn)載入搜索 頁面 合法性流程,如圖 所示。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXIV 載 入 搜 索 頁 面非 法 訪 問 頁 面 ?結(jié) 束開 始標(biāo) 示 符 是 否 為 真 ?否關(guān) 鍵 字 為 空 ?是分 詞 操 作否跳 轉(zhuǎn) 起 始 搜 索 頁是否是 圖 檢驗(yàn)載入搜索頁面合法性流程 搜索功能設(shè)計(jì) 搜索功能 流程 設(shè)計(jì),如圖 所示。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXV 開 始獲 取 搜 索 關(guān) 鍵 字關(guān) 鍵 字 合 法 ?連 接 數(shù) 據(jù) 庫 操 作是分 詞 操 作構(gòu) 造 S Q L 語 句數(shù) 據(jù) 庫 搜 索獲 取 搜 索 結(jié) 果 集結(jié) 束否 圖 搜索功能流程圖 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXVI 5 搜索引擎實(shí)現(xiàn) 完成系統(tǒng)結(jié)構(gòu)設(shè)計(jì)和所有模塊程序流程設(shè)計(jì)后,本系統(tǒng)的設(shè)計(jì)脈絡(luò)已經(jīng)基本清晰,接下來可以編寫代碼,實(shí)現(xiàn)系統(tǒng)。 搜索引擎與用戶直接交互的是瀏覽器的搜索界面,在設(shè)計(jì)、開發(fā)和實(shí)現(xiàn)搜索界面時(shí),考慮到代碼編寫的規(guī)范和實(shí)現(xiàn)的效率因素,作者將重要的實(shí)現(xiàn)代碼用JavaBean 封裝實(shí)現(xiàn)。這樣在開發(fā)搜索界面時(shí),實(shí)現(xiàn)代碼與布局代碼分離,作者只需要認(rèn)真考慮界面布局即可,而無需擔(dān)心代碼之間相互交錯(cuò),增加開發(fā)難度。 JavaBean 實(shí)現(xiàn)說明 數(shù)據(jù)庫連接類 MysqlBean MysqlBean 的主要作用是與數(shù)據(jù)庫進(jìn)行交互處理,包括連接數(shù)據(jù)庫、執(zhí)行查詢語句、返回查詢結(jié)果。 連接數(shù)據(jù)庫代碼 try{ ().newInstance()。 Connection connection=(url)。 = connection 。 Statement statement = ()。 = statement 。 }catch( ClassNotFoundException e ){ //throw () 。 }catch( SQLException e ){ }catch( Exception e ){} 執(zhí)行查詢語句 由于 MysqlBean 只是重新封裝了 Java 中 ResultSet 類,所以只需要將 SQL語句送進(jìn) ResultSet 的 executeQuery()即可。 實(shí)現(xiàn)代碼如下: ResultSet rs = ( sql )。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXVII 分詞處理類 SpliteWord SpliteWord 作用是對(duì)用戶輸入的關(guān)鍵字進(jìn)行簡(jiǎn)單的分割,然后保存在一個(gè)String 數(shù)組中返回。代碼實(shí)現(xiàn)如下: String[] chineseWord_1 = ( [az|AZ|09 \\pP]+ ) 。 String chineseWord_X = ( [az|AZ0|09 \\pP]+, ) 。 String[] chineseWord_2 = { chineseWord_X } 。 String[] englishWord = ( [^az|AZ]+ ) 。 String[][] result = { chineseWord_1 , chineseWord_2 , englishW
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1