freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎設計學士學位論文-資料下載頁

2025-07-08 04:14本頁面

【導讀】來越得到廣泛地使用。搜索引擎系統(tǒng)包括3個功能模塊:網(wǎng)頁獲取模塊,數(shù)據(jù)存儲模塊和檢索。本人在課題組中主要承擔工作有:系統(tǒng)整體設計、數(shù)據(jù)庫的設計實現(xiàn)以及中文分。本系統(tǒng)的整體設計突出操作簡便、功能強大、人性化設置、并行處理可移植等特點,其中中文分詞,各模塊的存儲流程是系統(tǒng)的設計亮點。本文中對搜索引擎的各種技術(shù)算。法進行了介紹,而且根據(jù)系統(tǒng)的需要進行了各功能模塊的設計。大容量存儲、高效檢索和簡單查詢。索引數(shù)據(jù)庫以頁面信息表和詞庫表為核心,通過對。分割,使其分為單獨的詞或詞組。

  

【正文】 學位論文 XXV 物理結(jié)構(gòu)設計,數(shù)據(jù)庫物理結(jié)構(gòu)設計包括存儲類型的選擇、屬性數(shù)據(jù)類型的確定、表的索引結(jié)構(gòu)的確定和數(shù)據(jù)庫存取路徑的確定,目前的主流數(shù)據(jù)庫管理系統(tǒng)提供易用的工具,幫助用戶完成數(shù)據(jù)庫的物理結(jié)構(gòu)設計。 在需求分析中已經(jīng)完成數(shù)據(jù)庫的規(guī)劃和需求分析,之后三個小節(jié)將給出系統(tǒng)數(shù)據(jù)庫的概念結(jié)構(gòu)設計、邏輯結(jié)構(gòu)設計和物理結(jié)構(gòu)設計。 數(shù)據(jù)庫概念結(jié)構(gòu)設計 由數(shù)據(jù)庫需求分析可知,搜索引擎數(shù)據(jù)庫 的實體包括鏈接詳細信息表、鏈接列表、鏈接表,實體之間關(guān)系如圖 所示。 鏈 接 詳 細 信息聯(lián) 系 鏈 接關(guān) 聯(lián)鏈 接 列 表 圖 實體及實體之間關(guān)系 ER 圖 本搜索引擎對數(shù)據(jù)庫的使用,主要集中在關(guān)鍵的鏈接詳細信息表和鏈接表,因為本搜索引擎只對互聯(lián)網(wǎng)上各個站點的信息標題進行搜索,鏈接列表是記錄當前鏈接中它自身重定向的若干鏈接 信息。 鏈接詳細信息實體 ER 圖,如圖 所示。 沈陽理工大學學士學位論文 XXVI 鏈 接 詳 細 信 息I D 號字 符 集 格 式簡 單 描 述標 題 信 息關(guān) 鍵 字 信 息 圖 鏈接詳細信息 ER 圖 鏈接實體 ER 圖, 如圖 所示 鏈 接I D 號訪 問 地 址 收 錄 時 間 圖 鏈接實體 ER 圖 鏈接列表實體 ER 圖,如圖 所示 鏈 接 列 表I D 號 連 接 地 址 沈陽理工大學學士學位論文 XXVII 圖 鏈接列表實體 ER 圖 數(shù)據(jù)庫邏輯結(jié)構(gòu)設計 數(shù)據(jù)庫邏輯 結(jié)構(gòu)設計 要將獨立于數(shù)據(jù)庫管理系統(tǒng)的概念模型轉(zhuǎn)換為適于數(shù)據(jù)庫系統(tǒng)邏輯結(jié)構(gòu),轉(zhuǎn)換后的邏輯結(jié)構(gòu)需合計算機處理信息的邏輯并能與數(shù)據(jù)庫系統(tǒng)的特性兼容。轉(zhuǎn)化過程中,每個實體都需要轉(zhuǎn)換為一個關(guān)系,每個關(guān)系的主碼必須不為空,對于二元聯(lián)系需要按 照一對多、弱實體、一對一、多對多等聯(lián)系來定義外碼。 根據(jù)數(shù)據(jù)庫實體 ER 圖可以得到各實體的屬性: 鏈接詳細信息: ID 號,字符集格式,標題信息,關(guān)鍵字信息,簡單描述。 鏈接: ID 號,訪問地址,收錄信息。 鏈接列表: ID 號,鏈接地址。 將概念模型轉(zhuǎn)換為如下的關(guān)系模式: 鏈接詳細信息( ID 號,字符集格式,標題信息,關(guān)鍵字信息,簡單描述),主碼為 ID 號,外碼為鏈接的 ID 號。 鏈接( ID 號,訪問地址,收錄信息),主碼為 ID 號,外碼為鏈接詳細信息的 ID 號。 鏈接列表( ID 號,鏈接地址),主碼為 ID 號,外碼為鏈接詳細信息 的 ID 號。 聯(lián)系:聯(lián)系轉(zhuǎn)換為鏈接詳細信息與鏈接之間一對一關(guān)系,外碼為鏈接詳細信息的 ID 號和鏈接的 ID 號。 關(guān)聯(lián):關(guān)聯(lián)轉(zhuǎn)換為鏈接詳細信息與鏈接列表之間一對一關(guān)系,外碼為鏈接詳細信息的 ID 號與鏈接列表的 ID 號。 數(shù)據(jù)庫物理結(jié)構(gòu)設計 物理結(jié)構(gòu)設計,數(shù)據(jù)庫物理結(jié)構(gòu)設計包括存儲類型的選擇、屬性數(shù)據(jù)類型的確定、表的索引結(jié)構(gòu)的確定和數(shù)據(jù)庫存取路徑的確定。 本系統(tǒng)的數(shù)據(jù)庫存放在與服務器程序相同的路徑中,在程序中通過應用接口以應用程序賬戶的方式訪問數(shù)據(jù)庫。在數(shù)據(jù)庫表設計器中,為每一個關(guān)系設計對應的表,并確定各屬 性的數(shù)據(jù)類型和空間占用。 鏈接詳細信息( contents)數(shù)據(jù)表設計 見表 。 沈陽理工大學學士學位論文 XXVIII 表 鏈接詳細信息數(shù)據(jù)表 字段含義 字段名 數(shù)據(jù)類型 是否為主鍵 可否為空 ID 號 id int(11) YES NO 字符集格式 charset Varchar(128) NO YES 標題信息 Title text NO YES 關(guān)鍵字信息 Keyword text NO YES 簡單描述 description longtext NO YES 鏈接( urls)數(shù)據(jù)表設計 見表 。 表 連接數(shù)據(jù)表 字段含義 字段名 數(shù)據(jù)類型 是否為主鍵 可否為空 ID 號 id int(11) YES NO 訪問地址 url text NO YES 收錄時間 capture_time timestamp NO CURRENT_TIMESTAMP 鏈接列表( links)數(shù)據(jù)表設計 見表 。 表 鏈接列表數(shù)據(jù)表 字段含義 字段名 數(shù)據(jù)類型 是否為主鍵 可否為空 ID 號 id int(11) YES NO 鏈接地址 link text NO YES 數(shù)據(jù)存儲流程設計 本 搜索引擎的數(shù)據(jù)錄入全部依賴 JSpider 軟件實現(xiàn)。 網(wǎng)絡機器人是搜索引擎 抓取系統(tǒng)的重要組成部分。機器人軟件的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁信息下載到本地形成一個或聯(lián)網(wǎng)內(nèi)容的鏡像備份。 網(wǎng)絡機器人的基本結(jié)構(gòu)及工作原理 一個 通用的網(wǎng)絡機器人的框架如圖 所示。 沈陽理工大學學士學位論文 XXIX 圖 網(wǎng)絡機器人原理圖 網(wǎng)絡機器人的基本工作流程如下: 1. 首先選取一部分精心挑選的種子 URL; 2. 將這些 URL 放入待抓取 URL 隊列; 3. 從待抓取 URL 隊列中取出待抓取的 URL,解析 DNS,并且得到主機的ip,并將 URL 對應的網(wǎng)頁下載下來, 存儲進已下砸網(wǎng)頁庫中。此外,將這些 URL 放進已抓取 URL 隊列; 4. 分析已抓取 URL 隊列中的 URL,分析其中的其他 URL,并且將 URL放入待抓取 URL 隊列,從而進入下一個循環(huán)。 從網(wǎng)絡機器人的角度對互聯(lián)網(wǎng)進行劃分 對應的,可以將互聯(lián)網(wǎng)的所有頁面分為五個部分,如圖 所示。 沈陽理工大學學士學位論文 XXX 圖 互聯(lián)網(wǎng)頁面劃分 已下載未過期的網(wǎng)頁; 已下載已過期網(wǎng)頁:抓取到的網(wǎng)頁實際上市互聯(lián)網(wǎng)內(nèi)同過的一個鏡像與備份 ,互聯(lián)網(wǎng)是動態(tài)變化的,一部分互聯(lián)網(wǎng)上的內(nèi)容已經(jīng)發(fā)生了變化,這時,這部分抓取到的網(wǎng)頁就已經(jīng)過期了; 待下載網(wǎng)頁:也就是待抓取 URL 隊列中的那些頁面; 可知網(wǎng)頁:還沒有抓取下來,也沒有在待抓取 URL 隊列中,但是可以通過對已抓取頁面或者待抓取 URL 對應頁面進行分析獲取到的 URL,認為是可知網(wǎng)頁; 還有一部分網(wǎng)頁,機器人是無法直接抓取下載的。稱為不可知網(wǎng)頁。 抓取策略 在網(wǎng)絡機器人中,待 抓取 URL 隊列是很重要的一部分。待抓取 URL 隊列中的 URL 以什么樣的順序排列也是一個很重要的問題,因為這涉及到先抓取那個頁面,后抓取哪個頁面。而決定這些 URL 排列順序的方法,叫做抓取策略。下面重點介紹幾 種常見的抓取策略: 深度優(yōu)先遍歷策略 深度優(yōu)先遍歷策略是指網(wǎng)絡爬蟲會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。具體原理如圖沈陽理工大學學士學位論文 XXXI 所示。 圖 深度優(yōu)先遍歷原理圖 遍歷的路徑: AFG EHI B C D 寬度有線遍歷策略 寬度優(yōu)先遍歷策略的基本思路是,將新下載網(wǎng)頁中發(fā)現(xiàn)的鏈接直接插入待抓取 URL 隊列的末尾。也就是指網(wǎng)絡爬蟲會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。以圖 為例: 遍歷路徑: ABCDEF G H I 反響鏈接數(shù)策略 反向鏈接數(shù)是指一個網(wǎng)頁被其他網(wǎng)頁鏈接指向的數(shù)量。反向鏈接數(shù)表示的是一個網(wǎng)頁的內(nèi)容受到其他人的推薦的程度。因此,很多時候搜索引擎的抓取系統(tǒng)會使用這個指標來評價網(wǎng)頁的重要程度,從而決定不同網(wǎng)頁的抓取先后順序。 在真實的網(wǎng)絡環(huán)境中,由于廣告鏈接、作弊鏈接的存在,反向鏈接數(shù)不能完全等他我那個的重要程度。因此,搜索引擎往往考慮一些可靠的反向鏈接數(shù)。 沈陽理工大學學士學位論文 XXXII Partial PageRank 策略 Partial PageRank 算法借鑒了 PageRank 算法的思想:對于已經(jīng)下載的網(wǎng)頁,連同待抓取 URL 隊列中的 URL,形成網(wǎng)頁集合,計算每個頁面的 PageRank 值,計算完之后, 將待抓取 URL 隊列中的 URL 按照 PageRank 值的大小排列,并按照該順序抓取頁面。 如果每次抓取一個頁面,就重新計算 PageRank 值,一種折中方案是:每抓取 K 個頁面后,重新計算一次 PageRank 值。但是這種情況還會有一個問題:對于已經(jīng)下載下來的頁面中分析出的鏈接,也就是我們之前提到的未知網(wǎng)頁那一部分,暫時是沒有 PageRank 值的。為了解決這個問題,會給這些頁面一個臨時的PageRank 值:將這個網(wǎng)頁所有入鏈傳遞進來的 PageRank 值進行匯總,這樣就形成了該未知頁面的 PageRank 值,從而參與排序。 OPIC 策略 該算法實際上也是對頁面進行一個重要性打分。在算法開始前,給所有頁面一個相同的初始現(xiàn)金( cash)。當下載了某個頁面 P 之后,將 P 的現(xiàn)金分攤給所有從 P 中分析出的鏈接,并且將 P 的現(xiàn)金清空。對于待抓取 URL 隊列中的所有頁面按照現(xiàn)金數(shù)進行排序。 大站優(yōu)先策略 對于待抓取 URL 隊列中的所有網(wǎng)頁,根據(jù)所屬的網(wǎng)站進行分類。對于待下載頁面數(shù)多的網(wǎng)站,優(yōu)先下載。這個策略也 因此叫做大站優(yōu)先策略。 搜索引擎流程設計 搜索引擎總體流程設計 用戶在載入起始搜索頁面后,通過輸入框輸入關(guān)鍵字進行站點查找。具體流程如圖 所示。 沈陽理工大學學士學位論文 XXXIII 載 入 起 始 搜 索 頁 面輸 入 關(guān) 鍵 字跳 轉(zhuǎn) 搜 索 執(zhí) 行 頁 面判 斷 關(guān) 鍵 字 合 法 性 ?分 詞 操 作站 點 查 詢返 回 結(jié) 果 集結(jié) 束連 接 數(shù) 據(jù) 庫是否開 始 圖 搜索引擎總體流程 檢驗載入搜索頁面合法性 檢驗載入搜索 頁面 合法性流程,如圖 所示。 沈陽理工大學學士學位論文 XXXIV 載 入 搜 索 頁 面非 法 訪 問 頁 面 ?結(jié) 束開 始標 示 符 是 否 為 真 ?否關(guān) 鍵 字 為 空 ?是分 詞 操 作否跳 轉(zhuǎn) 起 始 搜 索 頁是否是 圖 檢驗載入搜索頁面合法性流程 搜索功能設計 搜索功能 流程 設計,如圖 所示。 沈陽理工大學學士學位論文 XXXV 開 始獲 取 搜 索 關(guān) 鍵 字關(guān) 鍵 字 合 法 ?連 接 數(shù) 據(jù) 庫 操 作是分 詞 操 作構(gòu) 造 S Q L 語 句數(shù) 據(jù) 庫 搜 索獲 取 搜 索 結(jié) 果 集結(jié) 束否 圖 搜索功能流程圖 沈陽理工大學學士學位論文 XXXVI 5 搜索引擎實現(xiàn) 完成系統(tǒng)結(jié)構(gòu)設計和所有模塊程序流程設計后,本系統(tǒng)的設計脈絡已經(jīng)基本清晰,接下來可以編寫代碼,實現(xiàn)系統(tǒng)。 搜索引擎與用戶直接交互的是瀏覽器的搜索界面,在設計、開發(fā)和實現(xiàn)搜索界面時,考慮到代碼編寫的規(guī)范和實現(xiàn)的效率因素,作者將重要的實現(xiàn)代碼用JavaBean 封裝實現(xiàn)。這樣在開發(fā)搜索界面時,實現(xiàn)代碼與布局代碼分離,作者只需要認真考慮界面布局即可,而無需擔心代碼之間相互交錯,增加開發(fā)難度。 JavaBean 實現(xiàn)說明 數(shù)據(jù)庫連接類 MysqlBean MysqlBean 的主要作用是與數(shù)據(jù)庫進行交互處理,包括連接數(shù)據(jù)庫、執(zhí)行查詢語句、返回查詢結(jié)果。 連接數(shù)據(jù)庫代碼 try{ ().newInstance()。 Connection connection=(url)。 = connection 。 Statement statement = ()。 = statement 。 }catch( ClassNotFoundException e ){ //throw () 。 }catch( SQLException e ){ }catch( Exception e ){} 執(zhí)行查詢語句 由于 MysqlBean 只是重新封裝了 Java 中 ResultSet 類,所以只需要將 SQL語句送進 ResultSet 的 executeQuery()即可。 實現(xiàn)代碼如下: ResultSet rs = ( sql )。 沈陽理工大學學士學位論文 XXXVII 分詞處理類 SpliteWord SpliteWord 作用是對用戶輸入的關(guān)鍵字進行簡單的分割,然后保存在一個String 數(shù)組中返回。代碼實現(xiàn)如下: String[] chineseWord_1 = ( [az|AZ|09 \\pP]+ ) 。 String chineseWord_X = ( [az|AZ0|09 \\pP]+, ) 。 String[] chineseWord_2 = { chineseWord_X } 。 String[] englishWord = ( [^az|AZ]+ ) 。 String[][] result = { chineseWord_1 , chineseWord_2 , englishW
點擊復制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1