正文內(nèi)容

搜索引擎設(shè)計(jì)學(xué)士學(xué)位論文-資料下載頁

2025-07-08 04:14本頁面

【導(dǎo)讀】來越得到廣泛地使用。搜索引擎系統(tǒng)包括3個功能模塊：網(wǎng)頁獲取模塊，數(shù)據(jù)存儲模塊和檢索。本人在課題組中主要承擔(dān)工作有：系統(tǒng)整體設(shè)計(jì)、數(shù)據(jù)庫的設(shè)計(jì)實(shí)現(xiàn)以及中文分。本系統(tǒng)的整體設(shè)計(jì)突出操作簡便、功能強(qiáng)大、人性化設(shè)置、并行處理可移植等特點(diǎn)，其中中文分詞，各模塊的存儲流程是系統(tǒng)的設(shè)計(jì)亮點(diǎn)。本文中對搜索引擎的各種技術(shù)算。法進(jìn)行了介紹，而且根據(jù)系統(tǒng)的需要進(jìn)行了各功能模塊的設(shè)計(jì)。大容量存儲、高效檢索和簡單查詢。索引數(shù)據(jù)庫以頁面信息表和詞庫表為核心，通過對。分割，使其分為單獨(dú)的詞或詞組。

　　

【正文】學(xué)位論文 XXV 物理結(jié)構(gòu)設(shè)計(jì)，數(shù)據(jù)庫物理結(jié)構(gòu)設(shè)計(jì)包括存儲類型的選擇、屬性數(shù)據(jù)類型的確定、表的索引結(jié)構(gòu)的確定和數(shù)據(jù)庫存取路徑的確定，目前的主流數(shù)據(jù)庫管理系統(tǒng)提供易用的工具，幫助用戶完成數(shù)據(jù)庫的物理結(jié)構(gòu)設(shè)計(jì)。在需求分析中已經(jīng)完成數(shù)據(jù)庫的規(guī)劃和需求分析，之后三個小節(jié)將給出系統(tǒng)數(shù)據(jù)庫的概念結(jié)構(gòu)設(shè)計(jì)、邏輯結(jié)構(gòu)設(shè)計(jì)和物理結(jié)構(gòu)設(shè)計(jì)。數(shù)據(jù)庫概念結(jié)構(gòu)設(shè)計(jì) 由數(shù)據(jù)庫需求分析可知，搜索引擎數(shù)據(jù)庫的實(shí)體包括鏈接詳細(xì)信息表、鏈接列表、鏈接表，實(shí)體之間關(guān)系如圖所示。鏈接詳細(xì) 信息聯(lián) 系鏈接關(guān) 聯(lián)鏈接列表圖實(shí)體及實(shí)體之間關(guān)系 ER 圖本搜索引擎對數(shù)據(jù)庫的使用，主要集中在關(guān)鍵的鏈接詳細(xì)信息表和鏈接表，因?yàn)楸舅阉饕嬷粚ヂ?lián)網(wǎng)上各個站點(diǎn)的信息標(biāo)題進(jìn)行搜索，鏈接列表是記錄當(dāng)前鏈接中它自身重定向的若干鏈接信息。鏈接詳細(xì)信息實(shí)體 ER 圖，如圖所示。沈陽理工大學(xué)學(xué)士學(xué)位論文 XXVI 鏈接詳細(xì) 信息I D 號字符集格式簡單描述標(biāo) 題信息關(guān) 鍵字信息圖鏈接詳細(xì)信息 ER 圖鏈接實(shí)體 ER 圖，如圖所示鏈接I D 號訪問地址收錄時(shí) 間圖鏈接實(shí)體 ER 圖鏈接列表實(shí)體 ER 圖，如圖所示鏈接列表I D 號連接地址沈陽理工大學(xué)學(xué)士學(xué)位論文 XXVII 圖鏈接列表實(shí)體 ER 圖數(shù)據(jù)庫邏輯結(jié)構(gòu)設(shè)計(jì) 數(shù)據(jù)庫邏輯結(jié)構(gòu)設(shè)計(jì) 要將獨(dú)立于數(shù)據(jù)庫管理系統(tǒng)的概念模型轉(zhuǎn)換為適于數(shù)據(jù)庫系統(tǒng)邏輯結(jié)構(gòu)，轉(zhuǎn)換后的邏輯結(jié)構(gòu)需合計(jì)算機(jī)處理信息的邏輯并能與數(shù)據(jù)庫系統(tǒng)的特性兼容。轉(zhuǎn)化過程中，每個實(shí)體都需要轉(zhuǎn)換為一個關(guān)系，每個關(guān)系的主碼必須不為空，對于二元聯(lián)系需要按照一對多、弱實(shí)體、一對一、多對多等聯(lián)系來定義外碼。根據(jù)數(shù)據(jù)庫實(shí)體 ER 圖可以得到各實(shí)體的屬性：鏈接詳細(xì)信息： ID 號，字符集格式，標(biāo)題信息，關(guān)鍵字信息，簡單描述。鏈接： ID 號，訪問地址，收錄信息。鏈接列表： ID 號，鏈接地址。將概念模型轉(zhuǎn)換為如下的關(guān)系模式：鏈接詳細(xì)信息（ ID 號，字符集格式，標(biāo)題信息，關(guān)鍵字信息，簡單描述），主碼為 ID 號，外碼為鏈接的 ID 號。鏈接（ ID 號，訪問地址，收錄信息），主碼為 ID 號，外碼為鏈接詳細(xì)信息的 ID 號。鏈接列表（ ID 號，鏈接地址），主碼為 ID 號，外碼為鏈接詳細(xì)信息的 ID 號。聯(lián)系：聯(lián)系轉(zhuǎn)換為鏈接詳細(xì)信息與鏈接之間一對一關(guān)系，外碼為鏈接詳細(xì)信息的 ID 號和鏈接的 ID 號。關(guān)聯(lián)：關(guān)聯(lián)轉(zhuǎn)換為鏈接詳細(xì)信息與鏈接列表之間一對一關(guān)系，外碼為鏈接詳細(xì)信息的 ID 號與鏈接列表的 ID 號。數(shù)據(jù)庫物理結(jié)構(gòu)設(shè)計(jì) 物理結(jié)構(gòu)設(shè)計(jì)，數(shù)據(jù)庫物理結(jié)構(gòu)設(shè)計(jì)包括存儲類型的選擇、屬性數(shù)據(jù)類型的確定、表的索引結(jié)構(gòu)的確定和數(shù)據(jù)庫存取路徑的確定。本系統(tǒng)的數(shù)據(jù)庫存放在與服務(wù)器程序相同的路徑中，在程序中通過應(yīng)用接口以應(yīng)用程序賬戶的方式訪問數(shù)據(jù)庫。在數(shù)據(jù)庫表設(shè)計(jì)器中，為每一個關(guān)系設(shè)計(jì)對應(yīng)的表，并確定各屬性的數(shù)據(jù)類型和空間占用。鏈接詳細(xì)信息（ contents）數(shù)據(jù)表設(shè)計(jì) 見表。沈陽理工大學(xué)學(xué)士學(xué)位論文 XXVIII 表鏈接詳細(xì)信息數(shù)據(jù)表字段含義字段名數(shù)據(jù)類型是否為主鍵可否為空 ID 號 id int(11) YES NO 字符集格式 charset Varchar(128) NO YES 標(biāo)題信息 Title text NO YES 關(guān)鍵字信息 Keyword text NO YES 簡單描述 description longtext NO YES 鏈接（ urls）數(shù)據(jù)表設(shè)計(jì) 見表。表連接數(shù)據(jù)表字段含義字段名數(shù)據(jù)類型是否為主鍵可否為空 ID 號 id int(11) YES NO 訪問地址 url text NO YES 收錄時(shí)間 capture_time timestamp NO CURRENT_TIMESTAMP 鏈接列表（ links）數(shù)據(jù)表設(shè)計(jì) 見表。表鏈接列表數(shù)據(jù)表字段含義字段名數(shù)據(jù)類型是否為主鍵可否為空 ID 號 id int(11) YES NO 鏈接地址 link text NO YES 數(shù)據(jù)存儲流程設(shè)計(jì) 本搜索引擎的數(shù)據(jù)錄入全部依賴 JSpider 軟件實(shí)現(xiàn)。網(wǎng)絡(luò)機(jī)器人是搜索引擎抓取系統(tǒng)的重要組成部分。機(jī)器人軟件的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁信息下載到本地形成一個或聯(lián)網(wǎng)內(nèi)容的鏡像備份。網(wǎng)絡(luò)機(jī)器人的基本結(jié)構(gòu)及工作原理一個通用的網(wǎng)絡(luò)機(jī)器人的框架如圖所示。沈陽理工大學(xué)學(xué)士學(xué)位論文 XXIX 圖網(wǎng)絡(luò)機(jī)器人原理圖網(wǎng)絡(luò)機(jī)器人的基本工作流程如下： 1. 首先選取一部分精心挑選的種子 URL； 2. 將這些 URL 放入待抓取 URL 隊(duì)列； 3. 從待抓取 URL 隊(duì)列中取出待抓取的 URL，解析 DNS，并且得到主機(jī)的ip，并將 URL 對應(yīng)的網(wǎng)頁下載下來，存儲進(jìn)已下砸網(wǎng)頁庫中。此外，將這些 URL 放進(jìn)已抓取 URL 隊(duì)列； 4. 分析已抓取 URL 隊(duì)列中的 URL，分析其中的其他 URL，并且將 URL放入待抓取 URL 隊(duì)列，從而進(jìn)入下一個循環(huán)。從網(wǎng)絡(luò)機(jī)器人的角度對互聯(lián)網(wǎng)進(jìn)行劃分對應(yīng)的，可以將互聯(lián)網(wǎng)的所有頁面分為五個部分，如圖所示。沈陽理工大學(xué)學(xué)士學(xué)位論文 XXX 圖互聯(lián)網(wǎng)頁面劃分已下載未過期的網(wǎng)頁；已下載已過期網(wǎng)頁：抓取到的網(wǎng)頁實(shí)際上市互聯(lián)網(wǎng)內(nèi)同過的一個鏡像與備份，互聯(lián)網(wǎng)是動態(tài)變化的，一部分互聯(lián)網(wǎng)上的內(nèi)容已經(jīng)發(fā)生了變化，這時(shí)，這部分抓取到的網(wǎng)頁就已經(jīng)過期了；待下載網(wǎng)頁：也就是待抓取 URL 隊(duì)列中的那些頁面；可知網(wǎng)頁：還沒有抓取下來，也沒有在待抓取 URL 隊(duì)列中，但是可以通過對已抓取頁面或者待抓取 URL 對應(yīng)頁面進(jìn)行分析獲取到的 URL，認(rèn)為是可知網(wǎng)頁；還有一部分網(wǎng)頁，機(jī)器人是無法直接抓取下載的。稱為不可知網(wǎng)頁。抓取策略在網(wǎng)絡(luò)機(jī)器人中，待抓取 URL 隊(duì)列是很重要的一部分。待抓取 URL 隊(duì)列中的 URL 以什么樣的順序排列也是一個很重要的問題，因?yàn)檫@涉及到先抓取那個頁面，后抓取哪個頁面。而決定這些 URL 排列順序的方法，叫做抓取策略。下面重點(diǎn)介紹幾種常見的抓取策略：深度優(yōu)先遍歷策略深度優(yōu)先遍歷策略是指網(wǎng)絡(luò)爬蟲會從起始頁開始，一個鏈接一個鏈接跟蹤下去，處理完這條線路之后再轉(zhuǎn)入下一個起始頁，繼續(xù)跟蹤鏈接。具體原理如圖沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXI 所示。圖深度優(yōu)先遍歷原理圖遍歷的路徑： AFG EHI B C D 寬度有線遍歷策略寬度優(yōu)先遍歷策略的基本思路是，將新下載網(wǎng)頁中發(fā)現(xiàn)的鏈接直接插入待抓取 URL 隊(duì)列的末尾。也就是指網(wǎng)絡(luò)爬蟲會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁，然后再選擇其中的一個鏈接網(wǎng)頁，繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。以圖為例：遍歷路徑： ABCDEF G H I 反響鏈接數(shù)策略反向鏈接數(shù)是指一個網(wǎng)頁被其他網(wǎng)頁鏈接指向的數(shù)量。反向鏈接數(shù)表示的是一個網(wǎng)頁的內(nèi)容受到其他人的推薦的程度。因此，很多時(shí)候搜索引擎的抓取系統(tǒng)會使用這個指標(biāo)來評價(jià)網(wǎng)頁的重要程度，從而決定不同網(wǎng)頁的抓取先后順序。在真實(shí)的網(wǎng)絡(luò)環(huán)境中，由于廣告鏈接、作弊鏈接的存在，反向鏈接數(shù)不能完全等他我那個的重要程度。因此，搜索引擎往往考慮一些可靠的反向鏈接數(shù)。沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXII Partial PageRank 策略 Partial PageRank 算法借鑒了 PageRank 算法的思想：對于已經(jīng)下載的網(wǎng)頁，連同待抓取 URL 隊(duì)列中的 URL，形成網(wǎng)頁集合，計(jì)算每個頁面的 PageRank 值，計(jì)算完之后，將待抓取 URL 隊(duì)列中的 URL 按照 PageRank 值的大小排列，并按照該順序抓取頁面。如果每次抓取一個頁面，就重新計(jì)算 PageRank 值，一種折中方案是：每抓取 K 個頁面后，重新計(jì)算一次 PageRank 值。但是這種情況還會有一個問題：對于已經(jīng)下載下來的頁面中分析出的鏈接，也就是我們之前提到的未知網(wǎng)頁那一部分，暫時(shí)是沒有 PageRank 值的。為了解決這個問題，會給這些頁面一個臨時(shí)的PageRank 值：將這個網(wǎng)頁所有入鏈傳遞進(jìn)來的 PageRank 值進(jìn)行匯總，這樣就形成了該未知頁面的 PageRank 值，從而參與排序。 OPIC 策略該算法實(shí)際上也是對頁面進(jìn)行一個重要性打分。在算法開始前，給所有頁面一個相同的初始現(xiàn)金（ cash）。當(dāng)下載了某個頁面 P 之后，將 P 的現(xiàn)金分?jǐn)偨o所有從 P 中分析出的鏈接，并且將 P 的現(xiàn)金清空。對于待抓取 URL 隊(duì)列中的所有頁面按照現(xiàn)金數(shù)進(jìn)行排序。大站優(yōu)先策略對于待抓取 URL 隊(duì)列中的所有網(wǎng)頁，根據(jù)所屬的網(wǎng)站進(jìn)行分類。對于待下載頁面數(shù)多的網(wǎng)站，優(yōu)先下載。這個策略也因此叫做大站優(yōu)先策略。搜索引擎流程設(shè)計(jì) 搜索引擎總體流程設(shè)計(jì) 用戶在載入起始搜索頁面后，通過輸入框輸入關(guān)鍵字進(jìn)行站點(diǎn)查找。具體流程如圖所示。沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXIII 載入起始搜索頁面輸入關(guān) 鍵字跳轉(zhuǎn) 搜索執(zhí) 行頁面判斷關(guān) 鍵字合法性 ?分詞操作站點(diǎn) 查詢返回結(jié) 果集結(jié) 束連接數(shù) 據(jù) 庫是否開始圖搜索引擎總體流程檢驗(yàn)載入搜索頁面合法性檢驗(yàn)載入搜索頁面合法性流程，如圖所示。沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXIV 載入搜索頁面非法訪問頁面 ?結(jié) 束開始標(biāo) 示符是否為真 ?否關(guān) 鍵字為空 ?是分詞操作否跳轉(zhuǎn) 起始搜索頁是否是圖檢驗(yàn)載入搜索頁面合法性流程搜索功能設(shè)計(jì) 搜索功能流程設(shè)計(jì)，如圖所示。沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXV 開始獲取搜索關(guān) 鍵字關(guān) 鍵字合法 ?連接數(shù) 據(jù) 庫操作是分詞操作構(gòu) 造 S Q L 語句數(shù) 據(jù) 庫搜索獲取搜索結(jié) 果集結(jié) 束否圖搜索功能流程圖沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXVI 5 搜索引擎實(shí)現(xiàn) 完成系統(tǒng)結(jié)構(gòu)設(shè)計(jì)和所有模塊程序流程設(shè)計(jì)后，本系統(tǒng)的設(shè)計(jì)脈絡(luò)已經(jīng)基本清晰，接下來可以編寫代碼，實(shí)現(xiàn)系統(tǒng)。搜索引擎與用戶直接交互的是瀏覽器的搜索界面，在設(shè)計(jì)、開發(fā)和實(shí)現(xiàn)搜索界面時(shí)，考慮到代碼編寫的規(guī)范和實(shí)現(xiàn)的效率因素，作者將重要的實(shí)現(xiàn)代碼用JavaBean 封裝實(shí)現(xiàn)。這樣在開發(fā)搜索界面時(shí)，實(shí)現(xiàn)代碼與布局代碼分離，作者只需要認(rèn)真考慮界面布局即可，而無需擔(dān)心代碼之間相互交錯，增加開發(fā)難度。 JavaBean 實(shí)現(xiàn)說明數(shù)據(jù)庫連接類 MysqlBean MysqlBean 的主要作用是與數(shù)據(jù)庫進(jìn)行交互處理，包括連接數(shù)據(jù)庫、執(zhí)行查詢語句、返回查詢結(jié)果。連接數(shù)據(jù)庫代碼 try{ ().newInstance()。 Connection connection=(url)。 = connection 。 Statement statement = ()。 = statement 。 }catch( ClassNotFoundException e ){ //throw () 。 }catch( SQLException e ){ }catch( Exception e ){} 執(zhí)行查詢語句由于 MysqlBean 只是重新封裝了 Java 中 ResultSet 類，所以只需要將 SQL語句送進(jìn) ResultSet 的 executeQuery()即可。實(shí)現(xiàn)代碼如下： ResultSet rs = ( sql )。沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXVII 分詞處理類 SpliteWord SpliteWord 作用是對用戶輸入的關(guān)鍵字進(jìn)行簡單的分割，然后保存在一個String 數(shù)組中返回。代碼實(shí)現(xiàn)如下： String[] chineseWord_1 = ( [az|AZ|09 \\pP]+ ) 。 String chineseWord_X = ( [az|AZ0|09 \\pP]+, ) 。 String[] chineseWord_2 = { chineseWord_X } 。 String[] englishWord = ( [^az|AZ]+ ) 。 String[][] result = { chineseWord_1 , chineseWord_2 , englishW

點(diǎn)擊復(fù)制文檔內(nèi)容

研究報(bào)告相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

搜索引擎設(shè)計(jì)學(xué)士學(xué)位論文-資料下載頁

搜索引擎介紹-資料下載頁

搜索引擎技術(shù)-資料下載頁

iqraaa搜索引擎-資料下載頁

nuwaaa搜索引擎-資料下載頁

kegaaa搜索引擎-資料下載頁

搜索引擎優(yōu)化-資料下載頁

搜索引擎(3)-資料下載頁

外文搜索引擎-資料下載頁

web圖片搜索引擎設(shè)計(jì)-資料下載頁

搜索引擎及搜索技巧-資料下載頁

淺議seo搜索引擎優(yōu)化_畢業(yè)設(shè)計(jì)論文-資料下載頁

web圖片搜索引擎設(shè)計(jì)-資料下載頁

搜索引擎銷售協(xié)議-資料下載頁

［］文件快速搜索引擎-資料下載頁

搜索引擎服務(wù)條款-資料下載頁

搜索引擎設(shè)計(jì)學(xué)士學(xué)位論文(存儲版)

搜索引擎設(shè)計(jì)學(xué)士學(xué)位論文-文庫吧在線文庫

搜索引擎設(shè)計(jì)學(xué)士學(xué)位論文(完整版)

搜索引擎設(shè)計(jì)學(xué)士學(xué)位論文(更新版)

搜索引擎設(shè)計(jì)學(xué)士學(xué)位論文(專業(yè)版)