freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎設(shè)計(jì)學(xué)士學(xué)位論文(參考版)

2025-07-13 04:14本頁面
  

【正文】 String[][] result = { chineseWord_1 , chineseWord_2 , englishWor。 String[] chineseWord_2 = { chineseWord_X } 。代碼實(shí)現(xiàn)如下: String[] chineseWord_1 = ( [az|AZ|09 \\pP]+ ) 。 實(shí)現(xiàn)代碼如下: ResultSet rs = ( sql )。 }catch( ClassNotFoundException e ){ //throw () 。 Statement statement = ()。 Connection connection=(url)。 JavaBean 實(shí)現(xiàn)說明 數(shù)據(jù)庫連接類 MysqlBean MysqlBean 的主要作用是與數(shù)據(jù)庫進(jìn)行交互處理,包括連接數(shù)據(jù)庫、執(zhí)行查詢語句、返回查詢結(jié)果。 搜索引擎與用戶直接交互的是瀏覽器的搜索界面,在設(shè)計(jì)、開發(fā)和實(shí)現(xiàn)搜索界面時(shí),考慮到代碼編寫的規(guī)范和實(shí)現(xiàn)的效率因素,作者將重要的實(shí)現(xiàn)代碼用JavaBean 封裝實(shí)現(xiàn)。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXIV 載 入 搜 索 頁 面非 法 訪 問 頁 面 ?結(jié) 束開 始標(biāo) 示 符 是 否 為 真 ?否關(guān) 鍵 字 為 空 ?是分 詞 操 作否跳 轉(zhuǎn) 起 始 搜 索 頁是否是 圖 檢驗(yàn)載入搜索頁面合法性流程 搜索功能設(shè)計(jì) 搜索功能 流程 設(shè)計(jì),如圖 所示。具體流程如圖 所示。這個(gè)策略也 因此叫做大站優(yōu)先策略。 大站優(yōu)先策略 對(duì)于待抓取 URL 隊(duì)列中的所有網(wǎng)頁,根據(jù)所屬的網(wǎng)站進(jìn)行分類。當(dāng)下載了某個(gè)頁面 P 之后,將 P 的現(xiàn)金分?jǐn)偨o所有從 P 中分析出的鏈接,并且將 P 的現(xiàn)金清空。 OPIC 策略 該算法實(shí)際上也是對(duì)頁面進(jìn)行一個(gè)重要性打分。但是這種情況還會(huì)有一個(gè)問題:對(duì)于已經(jīng)下載下來的頁面中分析出的鏈接,也就是我們之前提到的未知網(wǎng)頁那一部分,暫時(shí)是沒有 PageRank 值的。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXII Partial PageRank 策略 Partial PageRank 算法借鑒了 PageRank 算法的思想:對(duì)于已經(jīng)下載的網(wǎng)頁,連同待抓取 URL 隊(duì)列中的 URL,形成網(wǎng)頁集合,計(jì)算每個(gè)頁面的 PageRank 值,計(jì)算完之后, 將待抓取 URL 隊(duì)列中的 URL 按照 PageRank 值的大小排列,并按照該順序抓取頁面。 在真實(shí)的網(wǎng)絡(luò)環(huán)境中,由于廣告鏈接、作弊鏈接的存在,反向鏈接數(shù)不能完全等他我那個(gè)的重要程度。反向鏈接數(shù)表示的是一個(gè)網(wǎng)頁的內(nèi)容受到其他人的推薦的程度。也就是指網(wǎng)絡(luò)爬蟲會(huì)先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個(gè)鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。具體原理如圖沈陽理工大學(xué)學(xué)士學(xué)位論文 XXXI 所示。而決定這些 URL 排列順序的方法,叫做抓取策略。 抓取策略 在網(wǎng)絡(luò)機(jī)器人中,待 抓取 URL 隊(duì)列是很重要的一部分。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXX 圖 互聯(lián)網(wǎng)頁面劃分 已下載未過期的網(wǎng)頁; 已下載已過期網(wǎng)頁:抓取到的網(wǎng)頁實(shí)際上市互聯(lián)網(wǎng)內(nèi)同過的一個(gè)鏡像與備份 ,互聯(lián)網(wǎng)是動(dòng)態(tài)變化的,一部分互聯(lián)網(wǎng)上的內(nèi)容已經(jīng)發(fā)生了變化,這時(shí),這部分抓取到的網(wǎng)頁就已經(jīng)過期了; 待下載網(wǎng)頁:也就是待抓取 URL 隊(duì)列中的那些頁面; 可知網(wǎng)頁:還沒有抓取下來,也沒有在待抓取 URL 隊(duì)列中,但是可以通過對(duì)已抓取頁面或者待抓取 URL 對(duì)應(yīng)頁面進(jìn)行分析獲取到的 URL,認(rèn)為是可知網(wǎng)頁; 還有一部分網(wǎng)頁,機(jī)器人是無法直接抓取下載的。此外,將這些 URL 放進(jìn)已抓取 URL 隊(duì)列; 4. 分析已抓取 URL 隊(duì)列中的 URL,分析其中的其他 URL,并且將 URL放入待抓取 URL 隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)。 網(wǎng)絡(luò)機(jī)器人的基本結(jié)構(gòu)及工作原理 一個(gè) 通用的網(wǎng)絡(luò)機(jī)器人的框架如圖 所示。 網(wǎng)絡(luò)機(jī)器人是搜索引擎 抓取系統(tǒng)的重要組成部分。 表 連接數(shù)據(jù)表 字段含義 字段名 數(shù)據(jù)類型 是否為主鍵 可否為空 ID 號(hào) id int(11) YES NO 訪問地址 url text NO YES 收錄時(shí)間 capture_time timestamp NO CURRENT_TIMESTAMP 鏈接列表( links)數(shù)據(jù)表設(shè)計(jì) 見表 。 鏈接詳細(xì)信息( contents)數(shù)據(jù)表設(shè)計(jì) 見表 。 本系統(tǒng)的數(shù)據(jù)庫存放在與服務(wù)器程序相同的路徑中,在程序中通過應(yīng)用接口以應(yīng)用程序賬戶的方式訪問數(shù)據(jù)庫。 關(guān)聯(lián):關(guān)聯(lián)轉(zhuǎn)換為鏈接詳細(xì)信息與鏈接列表之間一對(duì)一關(guān)系,外碼為鏈接詳細(xì)信息的 ID 號(hào)與鏈接列表的 ID 號(hào)。 鏈接列表( ID 號(hào),鏈接地址),主碼為 ID 號(hào),外碼為鏈接詳細(xì)信息 的 ID 號(hào)。 將概念模型轉(zhuǎn)換為如下的關(guān)系模式: 鏈接詳細(xì)信息( ID 號(hào),字符集格式,標(biāo)題信息,關(guān)鍵字信息,簡(jiǎn)單描述),主碼為 ID 號(hào),外碼為鏈接的 ID 號(hào)。 鏈接: ID 號(hào),訪問地址,收錄信息。轉(zhuǎn)化過程中,每個(gè)實(shí)體都需要轉(zhuǎn)換為一個(gè)關(guān)系,每個(gè)關(guān)系的主碼必須不為空,對(duì)于二元聯(lián)系需要按 照一對(duì)多、弱實(shí)體、一對(duì)一、多對(duì)多等聯(lián)系來定義外碼。 鏈接詳細(xì)信息實(shí)體 ER 圖,如圖 所示。 數(shù)據(jù)庫概念結(jié)構(gòu)設(shè)計(jì) 由數(shù)據(jù)庫需求分析可知,搜索引擎數(shù)據(jù)庫 的實(shí)體包括鏈接詳細(xì)信息表、鏈接列表、鏈接表,實(shí)體之間關(guān)系如圖 所示。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXV 物理結(jié)構(gòu)設(shè)計(jì),數(shù)據(jù)庫物理結(jié)構(gòu)設(shè)計(jì)包括存儲(chǔ)類型的選擇、屬性數(shù)據(jù)類型的確定、表的索引結(jié)構(gòu)的確定和數(shù)據(jù)庫存取路徑的確定,目前的主流數(shù)據(jù)庫管理系統(tǒng)提供易用的工具,幫助用戶完成數(shù)據(jù)庫的物理結(jié)構(gòu)設(shè)計(jì)。 實(shí) 體聯(lián) 系屬 性 圖 實(shí)體描述 邏輯結(jié)構(gòu)設(shè)計(jì),數(shù)據(jù)庫邏輯結(jié)構(gòu)設(shè)計(jì)就是將 ER 圖轉(zhuǎn)換為數(shù)據(jù)庫管理系統(tǒng)支持的數(shù)據(jù)模型。組成實(shí)體 聯(lián)系 (ER)模型的元素有實(shí)體、聯(lián)系和屬性,實(shí)體是指用戶工作環(huán)境中所涉及的事物,屬性是實(shí)體特性的描述,聯(lián)系表示實(shí)體之間的關(guān)系。 概念結(jié)構(gòu)設(shè)計(jì),概念結(jié)構(gòu)設(shè)計(jì)的目標(biāo)是產(chǎn)生系統(tǒng)信息需求的數(shù)據(jù)庫概念結(jié)構(gòu),即概念模型,概念模型是獨(dú)立于 計(jì)算機(jī)硬件結(jié)構(gòu)和數(shù)據(jù)庫管理系統(tǒng)的。 數(shù)據(jù)庫規(guī)劃,對(duì)于一個(gè)數(shù)據(jù)庫應(yīng)用項(xiàng)目,需要在規(guī)劃階段完成,系統(tǒng)調(diào)查、可行性分析和系統(tǒng)目標(biāo)確定等工作,項(xiàng)目實(shí)施作初步準(zhǔn)備。對(duì)于一個(gè)出色的搜索引擎,如何設(shè)計(jì)出 一個(gè)高效、穩(wěn)定、安全的數(shù)據(jù)庫成為關(guān)鍵。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXIV 數(shù)據(jù)庫設(shè)計(jì) 數(shù)據(jù)庫是搜索引擎的核心部分之一。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XXIII 4 搜索引擎設(shè)計(jì) 搜索引擎結(jié)構(gòu)設(shè)計(jì) 根據(jù)需求分析,我們可以知道用戶在使用搜索功能時(shí),客戶端一般是桌面瀏覽器或者移動(dòng)瀏覽器,根據(jù)需求分析,可以設(shè)計(jì)出兼容多種客戶端平臺(tái)的搜索引擎結(jié)構(gòu),如圖 所示。 頁面背景美觀、柔和。為了使用戶擁有良好的使用體驗(yàn),要求網(wǎng)頁設(shè)計(jì)到達(dá)以下要求。所以在設(shè)計(jì)操作界面時(shí),開發(fā)者努力做到使用界面清 晰明了,讓第一次使用的用戶可以輕易使用。數(shù)據(jù)庫的主要實(shí)體有: 鏈接詳細(xì)信息表,用于存儲(chǔ)當(dāng)前鏈接的標(biāo) 題、簡(jiǎn)單說明、字符集和關(guān)鍵字; 鏈接列表,用于存儲(chǔ)當(dāng)前鏈接當(dāng)中再指向其他的超鏈接列表; 鏈接表,用于存儲(chǔ)當(dāng)前鏈接的具體訪問地址,存儲(chǔ)時(shí)間 。 數(shù)據(jù)庫 信息 實(shí)時(shí)更新,定期對(duì)數(shù)據(jù)庫中的信息進(jìn)行更新處理,保證搜索結(jié)果的實(shí)時(shí)性。 中文分詞,可以對(duì)一行長中文句子進(jìn)行分詞,分成若干中文短語,再送進(jìn)數(shù)據(jù)庫進(jìn)行搜索,從而提高搜索的準(zhǔn)確性,同時(shí)符合用戶日常輸入習(xí)慣。由于本引擎設(shè)計(jì)時(shí)已經(jīng)考慮到跨平臺(tái)的兼容性問題,所以用戶無需擔(dān)心由于不同客戶端而造成沈陽理工大學(xué)學(xué)士學(xué)位論文 XXII 引擎無法正常工作、顯示問題。 通過對(duì)引擎的目標(biāo)確定和用例分析,可以全面準(zhǔn)確地把握引擎的功能需求。 搜索引擎功能需求分析 搜索引擎支持客戶端類型 本搜索引擎是基于 WEB 瀏覽器開發(fā)的,支持桌面版本的所有瀏覽器和Android 客戶端的瀏覽器使用。 用戶使用搜索功能用例分析 用戶在生活中使用搜索引擎方式如圖 所示。網(wǎng)上用戶使用搜索引擎時(shí)的習(xí)慣如圖 所示。 界面友好,界面 美觀、大氣、易用。 簡(jiǎn)單性原則,系統(tǒng)程序要求在保證完整性原則的情況下從簡(jiǎn)設(shè)計(jì),系統(tǒng)必須易于使用,學(xué)習(xí)成本低。 搜索引擎的設(shè)計(jì)原則 為了開發(fā)一個(gè)搜索速度快、高性能的搜索引擎,需要遵循如下設(shè)計(jì)原則: 數(shù)據(jù)庫設(shè)計(jì)原則,充分考慮系統(tǒng)的性能,較少數(shù)據(jù)冗余, 充分考慮各實(shí)體的構(gòu)成和各字段的屬性,力求最優(yōu)設(shè)計(jì)。 多客戶端訪問,開發(fā)客戶端過程中考慮各個(gè)客戶端之間的兼容性。 中文分詞符合詞意,對(duì)于一個(gè)中文搜索引擎,中文分詞是一個(gè)重要的設(shè)計(jì)環(huán)節(jié),由于中文的特殊性,使得中文搜索引擎在設(shè)計(jì)時(shí)必須考慮中文詞匯的有意義性,否則搜索結(jié)果會(huì)與用戶當(dāng)初設(shè)想的相差太遠(yuǎn)。設(shè)計(jì)要導(dǎo)到如下目標(biāo): 沈陽理工大學(xué)學(xué)士學(xué)位論文 XIX 執(zhí)行速度快,對(duì)于數(shù)據(jù)庫里成千上萬條記錄,要求快速、準(zhǔn)確地查詢出用戶所希望的結(jié)果集, 數(shù)據(jù)庫的穩(wěn)定性至關(guān)重要,設(shè)計(jì)一個(gè)良好的邏輯關(guān)系非常重要。搜索引擎將 Inter 網(wǎng)中對(duì)使用者有用的信息提取出來,無異于從 Inter 中提煉真金。正如大海里蘊(yùn)藏了豐富的資源,但人們卻因?yàn)闆]有先進(jìn)的工具而無法獲 得、利用這些資源。真正的問題出在人們?cè)谌绱舜蟮男畔⒑Q罄镫y以找到他們所需要的準(zhǔn)確信息。 Inter 的出現(xiàn)在很大程度上解決了這一問題,但很多人仍感到缺乏他們所需要的信息。 搜索引擎開發(fā)背景 搜索引擎是一種用于幫助 Inter 用戶查詢信息的搜索工具,它以一定的策略在 Inter 中 搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。 沈陽理工大學(xué)學(xué)士學(xué)位論文 XVIII 3 系統(tǒng)分析 搜索引擎說明 搜索引擎描述 本研究開發(fā)的系統(tǒng)名為基于 Android 客戶端的搜索引擎開發(fā)實(shí)現(xiàn)。通過這個(gè)應(yīng)用,輔助于Ftp,你可以在遠(yuǎn)程通過 Web 部署和撤銷應(yīng)用。編譯以后,訪問將會(huì)很快。 在 Tomcat 中,應(yīng)用程序的部署很簡(jiǎn)單,你只需將你的 WAR 放到 Tomcat 的 webapp 目錄下, Tomcat會(huì)自動(dòng)檢測(cè)到這個(gè)文件,并將其解壓。通常在 WEBINF 目錄下有一個(gè) 文件和一個(gè) classes 目錄, 是這個(gè)應(yīng)用的配置文件,而 classes 目錄下則包含編譯好的 Servlet 類和 JSP 或 Servlet 所依賴的其它類(如 JavaBean)。 WAR 是 Sun 提出的一種 Web 應(yīng)用程序格式,與 JAR 類似,也是許多文件的一個(gè)壓縮包。由于有了 Sun 的參與和支持,最新的 Servlet 和 JSP 規(guī)范總能在 Tomcat 中得到體沈陽理工大學(xué)學(xué)士學(xué)位論文 XVII 現(xiàn)。 JSP 可以使用成熟的 JAVA BEANS 組件來實(shí)現(xiàn)復(fù)雜商務(wù)功能。 支持服務(wù)器端組件。 多樣化和功能強(qiáng)大的開發(fā)工具支持。 強(qiáng)大的可伸縮性。基本上可以在所有平臺(tái)上的任意環(huán)境中開發(fā),在任意環(huán)境中進(jìn)行系統(tǒng) 部署,在任意環(huán)境中擴(kuò)展。除了系統(tǒng)之外,代碼不用做任何更改。 JSP 具備了 Java 技術(shù)的簡(jiǎn)單易用,完全的面向?qū)ο螅哂衅脚_(tái)無關(guān)性且安全可靠,主要面向因特網(wǎng)的所有特點(diǎn)。服務(wù)器在頁面被客戶端請(qǐng)求以后對(duì)這些 Java 代碼進(jìn)行處理,然后將生成的 HTML 頁面返回給客戶端的瀏覽器。 JSP(JavaServer Pages)是一種動(dòng)態(tài)頁面技術(shù),它的主要目的是將表示邏輯從 Servlet 中分離出來。網(wǎng)頁還能通過 tags 和 scriptlets 訪問存在于服務(wù)端的資源的應(yīng)用邏輯。插入的 Java 程序段可以操作 數(shù)據(jù)庫、重新定向網(wǎng)頁等,以實(shí)現(xiàn)建立動(dòng)態(tài)網(wǎng)頁所需要的功能。 JSP 與 Servlet 一樣,是在服務(wù)器端執(zhí)行的,通常返回給客戶端的就是一個(gè) HTML 文本,因此客戶端只要有瀏覽器就能瀏覽。 用 JSP 開發(fā)的 Web 應(yīng)用是跨平臺(tái)的,既能在 Linux 下運(yùn)行,也能在其他操作系統(tǒng)上運(yùn)行。 JSP 技術(shù) JSP 語言介紹 JSP( Java Server Pages)是由 Sun Microsystems 公司倡導(dǎo)、許多公司參與一起建立的一種動(dòng)態(tài)網(wǎng)頁技術(shù)標(biāo)準(zhǔn)。 (4)高可用 NoSQL 在不太影響性能的情況,就可以方便的實(shí)現(xiàn)高可用的架構(gòu)。如果是非常大數(shù)據(jù)量的表,增加字段簡(jiǎn)直就是一個(gè)噩夢(mèng)。 (3)靈活的數(shù)據(jù)模型 NoSQL 無需事先為要存儲(chǔ)的數(shù)據(jù)建立字段,隨時(shí)可以存儲(chǔ)自定義的數(shù)據(jù)格式。一般 MySQL 使用 Query Cache,每次表的更新 Cache 就失效,是一種大粒度的 Cache,在針對(duì) 的交互頻繁的應(yīng)用, Cache 性能不高。 (2)大數(shù)據(jù)量,高性能 NoSQL 數(shù)據(jù)庫都具有非常高的讀寫性能,尤其在大數(shù)據(jù)量下,同樣表現(xiàn)優(yōu)秀。數(shù)據(jù)之間無關(guān)系,這樣就非常容易擴(kuò)展。 4) 沒有過多的操作,雖然 NoSQL 的支持者也承認(rèn)關(guān)系數(shù)據(jù)庫提供了無可比擬的功能集合,而且在數(shù)據(jù)完整性上也發(fā)揮絕對(duì)穩(wěn)定,他們同時(shí)也表
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1