freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎設(shè)計(jì)學(xué)士學(xué)位論文-預(yù)覽頁(yè)

 

【正文】 ..LVI 沈陽(yáng)理工大學(xué)學(xué)士學(xué)位論文 V 1 緒論 研究的背景及意義 自上個(gè)世紀(jì) 90 年代以來(lái)隨著網(wǎng)絡(luò)化和信 息數(shù)字化技術(shù)的發(fā)展,網(wǎng)絡(luò)上的信息量以幾何數(shù)量級(jí)遞增,人們已經(jīng)無(wú)法很輕易地在網(wǎng)絡(luò)上搜索到自己想要的信息,卻陷入了信息過(guò)剩的苦惱當(dāng)中。 關(guān)鍵詞 :搜索引擎; WEB 搜索;中文分詞;索引數(shù)據(jù)庫(kù);排序。 本系統(tǒng)的整體設(shè)計(jì)突出操作簡(jiǎn)便、功能強(qiáng)大、人性化設(shè)置、并行處理可移植等特點(diǎn),其中中文分詞,各模塊的存儲(chǔ)流程是系統(tǒng)的設(shè)計(jì)亮點(diǎn)。沈陽(yáng)理工大學(xué)學(xué)士學(xué)位論文 I 摘 要 隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大,信息儲(chǔ)量急劇增長(zhǎng),搜索引擎技術(shù)越來(lái)越得到廣泛地使用。本人在課題組中主要承擔(dān)工作有:系統(tǒng)整體設(shè)計(jì)、數(shù)據(jù)庫(kù)的設(shè)計(jì)實(shí)現(xiàn)以及中文分詞系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)。索引數(shù)據(jù)庫(kù)以頁(yè)面信息表和詞庫(kù)表為核心,通過(guò)對(duì)詞創(chuàng)建索引以提高檢索效率;中文分詞系統(tǒng)采用 JDK 平臺(tái)開(kāi)發(fā),實(shí)現(xiàn)對(duì)中英文句子的分割,使其分為單獨(dú)的詞或詞組。 Index database。 從使用者的角度看,搜索引擎提供一個(gè)包含搜索框的頁(yè)面,在搜索框輸入詞語(yǔ),通過(guò)瀏覽器提交給搜索引擎后,搜索引擎就會(huì)返回跟用戶(hù)輸入的內(nèi)容相關(guān)的信息列表。網(wǎng)站分類(lèi)目錄由人工整理維護(hù),精選互聯(lián)網(wǎng)上的優(yōu)秀網(wǎng)站,并簡(jiǎn)要描述,分類(lèi)放置到不同目錄下。當(dāng)時(shí),萬(wàn)維網(wǎng)還沒(méi)有出現(xiàn),人們通過(guò) FTP 來(lái)共享交流資源。所以, Archie 被公認(rèn)為現(xiàn)代搜索引擎的 鼻祖。 Yahoo!中收錄的網(wǎng)站,因?yàn)槎几接泻?jiǎn)介信息,所以搜索效率明顯提高。 當(dāng)今互聯(lián)網(wǎng) 搜索引擎 巨頭的發(fā)展?fàn)顩r 搜索引擎經(jīng)過(guò)幾年的發(fā)展和摸索,越來(lái)越貼近人們的需求,搜索引擎的技術(shù)也得到了很大的發(fā)展。自然語(yǔ)言的優(yōu)勢(shì)在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢(xún)變得更加方便、直接、有效。 基于訪(fǎng)問(wèn)大眾性的搜 索引擎 基于訪(fǎng)問(wèn)大眾性的搜索引擎的代表是 direct hit,它的基本理念是多數(shù)人選擇訪(fǎng)問(wèn)的網(wǎng)站就是最重要的網(wǎng)站。 去掉檢索結(jié)果中附加的多余信息 有調(diào)查指出,過(guò)多的附加信息加重了用戶(hù)的信息負(fù)擔(dān),為了去掉這些過(guò)多的附加信息,可以采用用戶(hù)定制、內(nèi)容過(guò)濾等檢索技術(shù)。 本研究的內(nèi)容及研究方案 課題完成基于 Android 客戶(hù)端的 WEB 搜索引擎特點(diǎn)和設(shè)計(jì)方法 研究,完成互聯(lián)網(wǎng)信息錄入和關(guān)鍵字分詞、搜索。 沈陽(yáng)理工大學(xué)學(xué)士學(xué)位論文 VIII 用戶(hù)接口:其作用是接納用戶(hù)查詢(xún)、顯示查詢(xún)結(jié)果、提供個(gè)性化查詢(xún)項(xiàng)。搜索引擎采用 Java、 JSP、 Tomcat 開(kāi)發(fā)環(huán)境,數(shù)據(jù)存儲(chǔ)采用 MySQL 和 Sequoiadb 數(shù)據(jù)庫(kù)。 JSpider 軟件工作原理 如果把互聯(lián)網(wǎng)比喻成為一個(gè)蜘蛛網(wǎng),那么,類(lèi)似 Jspider 的軟件就像一只蜘蛛一樣,在互聯(lián)網(wǎng)上孜孜不倦地遍歷互聯(lián)網(wǎng)的上各個(gè)站點(diǎn),然后將其指定內(nèi)容存儲(chǔ)到數(shù)據(jù)庫(kù)當(dāng)中。聚焦爬蟲(chóng)的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的 URL 隊(duì)列。 Java 技術(shù)具有卓越的通用性、高效性、平臺(tái)移植性和安全性,廣泛應(yīng)用于個(gè)人 PC、數(shù)據(jù)中心、游戲控制臺(tái)、科學(xué)超級(jí)計(jì)算機(jī)、移動(dòng)電話(huà)和互聯(lián)網(wǎng),同時(shí)擁有全球最大的開(kāi)發(fā)者專(zhuān)業(yè)社群。 Java 應(yīng)用編程接口為 Java 應(yīng)用提供了一個(gè)獨(dú)立于操作系統(tǒng)的標(biāo)準(zhǔn)接口,可分為基本部分和擴(kuò)展部分。 與傳統(tǒng)程序不同, Sun 公司在推出 Java 之際就將其作為一種開(kāi)放的技術(shù)。 Sun 公司對(duì) Java 編程語(yǔ)言的解釋是: Java 編程語(yǔ)言是個(gè)簡(jiǎn)單 、面向?qū)ο蟆⒎植际?、解釋性、健壯、安全與系統(tǒng)無(wú)關(guān)、可移植、高性能、多線(xiàn)程和動(dòng)態(tài)的語(yǔ)言。 Android 介紹 Android 是一種基于 Linux 的自由及開(kāi)放源代碼的 操作系統(tǒng) ,主要使用于移動(dòng)設(shè)備,如 智能手機(jī) 和 平板電腦 ,由 Google 公司和 開(kāi)放手機(jī)聯(lián)盟 領(lǐng)導(dǎo)及開(kāi)發(fā)。20xx 年 11 月, Google 與 84 家硬件制造商、軟件開(kāi)發(fā)商及電信營(yíng)運(yùn)商組建開(kāi)放手機(jī)聯(lián)盟共同研發(fā)改良 Android 系統(tǒng)。 20xx年第一季度, Android 在全球的市場(chǎng)份額首次超過(guò) 塞班系統(tǒng) ,躍居全球第一。該應(yīng)用程序的架構(gòu)設(shè)計(jì)簡(jiǎn)化了組件的重用 。它們通過(guò) Android 應(yīng)用程序框架為 開(kāi)發(fā)者 提供服務(wù)。搜索引擎需要一種高效、安全的存取方式訪(fǎng)問(wèn)數(shù)據(jù)庫(kù)里的內(nèi)容,本搜索引擎采用傳統(tǒng)數(shù)據(jù)庫(kù) Mysql 和新型 Nosql 數(shù)據(jù)庫(kù) Sequoiadb 做 為解決方案,使用標(biāo)準(zhǔn)的 SQL(結(jié)構(gòu)化查詢(xún)語(yǔ)言 )和 Java 提供的接沈陽(yáng)理工大學(xué)學(xué)士學(xué)位論文 XIII 口驅(qū)動(dòng)的方式存取數(shù)據(jù)庫(kù)。目前MySQL 被廣泛地應(yīng)用在 Inter 上的中小型網(wǎng)站中。關(guān)系模型由關(guān)系數(shù)據(jù)結(jié)構(gòu)、關(guān)系操作集合和完整性約束三部分組成。 參照完整性:若屬性(屬性組) F 是基本關(guān)系 R 的外碼,它與基本關(guān)系 S的主碼 Key 相對(duì)應(yīng)(基本關(guān)系 R 和 S 不一定是不同的關(guān)系),則對(duì)于 R 中每個(gè)元組在 F 上的值必須為:空、 .或者取空值( F 的每個(gè)屬性值均為空值); 關(guān)系代數(shù)的運(yùn)算按運(yùn)算符的 不同主要分為傳統(tǒng)的集合運(yùn)算和專(zhuān)門(mén)的關(guān)系運(yùn)算兩類(lèi)。 沈陽(yáng)理工大學(xué)學(xué)士學(xué)位論文 XIV 表式系統(tǒng):只支持關(guān)系數(shù)據(jù)結(jié)構(gòu)(即表),不支持集合級(jí)的操作。 Sequoiadb 數(shù)據(jù)庫(kù)是一款非關(guān)系型型數(shù)據(jù)庫(kù),對(duì)比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù), Sequoiadb 數(shù)據(jù)庫(kù)能更好地支持分布式數(shù)據(jù)存儲(chǔ)、高并發(fā)性數(shù)據(jù)操作,而且未來(lái)對(duì)于數(shù)據(jù)庫(kù)的擴(kuò)容成本也較傳統(tǒng)數(shù)據(jù)庫(kù)低。 NoSQL 數(shù)據(jù)庫(kù)特點(diǎn): 1) 它們可以處理超大量的數(shù)據(jù)。 NoSQL 數(shù)據(jù)庫(kù)比較關(guān)系型數(shù)據(jù)庫(kù)優(yōu)點(diǎn): (1)易擴(kuò)展 沈陽(yáng)理工大學(xué)學(xué)士學(xué)位論文 XV NoSQL 數(shù)據(jù)庫(kù)種類(lèi)繁多,但是一個(gè)共同的特點(diǎn)都是去掉關(guān)系數(shù)據(jù)庫(kù)的關(guān)系型特性。這得益于它的無(wú)關(guān)系性,數(shù)據(jù)庫(kù)的結(jié)構(gòu)簡(jiǎn)單。而在關(guān)系數(shù)據(jù)庫(kù)里,增刪字段是一件非常麻煩的事情。比如Cassandra, HBase 模型,通過(guò)復(fù)制模型也能實(shí)現(xiàn)高可用。 JSP 其根本是一個(gè)簡(jiǎn)化的 Serlet 設(shè)計(jì),他實(shí)現(xiàn)了 Html 語(yǔ)法中的 java 擴(kuò)張(以 %, %形式)。 沈陽(yáng)理工大學(xué)學(xué)士學(xué)位論文 XVI JSP 技術(shù)使用 Java 編程語(yǔ)言編寫(xiě)類(lèi) XML 的 tags 和 scriptlets,來(lái)封裝產(chǎn)生動(dòng)態(tài)網(wǎng)頁(yè)的處理邏輯。 JSP 頁(yè)面由 HTML 代碼和嵌入其中的 Java 代碼所組成。 JSP 優(yōu)勢(shì) 一次編寫(xiě),到處運(yùn)行。相比 ASP 的局限性 JSP 的優(yōu)勢(shì)是顯而易見(jiàn)的。這一點(diǎn)與 ASP 很像, Java 已經(jīng)有了許多非常優(yōu)秀的開(kāi)發(fā)工具,而且許多可以免費(fèi)得到,并且其中許多已經(jīng)可以順利的運(yùn)行于多種平臺(tái)之下。 WEB 開(kāi)發(fā)輕平臺(tái) Tomcat 簡(jiǎn)介 Tomcat 是一個(gè)免費(fèi)的開(kāi)源的 Serlvet 容器,它是 Apache 基金會(huì)的 Jakarta 項(xiàng)目中的一個(gè)核心項(xiàng)目,由 Apache, Sun 和其它一些公司及個(gè)人共同開(kāi)發(fā)而成。這個(gè)包中的文件按一定目錄結(jié)構(gòu)來(lái)組織:通常其根目錄下包含有 Html 和 JSP 文件或者包含這兩種文件的目錄,另外還會(huì)有一個(gè)WEBINF 目錄,這個(gè)目錄很重要。你在瀏覽器中訪(fǎng)問(wèn)這個(gè)應(yīng)用的 JSP 時(shí),通常第一次會(huì)很慢,因?yàn)?Tomcat 要將 JSP 轉(zhuǎn)化為 Servlet 文件,然后編譯。當(dāng)然本地也可以。 在人類(lèi)進(jìn)入網(wǎng)絡(luò)時(shí)代以前,各個(gè)行業(yè)普遍感覺(jué)信息匱乏的問(wèn)題,這主要是由于缺乏信息交流的方式。因此,搜索引擎便成為 Inter 發(fā)展的關(guān)鍵性條件。 開(kāi)發(fā)任務(wù) 搜索引擎的設(shè)計(jì)要求和目標(biāo) 開(kāi)發(fā)一個(gè)優(yōu)秀的搜索引擎,要求數(shù)據(jù)實(shí)時(shí)更新,中文分詞結(jié)果符合用戶(hù)預(yù)期,搜索速度迅速,各個(gè)客戶(hù)端之間兼容性好。 數(shù)據(jù)記錄保持更新,搜索引擎里面的數(shù)據(jù)內(nèi)容必須在若干周期內(nèi)重新更新,保證搜索結(jié)果集的實(shí)時(shí)性。 完整性、真實(shí)性、實(shí)時(shí)性原則,搜索引擎設(shè)計(jì)時(shí)保證數(shù)據(jù)的完整性、真實(shí)性、實(shí)時(shí)性,搜索的結(jié)果集必須為有效連接。 用戶(hù)需求分析 用戶(hù)使用搜索功能習(xí)慣 用戶(hù)在使用搜索引擎時(shí),主要原因是在生活中遇到不明白的事物,急需在互聯(lián)網(wǎng)中查找他想要的答案。 沈陽(yáng)理工大學(xué)學(xué)士學(xué)位論文 XXI 圖 用戶(hù)使用搜索引擎用例 用戶(hù)在生活中發(fā)現(xiàn)問(wèn)題,使用桌面瀏覽器或者 Android瀏覽器訪(fǎng)問(wèn)搜索頁(yè)面,通過(guò)關(guān)鍵字在數(shù)據(jù)庫(kù)中查找對(duì)應(yīng)的信息。這套基于 WEB 瀏覽器的搜索引擎可以方便用戶(hù)快速地在 Inter 上查找資源,免除由于 Inter 資源浩瀚而無(wú)法快速、準(zhǔn)確地查找想要的站點(diǎn)。 結(jié)果集分頁(yè)顯示,對(duì)搜索返回的結(jié)果集進(jìn)行分頁(yè)顯示,方便用戶(hù)查看各個(gè)搜索結(jié)果。 界面需求分析 軟件用戶(hù)界面目前已經(jīng)成為衡量軟件質(zhì)量的重要指標(biāo),友好的界面可以讓用戶(hù)輕松使用軟件搜索所需要的資源,用戶(hù)對(duì)軟件的好感可以很好的轉(zhuǎn)化為用戶(hù)對(duì)軟件的喜愛(ài)和依賴(lài),在提高軟件的質(zhì)量同時(shí),也可以引導(dǎo)用戶(hù)高效地查找資源,特別是面對(duì)不熟悉電腦操作的中老年人群,簡(jiǎn)單的界面也是他們是否會(huì)選擇使用你的搜索引擎關(guān)鍵。 頁(yè)面布局規(guī)整,按鈕設(shè)計(jì)應(yīng)該大氣、顯眼。 圖 搜索引擎使 用設(shè)計(jì) 如圖 中的設(shè)備功能說(shuō)明: 服務(wù)器:安裝 Windows 7 操作系統(tǒng)、 Tomcat 程序、配置 JDK 環(huán)境; 數(shù)據(jù)庫(kù): MySQL 數(shù)據(jù)庫(kù)、 Sequoiadb 數(shù)據(jù)庫(kù); 終端設(shè)備:傳統(tǒng)桌面瀏覽器、移動(dòng)瀏覽器。 數(shù)據(jù)庫(kù)設(shè)計(jì)的步驟 數(shù)據(jù)庫(kù)設(shè)計(jì)一般經(jīng)過(guò)規(guī)劃、需求分析、概念設(shè)計(jì)、邏輯設(shè)計(jì)和物理設(shè)計(jì)五個(gè)步驟,下面分別介紹這五個(gè)步驟要完成的工作。數(shù)據(jù)庫(kù)概念結(jié)構(gòu)設(shè)計(jì)采用實(shí)體 聯(lián)系 (ER)模型設(shè)計(jì)方法,實(shí)體 聯(lián)系 (ER)模型設(shè)計(jì)方法可以直觀地描述概念模型。對(duì)于關(guān)系數(shù)據(jù)庫(kù),就是 要轉(zhuǎn)換為關(guān)系模式,確定實(shí)體的碼即數(shù)據(jù)庫(kù)中的數(shù)據(jù)表以及其主鍵,確定實(shí)體聯(lián)系的類(lèi)型,即將聯(lián)系轉(zhuǎn)換為一對(duì)一、一對(duì)多、多對(duì)多等類(lèi)型。 鏈 接 詳 細(xì) 信息聯(lián) 系 鏈 接關(guān) 聯(lián)鏈 接 列 表 圖 實(shí)體及實(shí)體之間關(guān)系 ER 圖 本搜索引擎對(duì)數(shù)據(jù)庫(kù)的使用,主要集中在關(guān)鍵的鏈接詳細(xì)信息表和鏈接表,因?yàn)楸舅阉饕嬷粚?duì)互聯(lián)網(wǎng)上各個(gè)站點(diǎn)的信息標(biāo)題進(jìn)行搜索,鏈接列表是記錄當(dāng)前鏈接中它自身重定向的若干鏈接 信息。 根據(jù)數(shù)據(jù)庫(kù)實(shí)體 ER 圖可以得到各實(shí)體的屬性: 鏈接詳細(xì)信息: ID 號(hào),字符集格式,標(biāo)題信息,關(guān)鍵字信息,簡(jiǎn)單描述。 鏈接( ID 號(hào),訪(fǎng)問(wèn)地址,收錄信息),主碼為 ID 號(hào),外碼為鏈接詳細(xì)信息的 ID 號(hào)。 數(shù)據(jù)庫(kù)物理結(jié)構(gòu)設(shè)計(jì) 物理結(jié)構(gòu)設(shè)計(jì),數(shù)據(jù)庫(kù)物理結(jié)構(gòu)設(shè)計(jì)包括存儲(chǔ)類(lèi)型的選擇、屬性數(shù)據(jù)類(lèi)型的確定、表的索引結(jié)構(gòu)的確定和數(shù)據(jù)庫(kù)存取路徑的確定。 沈陽(yáng)理工大學(xué)學(xué)士學(xué)位論文 XXVIII 表 鏈接詳細(xì)信息數(shù)據(jù)表 字段含義 字段名 數(shù)據(jù)類(lèi)型 是否為主鍵 可否為空 ID 號(hào) id int(11) YES NO 字符集格式 charset Varchar(128) NO YES 標(biāo)題信息 Title text NO YES 關(guān)鍵字信息 Keyword text NO YES 簡(jiǎn)單描述 description longtext NO YES 鏈接( urls)數(shù)據(jù)表設(shè)計(jì) 見(jiàn)表 。機(jī)器人軟件的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)信息下載到本地形成一個(gè)或聯(lián)網(wǎng)內(nèi)容的鏡像備份。 從網(wǎng)絡(luò)機(jī)器人的角度對(duì)互聯(lián)網(wǎng)進(jìn)行劃分 對(duì)應(yīng)的,可以將互聯(lián)網(wǎng)的所有頁(yè)面分為五個(gè)部分,如圖 所示。待抓取 URL 隊(duì)列中的 URL 以什么樣的順序排列也是一個(gè)很重要的問(wèn)題,因?yàn)檫@涉及到先抓取那個(gè)頁(yè)面,后抓取哪個(gè)頁(yè)面。 圖 深度優(yōu)先遍歷原理圖 遍歷的路徑: AFG EHI B C D 寬度有線(xiàn)遍歷策略 寬度優(yōu)先遍歷策略的基本思路是,將新下載網(wǎng)頁(yè)中發(fā)現(xiàn)的鏈接直接插入待抓取 URL 隊(duì)列的末尾。因此,很多時(shí)候搜索引擎的抓取系統(tǒng)會(huì)使用這個(gè)指標(biāo)來(lái)評(píng)價(jià)網(wǎng)頁(yè)的重要程度,從而決定不同網(wǎng)頁(yè)的抓取先后順序。 如果每次抓取一個(gè)頁(yè)面,就重新計(jì)算 PageRank 值,一種折中方案是:每抓取 K 個(gè)頁(yè)面后,重新計(jì)算一次 PageRank 值。在算法開(kāi)始前,給所有頁(yè)面一個(gè)相同的初始現(xiàn)金( cash)。對(duì)于待下載頁(yè)面數(shù)多的網(wǎng)站,優(yōu)先下載。 沈陽(yáng)理工大學(xué)學(xué)士學(xué)位論文 XXXIII 載 入 起 始 搜 索 頁(yè) 面輸 入 關(guān) 鍵 字跳 轉(zhuǎn) 搜 索 執(zhí) 行 頁(yè) 面判 斷 關(guān) 鍵 字 合 法 性 ?分 詞 操 作站 點(diǎn) 查 詢(xún)返 回 結(jié) 果 集結(jié) 束連 接 數(shù) 據(jù) 庫(kù)是否開(kāi) 始 圖 搜索引擎總體流程 檢驗(yàn)載入搜索頁(yè)面合法性 檢驗(yàn)載入搜索 頁(yè)面 合法性流程,如圖 所示。這樣在開(kāi)發(fā)搜索界面時(shí),實(shí)現(xiàn)代碼與布局代碼分離,作者只需要認(rèn)真考慮界面布局即可,而無(wú)需擔(dān)心代碼之間相互交錯(cuò),增加開(kāi)發(fā)難度。 = connection 。 }catch( SQLException e ){ }catch( Exception e ){} 執(zhí)行查詢(xún)語(yǔ)句 由于 MysqlBean 只是重新封裝了 Java 中 ResultSet 類(lèi),所以只需要將 SQL語(yǔ)句送進(jìn) ResultSet 的 executeQuery()即可。 String chineseWord_X = ( [az|AZ0|09 \\pP]+,
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1