freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎設計學士學位論文(編輯修改稿)

2025-07-25 15:16 本頁面
 

【文章內(nèi)容簡介】 ATH中,但那樣移植和管理起來不方便。 在Tomcat中,應用程序的部署很簡單,你只需將你的WAR放到Tomcat的webapp目錄下,Tomcat會自動檢測到這個文件,并將其解壓。你在瀏覽器中訪問這個應用的JSP時,通常第一次會很慢,因為Tomcat要將JSP轉(zhuǎn)化為Servlet文件,然后編譯。編譯以后,訪問將會很快。另外Tomcat也提供了一個應用:manager,訪問這個應用需要用戶名和密碼,用戶名和密碼存儲在一個xml文件中。通過這個應用,輔助于Ftp,你可以在遠程通過Web部署和撤銷應用。當然本地也可以。 3 系統(tǒng)分析 搜索引擎說明 搜索引擎描述本研究開發(fā)的系統(tǒng)名為基于Android客戶端的搜索引擎開發(fā)實現(xiàn)。,利用Android瀏覽器插件實現(xiàn)WEB瀏覽,也可以通過傳統(tǒng)的桌面瀏覽器訪問搜索的始頁面。 搜索引擎開發(fā)背景搜索引擎是一種用于幫助Internet用戶查詢信息的搜索工具,它以一定的策略在Internet中搜集、發(fā)現(xiàn)信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務,從而起到信息導航的目的。在人類進入網(wǎng)絡時代以前,各個行業(yè)普遍感覺信息匱乏的問題,這主要是由于缺乏信息交流的方式。Internet的出現(xiàn)在很大程度上解決了這一問題,但很多人仍感到缺乏他們所需要的信息。而與此同時,相應的信息在Internet上卻大量存在著。真正的問題出在人們在如此大的信息海洋里難以找到他們所需要的準確信息。因此,搜索引擎便成為Internet發(fā)展的關鍵性條件。正如大海里蘊藏了豐富的資源,但人們卻因為沒有先進的工具而無法獲得、利用這些資源。Internet作為一個信息的海洋,人們用瀏覽器挨個網(wǎng)頁尋找的方法將很難找到準確的信息,而只能是浪費大量的時間和網(wǎng)絡資源。搜索引擎將 Internet網(wǎng)中對使用者有用的信息提取出來,無異于從Internet中提煉真金。 開發(fā)任務 搜索引擎的設計要求和目標開發(fā)一個優(yōu)秀的搜索引擎,要求數(shù)據(jù)實時更新,中文分詞結果符合用戶預期,搜索速度迅速,各個客戶端之間兼容性好。設計要導到如下目標:執(zhí)行速度快,對于數(shù)據(jù)庫里成千上萬條記錄,要求快速、準確地查詢出用戶所希望的結果集,數(shù)據(jù)庫的穩(wěn)定性至關重要,設計一個良好的邏輯關系非常重要。安全、穩(wěn)定性高,對于不同的搜索內(nèi)容必須保證系統(tǒng)的穩(wěn)定。中文分詞符合詞意,對于一個中文搜索引擎,中文分詞是一個重要的設計環(huán)節(jié),由于中文的特殊性,使得中文搜索引擎在設計時必須考慮中文詞匯的有意義性,否則搜索結果會與用戶當初設想的相差太遠。數(shù)據(jù)記錄保持更新,搜索引擎里面的數(shù)據(jù)內(nèi)容必須在若干周期內(nèi)重新更新,保證搜索結果集的實時性。多客戶端訪問,開發(fā)客戶端過程中考慮各個客戶端之間的兼容性。操作簡單、使用界面具有人性化,清晰明了。 搜索引擎的設計原則為了開發(fā)一個搜索速度快、高性能的搜索引擎,需要遵循如下設計原則:數(shù)據(jù)庫設計原則,充分考慮系統(tǒng)的性能,較少數(shù)據(jù)冗余,充分考慮各實體的構成和各字段的屬性,力求最優(yōu)設計。完整性、真實性、實時性原則,搜索引擎設計時保證數(shù)據(jù)的完整性、真實性、實時性,搜索的結果集必須為有效連接。簡單性原則,系統(tǒng)程序要求在保證完整性原則的情況下從簡設計,系統(tǒng)必須易于使用,學習成本低。面向?qū)ο笤瓌t,系統(tǒng)設計符合面向?qū)ο笤O計原理,模塊化,易于實現(xiàn)和擴展,維護成本低。界面友好,界面美觀、大氣、易用。 用戶需求分析 用戶使用搜索功能習慣用戶在使用搜索引擎時,主要原因是在生活中遇到不明白的事物,急需在互聯(lián)網(wǎng)中查找他想要的答案。 用戶使用搜索引擎分析用戶使用搜索引擎的習慣分析:1) 用戶在生活中遇到問題;2) 用戶使用搜索引擎,在搜索框中輸入想要查找的關鍵字;3) 使用搜索功能,搜索引擎在后臺進行數(shù)據(jù)處理,中文分詞分析,與數(shù)據(jù)庫進行交互;4) 客戶端取得服務器返回的結果集,進行排版顯示;5) 用戶查看搜索結果,點擊鏈接,查看網(wǎng)站的具體內(nèi)容。 用戶使用搜索功能用例分析。 用戶使用搜索引擎用例用戶在生活中發(fā)現(xiàn)問題,使用桌面瀏覽器或者Android瀏覽器訪問搜索頁面,通過關鍵字在數(shù)據(jù)庫中查找對應的信息。 搜索引擎功能需求分析 搜索引擎支持客戶端類型本搜索引擎是基于WEB瀏覽器開發(fā)的,支持桌面版本的所有瀏覽器和Android客戶端的瀏覽器使用。 搜索引擎基本功能本搜索引擎通過WEB瀏覽器端輸入要搜索的關鍵字,引擎進行中文分詞、關鍵字處理并送進數(shù)據(jù)庫進行操作,然后用戶獲取到需要搜索的結果集。通過對引擎的目標確定和用例分析,可以全面準確地把握引擎的功能需求。這套基于WEB瀏覽器的搜索引擎可以方便用戶快速地在Internet上查找資源,免除由于Internet資源浩瀚而無法快速、準確地查找想要的站點。由于本引擎設計時已經(jīng)考慮到跨平臺的兼容性問題,所以用戶無需擔心由于不同客戶端而造成引擎無法正常工作、顯示問題。引擎具體功能清單如下:實現(xiàn)跨平臺,引擎在設計之初已經(jīng)考慮到跨平臺的兼容性,所以對于桌面的瀏覽器和Android瀏覽器可以完美訪問搜索頁。中文分詞,可以對一行長中文句子進行分詞,分成若干中文短語,再送進數(shù)據(jù)庫進行搜索,從而提高搜索的準確性,同時符合用戶日常輸入習慣。結果集分頁顯示,對搜索返回的結果集進行分頁顯示,方便用戶查看各個搜索結果。數(shù)據(jù)庫信息實時更新,定期對數(shù)據(jù)庫中的信息進行更新處理,保證搜索結果的實時性。 數(shù)據(jù)庫數(shù)據(jù)存儲分析搜索引擎搜索的基礎數(shù)據(jù)全部存儲在數(shù)據(jù)庫當中,所以設計良好的數(shù)據(jù)表結構也是優(yōu)秀搜索引擎的關鍵。數(shù)據(jù)庫的主要實體有:鏈接詳細信息表,用于存儲當前鏈接的標題、簡單說明、字符集和關鍵字;鏈接列表,用于存儲當前鏈接當中再指向其他的超鏈接列表;鏈接表,用于存儲當前鏈接的具體訪問地址,存儲時間。 界面需求分析軟件用戶界面目前已經(jīng)成為衡量軟件質(zhì)量的重要指標,友好的界面可以讓用戶輕松使用軟件搜索所需要的資源,用戶對軟件的好感可以很好的轉(zhuǎn)化為用戶對軟件的喜愛和依賴,在提高軟件的質(zhì)量同時,也可以引導用戶高效地查找資源,特別是面對不熟悉電腦操作的中老年人群,簡單的界面也是他們是否會選擇使用你的搜索引擎關鍵。所以在設計操作界面時,開發(fā)者努力做到使用界面清晰明了,讓第一次使用的用戶可以輕易使用。本搜索引擎,用戶通過瀏覽器實現(xiàn)搜索功能,用戶操作界面就是網(wǎng)頁。為了使用戶擁有良好的使用體驗,要求網(wǎng)頁設計到達以下要求。頁面布局規(guī)整,按鈕設計應該大氣、顯眼。頁面背景美觀、柔和。頁面功能布置有條理,清晰引導用戶使用。 4 搜索引擎設計 搜索引擎結構設計根據(jù)需求分析,我們可以知道用戶在使用搜索功能時,客戶端一般是桌面瀏覽器或者移動瀏覽器,根據(jù)需求分析,可以設計出兼容多種客戶端平臺的搜索引擎結構。 搜索引擎使用設計:服務器:安裝Windows 7操作系統(tǒng)、Tomcat程序、配置JDK環(huán)境;數(shù)據(jù)庫:MySQL數(shù)據(jù)庫、Sequoiadb數(shù)據(jù)庫;終端設備:傳統(tǒng)桌面瀏覽器、移動瀏覽器。 數(shù)據(jù)庫設計數(shù)據(jù)庫是搜索引擎的核心部分之一。搜索引擎的主要工作原理,當用戶通過客戶端輸入搜索關鍵字后,送入引擎中進行分詞工作,然后將要搜索命令傳送到數(shù)據(jù)庫進行查詢操作,最后將查詢結果返還到客戶端中顯示打印,所以數(shù)據(jù)庫的設計直接影響到搜索結果的返回。對于一個出色的搜索引擎,如何設計出一個高效、穩(wěn)定、安全的數(shù)據(jù)庫成為關鍵。 數(shù)據(jù)庫設計的步驟數(shù)據(jù)庫設計一般經(jīng)過規(guī)劃、需求分析、概念設計、邏輯設計和物理設計五個步驟,下面分別介紹這五個步驟要完成的工作。 數(shù)據(jù)庫規(guī)劃,對于一個數(shù)據(jù)庫應用項目,需要在規(guī)劃階段完成,系統(tǒng)調(diào)查、可行性分析和系統(tǒng)目標確定等工作,項目實施作初步準備。需求分析,確定數(shù)據(jù)庫的使用范圍,信息收集和處理需求,產(chǎn)生系統(tǒng)業(yè)務流程圖、系統(tǒng)關聯(lián)圖、以及數(shù)據(jù)流圖。概念結構設計,概念結構設計的目標是產(chǎn)生系統(tǒng)信息需求的數(shù)據(jù)庫概念結構,即概念模型,概念模型是獨立于計算機硬件結構和數(shù)據(jù)庫管理系統(tǒng)的。數(shù)據(jù)庫概念結構設計采用實體聯(lián)系(ER)模型設計方法,實體聯(lián)系(ER)模型設計方法可以直觀地描述概念模型。組成實體聯(lián)系(ER)模型的元素有實體、聯(lián)系和屬性,實體是指用戶工作環(huán)境中所涉及的事物,屬性是實體特性的描述,聯(lián)系表示實體之間的關系。 實體描述邏輯結構設計,數(shù)據(jù)庫邏輯結構設計就是將ER圖轉(zhuǎn)換為數(shù)據(jù)庫管理系統(tǒng)支持的數(shù)據(jù)模型。對于關系數(shù)據(jù)庫,就是要轉(zhuǎn)換為關系模式,確定實體的碼即數(shù)據(jù)庫中的數(shù)據(jù)表以及其主鍵,確定實體聯(lián)系的類型,即將聯(lián)系轉(zhuǎn)換為一對一、一對多、多對多等類型。物理結構設計,數(shù)據(jù)庫物理結構設計包括存儲類型的選擇、屬性數(shù)據(jù)類型的確定、表的索引結構的確定和數(shù)據(jù)庫存取路徑的確定,目前的主流數(shù)據(jù)庫管理系統(tǒng)提供易用的工具,幫助用戶完成數(shù)據(jù)庫的物理結構設計。在需求分析中已經(jīng)完成數(shù)據(jù)庫的規(guī)劃和需求分析,之后三個小節(jié)將給出系統(tǒng)數(shù)據(jù)庫的概念結構設計、邏輯結構設計和物理結構設計。 數(shù)據(jù)庫概念結構設計由數(shù)據(jù)庫需求分析可知,搜索引擎數(shù)據(jù)庫的實體包括鏈接詳細信息表、鏈接列表、鏈接表。 實體及實體之間關系ER圖本搜索引擎對數(shù)據(jù)庫的使用,主要集中在關鍵的鏈接詳細信息表和鏈接表,因為本搜索引擎只對互聯(lián)網(wǎng)上各個站點的信息標題進行搜索,鏈接列表是記錄當前鏈接中它自身重定向的若干鏈接信息。鏈接詳細信息實體ER圖。 鏈接詳細信息ER圖鏈接實體ER圖, 鏈接實體ER圖鏈接列表實體ER圖, 鏈接列表實體ER圖 數(shù)據(jù)庫邏輯結構設計數(shù)據(jù)庫邏輯結構設計要將獨立于數(shù)據(jù)庫管理系統(tǒng)的概念模型轉(zhuǎn)換為適于數(shù)據(jù)庫系統(tǒng)邏輯結構,轉(zhuǎn)換后的邏輯結構需合計算機處理信息的邏輯并能與數(shù)據(jù)庫系統(tǒng)的特性兼容。轉(zhuǎn)化過程中,每個實體都需要轉(zhuǎn)換為一個關系,每個關系的主碼必須不為空,對于二元聯(lián)系需要按照一對多、弱實體、一對一、多對多等聯(lián)系來定義外碼。根據(jù)數(shù)據(jù)庫實體ER圖可以得到各實體的屬性:鏈接詳細信息:ID號,字符集格式,標題信息,關鍵字信息,簡單描述。鏈接:ID號,訪問地址,收錄信息。鏈接列表:ID號,鏈接地址。將概念模型轉(zhuǎn)換為如下的關系模式:鏈接詳細信息(ID號,字符集格式,標題信息,關鍵字信息,簡單描述),主碼為ID號,外碼為鏈接的ID號。鏈接(ID號,訪問地址,收錄信息),主碼為ID號,外碼為鏈接詳細信息的ID號。鏈接列表(ID號,鏈接地址),主碼為ID號,外碼為鏈接詳細信息的ID號。聯(lián)系:聯(lián)系轉(zhuǎn)換為鏈接詳細信息與鏈接之間一對一關系,外碼為鏈接詳細信息的ID號和鏈接的ID號。關聯(lián):關聯(lián)轉(zhuǎn)換為鏈接詳細信息與鏈接列表之間一對一關系,外碼為鏈接詳細信息的ID號與鏈接列表的ID號。 數(shù)據(jù)庫物理結構設計物理結構設計,數(shù)據(jù)庫物理結構設計包括存儲類型的選擇、屬性數(shù)據(jù)類型的確定、表的索引結構的確定和數(shù)據(jù)庫存取路徑的確定。本系統(tǒng)的數(shù)據(jù)庫存放在與服務器程序相同的路徑中,在程序中通過應用接口以應用程序賬戶的方式訪問數(shù)據(jù)庫。在數(shù)據(jù)庫表設計器中,為每一個關系設計對應的表,并確定各屬性的數(shù)據(jù)類型和空間占用。鏈接詳細信息(contents) 。 鏈接詳細信息數(shù)據(jù)表字段含義字段名數(shù)據(jù)類型是否為主鍵可否為空ID號idint(11)YESNO字符集格式charsetVarchar(128)NOYES標題信息TitletextNOYES關鍵字信息KeywordtextNOYES簡單描述descriptionlongtextNOYES鏈接(urls) 。 連接數(shù)據(jù)表字段含義字段名數(shù)據(jù)類型是否為主鍵可否為空ID號idint(11)YESNO訪問地址urltextNOYES收錄時間capture_timetimestampNOCURRENT_TIMESTAMP鏈接列表(links) 。 鏈接列表數(shù)據(jù)表字段含義字段名數(shù)據(jù)類型是否為主鍵可否為空ID號idint(11)YESNO鏈接地址linktextNOYES 數(shù)據(jù)存儲流程設計本搜索引擎的數(shù)據(jù)錄入全部依賴JSpider軟件實現(xiàn)。網(wǎng)絡機器人是搜索引擎抓取系統(tǒng)的重要組成部分。機器人軟件的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁信息下載到本地形成一個或聯(lián)網(wǎng)內(nèi)容的鏡像備份。 網(wǎng)絡機器人的基本結構及工作原理。 網(wǎng)絡機器人原理圖網(wǎng)絡機器人的基本工作流程如下:1. 首先選取一部分精心挑選的種子URL;2. 將這些URL放入待抓取URL隊列;3. 從待抓取URL隊列中取出待抓取的URL,解析DNS,并且得到主機的ip,并將URL對應的網(wǎng)頁下載下來,存儲進已下砸網(wǎng)頁庫中。此外,將這些URL放進已抓取URL隊列;4. 分析已抓取URL隊列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊列,從而進入下一個循環(huán)。 從網(wǎng)絡機器人的角度對互聯(lián)網(wǎng)進行劃分對應的,可以將互聯(lián)網(wǎng)的所有頁面分為五個部分。 互聯(lián)網(wǎng)頁面劃分已下載未過期的網(wǎng)頁;已下載已過期網(wǎng)頁:抓取到的網(wǎng)頁實際上市互聯(lián)網(wǎng)內(nèi)同過的一個鏡像與備份,互聯(lián)網(wǎng)是動態(tài)變化的,一部分互聯(lián)網(wǎng)上的內(nèi)容已經(jīng)發(fā)生了變化,這時,這部分抓取到的網(wǎng)頁就已經(jīng)過期了;待下載網(wǎng)頁:也就是待抓取URL隊列中的那些頁面;可知網(wǎng)頁:還沒有抓取下來,也沒有在待抓取URL隊列中,但是可以通過對已抓取頁面或者待抓取URL對應頁面進行分析獲取到的URL,認為是可知網(wǎng)頁;還有一部分網(wǎng)頁,機器人是無法直接抓取下載的。稱為不可知網(wǎng)頁。 抓取策略在網(wǎng)絡機器人中,待抓取URL隊列是很重要的一部分。待抓取
點擊復制文檔內(nèi)容
法律信息相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1