freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎設(shè)計學(xué)士學(xué)位論文-在線瀏覽

2024-08-08 15:16本頁面
  

【正文】 對于課題理論研究部分,通過查找相關(guān)資料,進(jìn)行邏輯推演,得出結(jié)論。搜索引擎采用Java、JSP、Tomcat開發(fā)環(huán)境,數(shù)據(jù)存儲采用MySQL和Sequoiadb數(shù)據(jù)庫。你可以通過JSpider檢查提供的網(wǎng)站是否出錯,可以對提供的網(wǎng)站內(nèi)部的鏈接進(jìn)行檢查,分析提供站點的結(jié)構(gòu),也可以通過JSpider下載一個完整的網(wǎng)站。 JSpider軟件工作原理如果把互聯(lián)網(wǎng)比喻成為一個蜘蛛網(wǎng),那么,類似Jspider的軟件就像一只蜘蛛一樣,在互聯(lián)網(wǎng)上孜孜不倦地遍歷互聯(lián)網(wǎng)的上各個站點,然后將其指定內(nèi)容存儲到數(shù)據(jù)庫當(dāng)中。網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。另外,所有被爬蟲抓取的網(wǎng)頁將會被存儲到數(shù)據(jù)庫當(dāng)中,進(jìn)行一定的分析、過濾,并建立索引,以便之后的查詢和檢索。Java 技術(shù)具有卓越的通用性、高效性、平臺移植性和安全性,廣泛應(yīng)用于個人PC、數(shù)據(jù)中心、游戲控制臺、科學(xué)超級計算機(jī)、移動電話和互聯(lián)網(wǎng),同時擁有全球最大的開發(fā)者專業(yè)社群。Java由四方面組成:Java編程語言、Java類文件格式、Java虛擬機(jī)和Java應(yīng)用程序接口(Java API)。Java應(yīng)用編程接口為Java應(yīng)用提供了一個獨立于操作系統(tǒng)的標(biāo)準(zhǔn)接口,可分為基本部分和擴(kuò)展部分。Java平臺已經(jīng)嵌入了幾乎所有的操作系統(tǒng)。與傳統(tǒng)程序不同,Sun 公司在推出 Java 之際就將其作為一種開放的技術(shù)。“Java 語言靠群體的力量而非公司的力量”是Sun公司的口號之一,并獲得了廣大軟件開發(fā)商的認(rèn)同。Sun 公司對 Java 編程語言的解釋是:Java 編程語言是個簡單、面向?qū)ο?、分布式、解釋性、健壯、安全與系統(tǒng)無關(guān)、可移植、高性能、多線程和動態(tài)的語言。這樣的平臺非常流行。 Android介紹Android是一種基于Linux的自由及開放源代碼的操作系統(tǒng),主要使用于移動設(shè)備,如智能手機(jī)和平板電腦,由Google公司和開放手機(jī)聯(lián)盟領(lǐng)導(dǎo)及開發(fā)。Android操作系統(tǒng)最初由Andy Rubin開發(fā),主要支持手機(jī)。2007年11月,Google與84家硬件制造商、軟件開發(fā)商及電信營運(yùn)商組建開放手機(jī)聯(lián)盟共同研發(fā)改良Android系統(tǒng)。第一部Android智能手機(jī)發(fā)布于2008年10月。2011年第一季度,Android在全球的市場份額首次超過塞班系統(tǒng),躍居全球第一。Android系統(tǒng)架構(gòu)和氣操作系統(tǒng)一樣,采用了分層的架構(gòu)。 Android分層Android應(yīng)用程序框架,開發(fā)人員可以完全訪問核心應(yīng)用程序所使用的API框架。任何一個應(yīng)用程序都可以發(fā)布它的功能塊并且任何其它的應(yīng)用程序都可以使用其所發(fā)布的功能塊(不過得遵循框架的安全性)。Android 包含一些C/C++庫,這些庫能被Android系統(tǒng)中不同的組件使用。 SQL數(shù)據(jù)庫訪問技術(shù)開發(fā)一個成功的搜索引擎,數(shù)據(jù)庫扮演著一個重要的角色。數(shù)據(jù)庫是搜索引擎的核心部分之一,涉及到搜索數(shù)據(jù)的完整性和實時性。 傳統(tǒng)關(guān)系型數(shù)據(jù)庫MySQLMySQL簡介:MySQL是一個關(guān)系型數(shù)據(jù)庫管理系統(tǒng),由瑞典MySQL AB公司開發(fā),目前屬于Oracle公司。MySQL的SQL語言是用于訪問數(shù)據(jù)庫的最常用標(biāo)準(zhǔn)化語言。由于其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,許多中小型網(wǎng)站為了降低網(wǎng)站總體擁有成本而選擇了MySQL作為網(wǎng)站數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫介紹在關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)以行和列的形式存儲,以便于用戶理解,這一系列的行和列被稱為表,一組表便組成了數(shù)據(jù)庫。關(guān)系數(shù)據(jù)庫是支持關(guān)系模型的數(shù)據(jù)庫系統(tǒng)。關(guān)系操作分為關(guān)系代數(shù)、關(guān)系演算、具有關(guān)系代數(shù)和關(guān)系演算雙重特點的語言(SQL語言)。實體完整性規(guī)則:若屬性A是基本關(guān)系R的屬性,則屬性A不能取空值。集合運(yùn)算有二目運(yùn)算,包括并、交、差、廣義笛卡爾積四種運(yùn)算。根據(jù)關(guān)系系統(tǒng)支持關(guān)系程度不同,可以把關(guān)系系統(tǒng)分為四類:表式系統(tǒng)、(最小)關(guān)系系統(tǒng)、關(guān)系完備系統(tǒng)、全關(guān)系系統(tǒng)。(最?。╆P(guān)系系統(tǒng):支持關(guān)系數(shù)據(jù)結(jié)構(gòu),它支持關(guān)系數(shù)據(jù)結(jié)構(gòu)和選擇、投影、連接三種關(guān)系操作。 NoSQL Sequoiadb數(shù)據(jù)庫Sequoiadb簡介Sequoiadb數(shù)據(jù)庫是由巨杉公司自主研發(fā)的一款具有完全自主知識產(chǎn)權(quán)的大數(shù)據(jù)數(shù)據(jù)庫內(nèi)核。NoSQL數(shù)據(jù)庫介紹NoSQL = Not Only SQL ,意即“不僅僅是SQL”,是一項全新的數(shù)據(jù)庫革命性運(yùn)動,早期就有人提出,發(fā)展至2009年趨勢越發(fā)高漲。,非關(guān)系型的數(shù)據(jù)庫成了一個極其熱門的新領(lǐng)域,非關(guān)系數(shù)據(jù)庫產(chǎn)品的發(fā)展非常迅速。2) 它們運(yùn)行在便宜的PC服務(wù)器集群上,PC集群擴(kuò)充起來非常方便并且成本很低,避免了“sharding”操作的復(fù)雜性和成本。4) 沒有過多的操作,雖然NoSQL的支持者也承認(rèn)關(guān)系數(shù)據(jù)庫提供了無可比擬的功能集合,而且在數(shù)據(jù)完整性上也發(fā)揮絕對穩(wěn)定,他們同時也表示,企業(yè)的具體需求可能沒有那么多。數(shù)據(jù)之間無關(guān)系,這樣就非常容易擴(kuò)展。(2)大數(shù)據(jù)量,高性能NoSQL數(shù)據(jù)庫都具有非常高的讀寫性能,尤其在大數(shù)據(jù)量下,同樣表現(xiàn)優(yōu)秀。一般MySQL使用 Query Cache,每次表的更新Cache就失效,是一種大粒度的Cache,Cache性能不高。(3)靈活的數(shù)據(jù)模型NoSQL無需事先為要存儲的數(shù)據(jù)建立字段,隨時可以存儲自定義的數(shù)據(jù)格式。如果是非常大數(shù)據(jù)量的表,增加字段簡直就是一個噩夢。比如Cassandra,HBase模型,通過復(fù)制模型也能實現(xiàn)高可用。JSP技術(shù)有點類似ASP技術(shù),它是在傳統(tǒng)的網(wǎng)頁HTML文件(*.htm,*.html)中插入Java程序段(Scriptlet)和JSP標(biāo)記(tag),從而形成JSP文件(*.jsp)。JSP其根本是一個簡化的Serlet設(shè)計,他實現(xiàn)了Html語法中的java擴(kuò)張(以 %, %形式)。Web服務(wù)器在遇到訪問JSP網(wǎng)頁的請求時,首先執(zhí)行其中的程序段,然后將執(zhí)行結(jié)果連同JSP文件中的HTML代碼一起返回給客戶端。JSP技術(shù)使用Java編程語言編寫類XML的tags和scriptlets,來封裝產(chǎn)生動態(tài)網(wǎng)頁的處理邏輯。JSP將網(wǎng)頁邏輯與網(wǎng)頁設(shè)計的顯示分離,支持可重用的基于組件的設(shè)計,使基于Web的應(yīng)用程序的開發(fā)變得迅速和容易。JSP頁面由HTML代碼和嵌入其中的Java代碼所組成。Java Servlet是JSP的技術(shù)基礎(chǔ),而且大型的Web應(yīng)用程序的開發(fā)需要Java Servlet和JSP配合才能完成。 JSP優(yōu)勢一次編寫,到處運(yùn)行。系統(tǒng)的多平臺支持。相比ASP的局限性JSP的優(yōu)勢是顯而易見的。從只有一個小的Jar文件就可以運(yùn)行Servlet/JSP,到由多臺服務(wù)器進(jìn)行集群和負(fù)載均衡,到多臺Application進(jìn)行事務(wù)處理,消息處理,一臺服務(wù)器到無數(shù)臺服務(wù)器,Java顯示了一個巨大的生命力。這一點與ASP很像,Java已經(jīng)有了許多非常優(yōu)秀的開發(fā)工具,而且許多可以免費(fèi)得到,并且其中許多已經(jīng)可以順利的運(yùn)行于多種平臺之下。web應(yīng)用需要強(qiáng)大的服務(wù)器端組件來支持,開發(fā)人員需要利用其他工具設(shè)計實現(xiàn)復(fù)雜功能的組件供web頁面調(diào)用,以增強(qiáng)系統(tǒng)性能。 WEB開發(fā)輕平臺Tomcat簡介Tomcat是一個免費(fèi)的開源的Serlvet容器,它是Apache基金會的Jakarta項目中的一個核心項目,由Apache,Sun和其它一些公司及個人共同開發(fā)而成。與傳統(tǒng)的桌面應(yīng)用程序不同,Tomcat中的應(yīng)用程序是一個WAR(Web Archive)文件。這個包中的文件按一定目錄結(jié)構(gòu)來組織:通常其根目錄下包含有Html和JSP文件或者包含這兩種文件的目錄,另外還會有一個WEBINF目錄,這個目錄很重要。通常這些所依賴的類也可以打包成JAR放到WEBINF下的lib目錄下,當(dāng)然也可以放到系統(tǒng)的CLASSPATH中,但那樣移植和管理起來不方便。你在瀏覽器中訪問這個應(yīng)用的JSP時,通常第一次會很慢,因為Tomcat要將JSP轉(zhuǎn)化為Servlet文件,然后編譯。另外Tomcat也提供了一個應(yīng)用:manager,訪問這個應(yīng)用需要用戶名和密碼,用戶名和密碼存儲在一個xml文件中。當(dāng)然本地也可以。利用Android瀏覽器插件實現(xiàn)WEB瀏覽,也可以通過傳統(tǒng)的桌面瀏覽器訪問搜索的始頁面。在人類進(jìn)入網(wǎng)絡(luò)時代以前,各個行業(yè)普遍感覺信息匱乏的問題,這主要是由于缺乏信息交流的方式。而與此同時,相應(yīng)的信息在Internet上卻大量存在著。因此,搜索引擎便成為Internet發(fā)展的關(guān)鍵性條件。Internet作為一個信息的海洋,人們用瀏覽器挨個網(wǎng)頁尋找的方法將很難找到準(zhǔn)確的信息,而只能是浪費(fèi)大量的時間和網(wǎng)絡(luò)資源。 開發(fā)任務(wù) 搜索引擎的設(shè)計要求和目標(biāo)開發(fā)一個優(yōu)秀的搜索引擎,要求數(shù)據(jù)實時更新,中文分詞結(jié)果符合用戶預(yù)期,搜索速度迅速,各個客戶端之間兼容性好。安全、穩(wěn)定性高,對于不同的搜索內(nèi)容必須保證系統(tǒng)的穩(wěn)定。數(shù)據(jù)記錄保持更新,搜索引擎里面的數(shù)據(jù)內(nèi)容必須在若干周期內(nèi)重新更新,保證搜索結(jié)果集的實時性。操作簡單、使用界面具有人性化,清晰明了。完整性、真實性、實時性原則,搜索引擎設(shè)計時保證數(shù)據(jù)的完整性、真實性、實時性,搜索的結(jié)果集必須為有效連接。面向?qū)ο笤瓌t,系統(tǒng)設(shè)計符合面向?qū)ο笤O(shè)計原理,模塊化,易于實現(xiàn)和擴(kuò)展,維護(hù)成本低。 用戶需求分析 用戶使用搜索功能習(xí)慣用戶在使用搜索引擎時,主要原因是在生活中遇到不明白的事物,急需在互聯(lián)網(wǎng)中查找他想要的答案。 用戶使用搜索功能用例分析。 搜索引擎功能需求分析 搜索引擎支持客戶端類型本搜索引擎是基于WEB瀏覽器開發(fā)的,支持桌面版本的所有瀏覽器和Android客戶端的瀏覽器使用。通過對引擎的目標(biāo)確定和用例分析,可以全面準(zhǔn)確地把握引擎的功能需求。由于本引擎設(shè)計時已經(jīng)考慮到跨平臺的兼容性問題,所以用戶無需擔(dān)心由于不同客戶端而造成引擎無法正常工作、顯示問題。中文分詞,可以對一行長中文句子進(jìn)行分詞,分成若干中文短語,再送進(jìn)數(shù)據(jù)庫進(jìn)行搜索,從而提高搜索的準(zhǔn)確性,同時符合用戶日常輸入習(xí)慣。數(shù)據(jù)庫信息實時更新,定期對數(shù)據(jù)庫中的信息進(jìn)行更新處理,保證搜索結(jié)果的實時性。數(shù)據(jù)庫的主要實體有:鏈接詳細(xì)信息表,用于存儲當(dāng)前鏈接的標(biāo)題、簡單說明、字符集和關(guān)鍵字;鏈接列表,用于存儲當(dāng)前鏈接當(dāng)中再指向其他的超鏈接列表;鏈接表,用于存儲當(dāng)前鏈接的具體訪問地址,存儲時間。所以在設(shè)計操作界面時,開發(fā)者努力做到使用界面清晰明了,讓第一次使用的用戶可以輕易使用。為了使用戶擁有良好的使用體驗,要求網(wǎng)頁設(shè)計到達(dá)以下要求。頁面背景美觀、柔和。 4 搜索引擎設(shè)計 搜索引擎結(jié)構(gòu)設(shè)計根據(jù)需求分析,我們可以知道用戶在使用搜索功能時,客戶端一般是桌面瀏覽器或者移動瀏覽器,根據(jù)需求分析,可以設(shè)計出兼容多種客戶端平臺的搜索引擎結(jié)構(gòu)。 數(shù)據(jù)庫設(shè)計數(shù)據(jù)庫是搜索引擎的核心部分之一。對于一個出色的搜索引擎,如何設(shè)計出一個高效、穩(wěn)定、安全的數(shù)據(jù)庫成為關(guān)鍵。 數(shù)據(jù)庫規(guī)劃,對于一個數(shù)據(jù)庫應(yīng)用項目,需要在規(guī)劃階段完成,系統(tǒng)調(diào)查、可行性分析和系統(tǒng)目標(biāo)確定等工作,項目實施作初步準(zhǔn)備。概念結(jié)構(gòu)設(shè)計,概念結(jié)構(gòu)設(shè)計的目標(biāo)是產(chǎn)生系統(tǒng)信息需求的數(shù)據(jù)庫概念結(jié)構(gòu),即概念模型,概念模型是獨立于計算機(jī)硬件結(jié)構(gòu)和數(shù)據(jù)庫管理系統(tǒng)的。組成實體聯(lián)系(ER)模型的元素有實體、聯(lián)系和屬性,實體是指用戶工作環(huán)境中所涉及的事物,屬性是實體特性的描述,聯(lián)系表示實體之間的關(guān)系。對于關(guān)系數(shù)據(jù)庫,就是要轉(zhuǎn)換為關(guān)系模式,確定實體的碼即數(shù)據(jù)庫中的數(shù)據(jù)表以及其主鍵,確定實體聯(lián)系的類型,即將聯(lián)系轉(zhuǎn)換為一對一、一對多、多對多等類型。在需求分析中已經(jīng)完成數(shù)據(jù)庫的規(guī)劃和需求分析,之后三個小節(jié)將給出系統(tǒng)數(shù)據(jù)庫的概念結(jié)構(gòu)設(shè)計、邏輯結(jié)構(gòu)設(shè)計和物理結(jié)構(gòu)設(shè)計。 實體及實體之間關(guān)系ER圖本搜索引擎對數(shù)據(jù)庫的使用,主要集中在關(guān)鍵的鏈接詳細(xì)信息表和鏈接表,因為本搜索引擎只對互聯(lián)網(wǎng)上各個站點的信息標(biāo)題進(jìn)行搜索,鏈接列表是記錄當(dāng)前鏈接中它自身重定向的若干鏈接信息。 鏈接詳細(xì)信息ER圖鏈接實體ER圖, 鏈接實體ER圖鏈接列表實體ER圖, 鏈接列表實體ER圖 數(shù)據(jù)庫邏輯結(jié)構(gòu)設(shè)計數(shù)據(jù)庫邏輯結(jié)構(gòu)設(shè)計要將獨立于數(shù)據(jù)庫管理系統(tǒng)的概念模型轉(zhuǎn)換為適于數(shù)據(jù)庫系統(tǒng)邏輯結(jié)構(gòu),轉(zhuǎn)換后的邏輯結(jié)構(gòu)需合計算機(jī)處理信息的邏輯并能與數(shù)據(jù)庫系統(tǒng)的特性兼容。根據(jù)數(shù)據(jù)庫實體ER圖可以得到各實體的屬性:鏈接詳細(xì)信息:ID號,字符集格式,標(biāo)題信息,關(guān)鍵字信息,簡單描述。鏈接列表:ID號,鏈接地址。鏈接(ID號,訪問地址,收錄信息),主碼為ID號,外碼為鏈接詳細(xì)信息的ID號。聯(lián)系:聯(lián)系轉(zhuǎn)換為鏈接詳細(xì)信息與鏈接之間一對一關(guān)系,外碼為鏈接詳細(xì)信息的ID號和鏈接的ID號。 數(shù)據(jù)庫物理結(jié)構(gòu)設(shè)計物理結(jié)構(gòu)設(shè)計,數(shù)據(jù)庫物理結(jié)構(gòu)設(shè)計包括存儲類型的選擇、屬性數(shù)據(jù)類型的確定、表的索引結(jié)構(gòu)的確定和數(shù)據(jù)庫存取路徑的確定。在數(shù)據(jù)庫表設(shè)計器中,為每一個關(guān)系設(shè)計對應(yīng)的表,并確定各屬性的數(shù)據(jù)類型和空間占用。 鏈接詳細(xì)信息數(shù)據(jù)表字段含義字段名數(shù)據(jù)類型是否為主鍵可否為空ID號idint(11)YESNO字符集格式charsetVarchar(128)NOYES標(biāo)題信息TitletextNOYES關(guān)鍵字信息KeywordtextNOYES簡單描述descriptionlongtextNOYES鏈接(urls) 。 鏈接列表數(shù)據(jù)表字段含義字段名數(shù)據(jù)類型是否為主鍵可否為空ID號idint(11)YESNO鏈接地址linktextNOYES 數(shù)據(jù)存儲流程設(shè)計本搜索引擎的數(shù)據(jù)錄入全部依賴JSpider軟件實現(xiàn)。機(jī)器人軟件的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁信息下載到本
點擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1