freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

最新移動(dòng)環(huán)境下的搜索引擎軟件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)(參考版)

2025-07-03 04:44本頁(yè)面
  

【正文】 TF越大說明越重要。下面介紹計(jì)算相關(guān)性的兩個(gè)過程:(1)計(jì)算權(quán)重的過程。對(duì)于查詢結(jié)果應(yīng)該按照與查詢語(yǔ)句的相關(guān)性進(jìn)行排序,越相關(guān)者越靠前。那么此文檔鏈表就是要找的文檔。其次,對(duì)包含lucene,learn的鏈表進(jìn)行合并操作,得到既包含lucene又包含learn的文檔鏈表。查詢語(yǔ)句“Lucene and Learned not Hadoop“最終得到一棵經(jīng)過語(yǔ)言處理的語(yǔ)法樹,如下圖:圖5. 7查詢語(yǔ)法樹搜索索引,得到符合語(yǔ)法樹的文檔。詞法分析主要用來(lái)識(shí)別單詞和關(guān)鍵字;語(yǔ)法分析主要是根據(jù)查詢語(yǔ)句的語(yǔ)法規(guī)則來(lái)形成一棵語(yǔ)法樹。主要分為以下幾步:參系統(tǒng)啟動(dòng)hup服務(wù)器接口,通過網(wǎng)絡(luò)通訊接口接受用戶通過客戶端輸入的查詢語(yǔ)句。保證高效的對(duì)索引的操作但有不會(huì)出現(xiàn)一致性錯(cuò)誤。例如針對(duì)移動(dòng)環(huán)境搜索引擎的位置敏感性,可以在索引期間對(duì)表示地理位置和地區(qū)名的詞進(jìn)行加權(quán)。Lucene可以對(duì)需要索引的域進(jìn)行加權(quán)操作。lucene支持內(nèi)存索引,這樣的搜索比基于文件的I/O有數(shù)量級(jí)的速度提升。我們這里使用抓取的網(wǎng)頁(yè)作為數(shù)據(jù)源。SimpleAnalyzer是文檔分詞器,這個(gè)文檔分詞器是使用中文分詞。//將文檔寫入索引writer. addDocument (doc): ://關(guān)閉寫索引器writer, close ()。Document doc = new Document ()。IndexWriter writer = new IndexWriter(indexPath,new SimpleAnalyzer(),false)。反向信息保存了詞典到倒排表的映射:詞文檔。(4)建立索引并寫索引文件Lucene的索引結(jié)構(gòu)中,既保存了正向信息,也保存了反向信息:. 正向信息是按層次結(jié)構(gòu)保存了從索引一直到詞的包含關(guān)系。(2)對(duì)字典按字母順序進(jìn)行排序。對(duì)于英語(yǔ),語(yǔ)言處理組件一般做以下幾點(diǎn):?jiǎn)卧~變?yōu)樾?Lowercase)。(Linguistic Processor)。將原文檔傳給分詞組件(Tokenizer)。一般的系統(tǒng)運(yùn)行中,全文檢索的索引創(chuàng)建是需要以下四個(gè)過程的:,這里就是抓取子系統(tǒng)新抓取的文檔。由于從字符串到文件的映射是文件到字符串映射的反向過程,于是保存這種信息的索引稱為反向索引。而實(shí)際想搜索的信息是哪些文件包含此字符串,也即已知字符串,查找對(duì)應(yīng)文件,也即從字符串到文件的映射。(Term):在系統(tǒng)中,索引的最小單位是詞,索引就是經(jīng)過詞法分析和語(yǔ)言處理后的字符串。(Document):文檔主要是被保存在各自不同的段中間的,它是系統(tǒng)建立索引的最基本單位,同一個(gè)段中可以有不同的文檔共存,而新增加的文檔往往是獨(dú)立的保存在一個(gè)新生成的段中,段與段是可以合并的,通過段與段的合并,不同的文檔有可能會(huì)合并在同一個(gè)段之中。Nutch是使用lucene索引機(jī)制,其索引機(jī)制架構(gòu)如下圖:Lucene的索引結(jié)構(gòu)是有特定的層次結(jié)構(gòu)的,簡(jiǎn)單介紹如下:(Index):索引的功能主要是在Lucene中建立一個(gè)文件夾,這個(gè)文件夾中的所有文件共同構(gòu)成了一個(gè)Lucene索引。其MapReduce的計(jì)算過程如下:* MapReduce 程序之一目的:將輸入轉(zhuǎn)換為CrawlDatum格式輸入:URL文件Map(line) URL, CrawlDatum〉Reduce0合并多重的URL輸出:臨時(shí)的CrawlDatum文件MapReduce 程序之二目的:合并上一步產(chǎn)生的臨時(shí)文件到新的DB) 輸入:上次MapReduce輸出的CrawlDatumMapO過濾重復(fù)的URLReduce0合并兩個(gè)CrawlDatum到一個(gè)新的DB輸出:CrawlDatum 作為子系統(tǒng)中的重要組成部分,索引子系統(tǒng)的功能主要是將抓取到子系統(tǒng)中的互聯(lián)網(wǎng)信息內(nèi)容進(jìn)行進(jìn)一步的處理,以此來(lái)為后續(xù)的搜索和查找奠定基礎(chǔ),便于快速的找到相應(yīng)的文檔。網(wǎng)絡(luò)爬蟲工作過程是基于MapReduce的分布式模式。(4) updateclb操作。在抓取過程中若發(fā)現(xiàn)url地址發(fā)生改變,也會(huì)更新url列表。(3) fetch操作。(2) generate操作。 以下簡(jiǎn)要介紹下網(wǎng)頁(yè)抓取的流程,其中分為以下幾個(gè)步驟:(1) inject操作。在實(shí)際工作和網(wǎng)頁(yè)抓取中,包括面向?qū)嶋H應(yīng)用環(huán)境的網(wǎng)絡(luò)卿蛛設(shè)計(jì)中,往往是兩種抓取方式并行,累積式抓取和增量式抓取共同使用的策略,能夠發(fā)揮兩種抓取方式各自的優(yōu)勢(shì)所在。增量式抓取(incremental crawling)主要是在已經(jīng)具備一定數(shù)量的網(wǎng)頁(yè)集合之后,利用比較新的數(shù)據(jù)更新技術(shù),對(duì)集合中的網(wǎng)頁(yè),主要是過時(shí)的網(wǎng)頁(yè)進(jìn)行抓取,以此來(lái)保證抓取的網(wǎng)頁(yè)數(shù)據(jù)的實(shí)時(shí)更新性,也由此使抓取到的網(wǎng)頁(yè)數(shù)據(jù)與實(shí)際環(huán)境中真實(shí)存在的數(shù)據(jù)具有較大的統(tǒng)一性和相符性。累積式抓?。╟umulative crawling)的主要功能則是,通過一定的策略,保證抓取到的網(wǎng)頁(yè)集合具有相當(dāng)?shù)囊?guī)模。而在Nutch算法中的爬蟲工作的主要策略主要是累積式抓?。╟umulative crawling)和增量式抓取(incremental crawling)兩種。具體結(jié)構(gòu)示意圖如下圖所示:圖5. 4妙搜服務(wù)器系統(tǒng)架構(gòu)設(shè)計(jì)下面各節(jié)分別描述了各個(gè)模塊的具體設(shè)計(jì)思路及相關(guān)原理。以上三步就完成了整個(gè)插件的使用。 第二步:使用getExtensionPoint ()函數(shù)在所獲得的擴(kuò)展點(diǎn)的變量fExtensions中取得相應(yīng)的擴(kuò)展點(diǎn),再通過getExtensions ()函數(shù)通過擴(kuò)展點(diǎn)得到,所有相應(yīng)擴(kuò)展點(diǎn)的擴(kuò)展插件列表。調(diào)用installExtensionsO 函數(shù)在Extension類的fExtension變量中添加擴(kuò)展。調(diào)用86106口611」607(^60]6(]?1。對(duì)擴(kuò)展點(diǎn)的詳細(xì)描述。對(duì)擴(kuò)展的詳細(xì)描述。任何插件至少需要Nutch核心插件提供的核心擴(kuò)展點(diǎn)的支持,也有可能依賴其它的插件。把庫(kù)輸出以便其它的插件能夠利用,同樣也可以利用其它插件的庫(kù)。插件的屬性包括:唯一的名稱標(biāo)示、插件類實(shí)現(xiàn)的URL地址、版本號(hào)及提供者的名字。直到Nutch運(yùn)行時(shí),僅有一個(gè)插件類文件的實(shí)例在JVM中存在。也是對(duì)第三方提供的擴(kuò)展點(diǎn)的功能的增強(qiáng)。擴(kuò)展點(diǎn)應(yīng)該用唯一的名稱來(lái)標(biāo)示,并在配置文件中聲明),而實(shí)現(xiàn)該接口的類的對(duì)象被稱為回調(diào)對(duì)象。 擴(kuò)展點(diǎn)是能夠被第三方函數(shù)繼承的一個(gè)(類)插件。常見的應(yīng)用是利用插件來(lái)幫助數(shù)據(jù)庫(kù)進(jìn)行啟動(dòng)或者是關(guān)閉的連接。 Nutch的插件體系結(jié)構(gòu) Nutch插件是是一個(gè)能夠?qū)崿F(xiàn)系統(tǒng)最核心內(nèi)容的功能擴(kuò)展定制器,包含有為其它插件提供擴(kuò)展API的容器。要注意的是,Lucene中也有片段(segment)這種說法,不過他和Nutch片段是不一樣的。crawl/indexes:索引目錄,是Lucene格式的索引目錄,由indexes里所有index合并后的完整索引組成,注意索引文件只對(duì)頁(yè)面內(nèi)容進(jìn)行索引,沒有進(jìn)行存儲(chǔ),因此查詢時(shí)要去訪問segments目錄才能獲得頁(yè)面內(nèi)容。該目錄還包含以下子目錄:crawl_generate:新生成的在下輪將被抓取的urls目錄;aawl_fetch:存儲(chǔ)每個(gè)url當(dāng)前抓取的狀態(tài);content:存儲(chǔ)每個(gè)url的內(nèi)容信息;parse_text:存儲(chǔ)每個(gè)url解析后的文本信息;parse data:包含每個(gè)url出鏈信息及解析后的元數(shù)據(jù)信息。存放的頁(yè)面內(nèi)容有bytes[]型的原始網(wǎng)頁(yè)內(nèi)容及解析后的文本信息。Webdb中的web圖就是由頁(yè)面和鏈接組成的,頁(yè)面是節(jié)點(diǎn),連接是邊。這其中既有包含著源url同時(shí)也含有包含著鏈接的描文本信息。一般的設(shè)置規(guī)律是,每30天,系統(tǒng)對(duì)數(shù)據(jù)庫(kù)的內(nèi)容重新抓取一次。所以,在介紹中,有必要對(duì)Nutch的文件存儲(chǔ)結(jié)構(gòu)進(jìn)行相關(guān)的介紹。 有上述介紹可知,一般而言Nutch的工作分為兩個(gè)階段:第一個(gè)階段是對(duì)內(nèi)容抓取,第二個(gè)階段是對(duì)關(guān)鍵字搜索。被解析出的url又寫入url數(shù)據(jù)庫(kù)中以繼續(xù)抓取。 Nutch的工作流程概要 Nutch的工作流程首先開始與添加起始url,后面生成用戶爬取的url列表,并啟動(dòng)爬蟲程序下載給定的url網(wǎng)頁(yè)內(nèi)容。再次是建立索引程序(Indexer),建立索引程序是對(duì)抓取的網(wǎng)頁(yè)信息進(jìn)行再處理,從中提取其中的URL、標(biāo)題、內(nèi)容等關(guān)鍵詞,通過對(duì)格式各異的數(shù)據(jù)源進(jìn)行轉(zhuǎn)換和再處理,將其轉(zhuǎn)換為系統(tǒng)可以內(nèi)部識(shí)別的文件格式,再通過建立倒排文件,將文檔中的關(guān)鍵詞作索引,將文檔作為索引目標(biāo)的一種結(jié)構(gòu),進(jìn)而對(duì)索引庫(kù)進(jìn)行維護(hù)和建立。其次是網(wǎng)頁(yè)收集程序(fetcher),這是用來(lái)對(duì)網(wǎng)頁(yè)的信息進(jìn)行收集,從中抓取相關(guān)的信息用來(lái)解析,以此來(lái)更新url列表的組件,它可以對(duì)相關(guān)的網(wǎng)頁(yè)信息和內(nèi)容進(jìn)行倒排索引建立。 其核心的內(nèi)容一般可以分為四個(gè)部分(即hadoop、網(wǎng)頁(yè)收集程序(fetcher)、建立索引程序(Indexer)、查詢服務(wù)程序(Searcher)),每個(gè)部分分別是一個(gè)模塊。最后,Nutch系統(tǒng)的優(yōu)勢(shì)在于其靈活性非常好,能夠有效的被客戶以訂制的方式集成到相關(guān)的應(yīng)用程序中去,在本文的研究中,我們也使其集成到相關(guān)的應(yīng)用程序中,這樣的作法,使得Nutch可以利用其插件機(jī)制,成為一個(gè)用以搜索不同信息的平臺(tái),這個(gè)平臺(tái)將能夠幫助開發(fā)者和用戶搜索不同的信息載體。再次,Nutch是作為一個(gè)大型分布式的搜索引擎,它的明顯優(yōu)勢(shì)在于Nutch的存儲(chǔ)是采用分布式存儲(chǔ)方案HDFS,并且Nutch軟件包的核心部分是用Map Reduce并行計(jì)算實(shí)現(xiàn)的。其次,Nutch是Java語(yǔ)言實(shí)現(xiàn)的幵放源代碼的全文檢索引擎工具包,也是在移動(dòng)環(huán)境下實(shí)現(xiàn)全文檢索引擎的系統(tǒng)架構(gòu),可以通過其實(shí)現(xiàn)完整的索引引擎和查詢引擎。而從具體方面來(lái)說,移動(dòng)環(huán)境下的互聯(lián)網(wǎng)搜索引擎系統(tǒng)的目標(biāo),是有許多細(xì)枝末節(jié)的小方面組成的,這些小方面我們可以把它稱為細(xì)節(jié)目標(biāo),簡(jiǎn)言之,細(xì)節(jié)目標(biāo)是我們對(duì)互聯(lián)網(wǎng)搜索引擎用戶不同需求的細(xì)化,也能夠配合實(shí)現(xiàn)系統(tǒng)的總目標(biāo)。其中,移動(dòng)互聯(lián)網(wǎng)的業(yè)務(wù)信息既包括移動(dòng)互聯(lián)網(wǎng)自身所包含的信息,同時(shí)還包括對(duì)移動(dòng)互聯(lián)網(wǎng)搜索引擎有合作關(guān)系的其他互聯(lián)網(wǎng)服務(wù)供應(yīng)商和服務(wù)接受方的相關(guān)信息。第五章妙搜移動(dòng)搜索引擎系統(tǒng)的分析與設(shè)計(jì)目前移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,搜索引擎技術(shù)的發(fā)展有了新的目標(biāo)和展望,以本文所討論的“妙搜”移動(dòng)搜索引擎系統(tǒng)來(lái)說,在移動(dòng)環(huán)境下的互聯(lián)網(wǎng)搜索引擎,其主要目標(biāo)是服務(wù)移動(dòng)互聯(lián)網(wǎng)用戶,幫助移動(dòng)互聯(lián)網(wǎng)用戶在有限的移動(dòng)互聯(lián)網(wǎng)終端上,快速、準(zhǔn)確、有效的搜索到必要的信息,通過對(duì)信息的讀取、檢索和處理,幫助用戶最快最好的找到合適的內(nèi)容。本章主要是針對(duì)移動(dòng)環(huán)境下互聯(lián)網(wǎng)搜索引擎技術(shù)的發(fā)展和特點(diǎn),針對(duì)移動(dòng)互聯(lián)網(wǎng)用戶端的特殊情況,對(duì)移動(dòng)環(huán)境下互聯(lián)網(wǎng)搜索引擎發(fā)展的前景和用戶的具體需求進(jìn)行了詳細(xì)的分析,通過分析,得出移動(dòng)環(huán)境下互聯(lián)網(wǎng)搜索引擎需要發(fā)展所必須具備的幾個(gè)基本的特點(diǎn)和功能,同時(shí)結(jié)合搜索引擎系統(tǒng)的開發(fā)背景對(duì)系統(tǒng)下一步的發(fā)展,特別是我們的研究?jī)?nèi)容:“妙搜”移動(dòng)搜索引擎系統(tǒng)的設(shè)計(jì)所需要注意的問題進(jìn)行了重點(diǎn)的闡述。 四是系統(tǒng)的靈活性,移動(dòng)環(huán)境下的互聯(lián)網(wǎng)發(fā)展,用戶對(duì)于系統(tǒng)的需求千變?nèi)f化、時(shí)刻在發(fā)展,因此我們?cè)谝苿?dòng)環(huán)境下互聯(lián)網(wǎng)搜索引擎系統(tǒng)的設(shè)計(jì)中,一定要具有前瞻性,能夠預(yù)料到系統(tǒng)發(fā)展的前景。 三是系統(tǒng)的時(shí)效性,移動(dòng)環(huán)境下的搜索引擎,是在手機(jī)等移動(dòng)設(shè)備更新?lián)Q代飛速發(fā)展的今天,有效的運(yùn)用移動(dòng)生活的結(jié)果和產(chǎn)物,是互聯(lián)網(wǎng)時(shí)代信息科技飛速發(fā)展的產(chǎn)物,作為互聯(lián)網(wǎng)用戶,對(duì)系統(tǒng)的時(shí)效性要求也是非常具有時(shí)效性的,因此我們必須時(shí)刻保證系統(tǒng)的與時(shí)俱進(jìn),及時(shí)吸納最新科技,保障用戶的最佳體驗(yàn)。二是系統(tǒng)對(duì)結(jié)果的準(zhǔn)確性和合理性要求,針對(duì)移動(dòng)環(huán)境下搜索引擎技術(shù)的發(fā)展,要針對(duì)用戶的不同搜索,建立快速返回的結(jié)果,并保證返回的結(jié)果是用戶預(yù)期的相關(guān)內(nèi)容,即做到系統(tǒng)的檢索結(jié)果與用戶的預(yù)期內(nèi)容相一致的要求,最好能做到,與用戶搜索方向越接近的內(nèi)容,在搜索結(jié)果的索引位置越靠前,這樣才能有效的體現(xiàn)搜索引擎的智能化和便捷服務(wù)生活的特點(diǎn)。移動(dòng)環(huán)境下的搜索引擎技術(shù)對(duì)系統(tǒng)的要求,相對(duì)于PC端的互聯(lián)網(wǎng)搜索引擎技術(shù),有自己特殊之處,簡(jiǎn)言之,用戶對(duì)系統(tǒng)的性能的要求,能夠歸納為以下幾點(diǎn):一是系統(tǒng)的響應(yīng)時(shí)間,移動(dòng)環(huán)境下搜索引擎系統(tǒng)的響應(yīng)速度是用戶體驗(yàn)中的重要部分,如果移動(dòng)環(huán)境下搜索引擎系統(tǒng)的響應(yīng)速度過慢,將會(huì)大大降低系統(tǒng)的易用性和用戶評(píng)價(jià),因此,移動(dòng)環(huán)境下的搜索引擎系統(tǒng)的響應(yīng)時(shí)間,應(yīng)當(dāng)盡可能的端,并且應(yīng)該在用戶可接受的范圍之內(nèi),至少與現(xiàn)有各種互聯(lián)網(wǎng)搜索引擎相當(dāng)。通過對(duì)系統(tǒng)円志的分析,就可以得到系統(tǒng)運(yùn)行狀況。 七是系統(tǒng)的運(yùn)行狀況的可維護(hù),系統(tǒng)的運(yùn)行狀況,與系統(tǒng)的應(yīng)用環(huán)境有很大的關(guān)系,作為移動(dòng)環(huán)境下的商業(yè)化系統(tǒng),最基本的要求就是根據(jù)客戶的需求,能夠保證全天候不間斷的有效運(yùn)行,為系統(tǒng)的用戶提供即時(shí)的高效率的優(yōu)質(zhì)服務(wù)。 六是系統(tǒng)的可變更性和可擴(kuò)展性,移動(dòng)環(huán)境下搜索引擎的項(xiàng)目需求變化很多,特別是在商業(yè)化的背景下,對(duì)搜索引擎的需求變動(dòng)更加頻繁,因此,系統(tǒng)必須具備功能需求快速變更以及功能的可擴(kuò)展性。 四是信息的文本聚類,具體來(lái)說,信息的文本聚類是將返回的搜索結(jié)果進(jìn)行聚類,因?yàn)槭褂梦谋揪垲惸軌驅(qū)⑺阉鞯慕Y(jié)果生成更加合適的類別,有利于將整體的搜索結(jié)果歸并到不同的類別之中,進(jìn)而將最終的結(jié)果以聚類的形式返回。二是對(duì)信息的處理和存放,一般說來(lái),移動(dòng)環(huán)境下的互聯(lián)網(wǎng)搜索引擎用戶,對(duì)信息的處理都是短時(shí)間內(nèi)的,但是限于手機(jī)、平板電腦等設(shè)備的空間有限,如何對(duì)于提取來(lái)的文本信息,進(jìn)行切分分詞、添加標(biāo)簽、詞頻統(tǒng)計(jì),甚至在上述功能的基礎(chǔ)上,進(jìn)行有效的索引,都是系統(tǒng)設(shè)計(jì)所需要達(dá)到的功能。首先,“妙搜”移動(dòng)搜索引擎針對(duì)目前移動(dòng)環(huán)境下互聯(lián)網(wǎng)搜索引擎用戶的特點(diǎn),主要是手機(jī)、平板電腦等互聯(lián)網(wǎng)接入設(shè)備的局限性:中央處理器的運(yùn)行速度有限,內(nèi)部存儲(chǔ)限制,屏幕尺寸限制以及屏幕的分辨率、細(xì)膩程度等制約性素,有效的對(duì)互聯(lián)網(wǎng)搜索引擎技術(shù)的設(shè)計(jì)進(jìn)行優(yōu)化和改進(jìn),根據(jù)現(xiàn)有的基礎(chǔ),對(duì)移動(dòng)環(huán)境下互聯(lián)網(wǎng)搜索引擎用戶的體驗(yàn)進(jìn)行分析,探索如何在有限的CPU、內(nèi)存和一定的屏幕尺寸和分辨率的情況下,提高包括搜索檢索的快捷性、準(zhǔn)確性和方便性在內(nèi)的互聯(lián)網(wǎng)搜索用戶體驗(yàn)。區(qū)別于傳統(tǒng)的PC端互聯(lián)網(wǎng)技術(shù),移動(dòng)環(huán)境下的互聯(lián)網(wǎng)技術(shù)發(fā)展,在當(dāng)今
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1