freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

昆明理工大學(xué)-web服務(wù)與分布式計(jì)算-期末報(bào)告--文庫吧

2025-07-17 21:34 本頁面


【正文】 切分,假設(shè)根據(jù)切詞算法,把該詞切分為“海淀區(qū)”和“中關(guān)村”兩部分,則最后得到的查詢條件可以表示為:“中國” AND “北京” AND NOT(“海淀區(qū)” AND “中關(guān)村”)。 查詢器根據(jù)這個(gè)條件遍歷索引樹,得到查詢結(jié)果,并返回結(jié)果集,返回的結(jié)果集類似于JDBC中的ResultSet。將返回的結(jié)果集顯示在查詢結(jié)果頁面,當(dāng)點(diǎn)擊某一條內(nèi)容時(shí),可以鏈接到原始網(wǎng)頁,也可以打開全文檢索庫中存儲(chǔ)的網(wǎng)頁內(nèi)容。 入庫邏輯 :入 庫者定義到庫中文檔的結(jié)構(gòu),比如需要把網(wǎng)站內(nèi)容加載到全文檢索庫,讓用戶通過“站內(nèi)檢索”搜索到相關(guān)的網(wǎng)頁內(nèi)容。入庫文檔結(jié)構(gòu)與關(guān)系型數(shù)據(jù)庫中的表結(jié)構(gòu)類 似,每個(gè)入庫的文檔由多個(gè)字段構(gòu)成,假設(shè)這里需要入庫的網(wǎng)站內(nèi)容包括如下字段:文章標(biāo)題、作者、發(fā)布時(shí)間、原文鏈接、正文內(nèi)容(一般作為網(wǎng)頁快照)。包含N個(gè)字段的文檔(DOCUMENT)在真正入庫前需要經(jīng)過切詞(或分詞)索引,切詞的規(guī)則由語言分析器(ANALYZER)完成。切分后的“單詞”被注冊(cè)到索引樹上,供查詢時(shí)用,另外也需要把其它不需要索引的內(nèi)容入庫,所有這些是文件操作均由STORAGE完成。 Lucene倒排索引原理 假設(shè)有兩篇文章1和2 文章1的內(nèi)容為:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的內(nèi)容為:He once lived in Shanghai. 經(jīng)過分詞處理后 文章1的所有關(guān)鍵詞為:[tom] [live] [guangzhou] [i] [live] [guangzhou] 文章2的所有關(guān)鍵詞為:[he] [live] [shanghai] 加上“出現(xiàn)頻率”和“出現(xiàn)位置”信息后,我們的索引結(jié)構(gòu)為:非結(jié)構(gòu)化數(shù)據(jù)中所存儲(chǔ)的信息是每個(gè)文件包含哪些字符串,也即已知文件,欲求字符串相對(duì)容易,也即是從文件到字符串的映射。而我們想搜索的信息是哪些文件包含此字符串,也即已知字符串,欲求文件,也即從字符串到文件的映射。兩者恰恰相反。于是如果索引總能夠保存從字符串到文件的映射,則會(huì)大大提高搜索速度。由于從字符串到文件的映射是文件到字符串映射的反向過程,于是保存這種信息的索引稱為反向索引。 反向索引的所保存的信息一般如下:假設(shè)我的文檔集合里面有100篇文檔,為了方便表示,我們?yōu)槲臋n編號(hào)從1到100,得到下面的結(jié)構(gòu): 左邊保存的是一系列字符串,稱為詞典。每個(gè)字符串都指向包含此字符串的文檔(Document)鏈表,此文檔鏈表稱為倒排表(Posting List)。有了索引,便使保存的信息和要搜索的信息一致,可以大大加快搜索的速度。(Indexing) 全文檢索的索引創(chuàng)建過程一般有以下幾步:第一步:一些要索引的原文檔(Document)。第二步:將原文檔傳給分詞器(Tokenizer)。 分詞器(Tokenizer)會(huì)做以下幾件事情(此過程稱為Tokenize): 1.將文檔分成一個(gè)一個(gè)單獨(dú)的單詞。 2.去除標(biāo)點(diǎn)符號(hào)。 3.去除停詞所謂停詞就是一種語言中最普通的一些單詞,由于沒有特別的意義,因而大多數(shù) 情況下不能成為搜索的關(guān)鍵詞,因而創(chuàng)建索引時(shí),這種詞會(huì)被去掉而減少索引的大小。 英語中停詞(Stop word)如:“the”,“a”,“this”等。對(duì)于每一種語言的分詞組件(Tokenizer),都有一個(gè)停詞(stop word)集合經(jīng)過分詞(Tokenizer)后得到的結(jié)果稱為詞元(Token).第三步:將得到的詞元(Token)傳給語言處理組件(Linguistic Processor)。語言處理組件(linguistic processor)主要是對(duì)得到的詞元(Token)做一些同語言相關(guān)的處理。對(duì)于英語,語言處理組件(Linguistic Processor)一般做以下幾點(diǎn):1.變?yōu)樾?Lowercase)2.將單詞縮減為詞根形式,這種操作稱為:stemming.3.將單詞轉(zhuǎn)變?yōu)樵~根形式,這種操作稱為:lemmatization.Stemming 和 lemmatization的異同:相同之處:Stemming和lemmatization都要使詞匯成為詞根形式。兩者的方式不同:Stemming采用的是“縮減”的方式Lemmatization采用的是“轉(zhuǎn)變”:Stemming主要是采取某種固定的算法來做這種縮減Lemmatization主要是采用保存某種字典的方式做這種轉(zhuǎn)變。Stemming和lemmatization不是互斥關(guān)系,(linguistic processor)的結(jié)果稱為詞(Term).也正是因?yàn)橛姓Z言處理的步驟,才能使搜索drove,而drive也能被搜索出來。第四步:將得到的詞(Term)傳給索引組件(Indexer)。索引組件(Indexer)主要做以下幾件事情:1. 利用得到的詞(Term)創(chuàng)建一個(gè)字典。2.對(duì)字典按字母順序進(jìn)行排序。 (Search)第一步:用戶輸入查詢語句。查詢語句同我們普通的語言一樣,也是有一定語法的。不同的查詢語句有不同的語法,如SQL語句就有一定的語法。查詢語句的語法根據(jù)全文檢索系統(tǒng)的實(shí)現(xiàn)而不同。最基本的有比如:AND, OR, NOT等。舉個(gè)例子,用戶輸入語句:lucene AND l
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1