正文內(nèi)容

昆明理工大學(xué)-web服務(wù)與分布式計(jì)算-期末報(bào)告--文庫吧

2025-07-17 21:34 本頁面

【正文】切分，假設(shè)根據(jù)切詞算法，把該詞切分為“海淀區(qū)”和“中關(guān)村”兩部分，則最后得到的查詢條件可以表示為：“中國” AND “北京” AND NOT（“海淀區(qū)” AND “中關(guān)村”）。查詢器根據(jù)這個(gè)條件遍歷索引樹，得到查詢結(jié)果，并返回結(jié)果集，返回的結(jié)果集類似于JDBC中的ResultSet。將返回的結(jié)果集顯示在查詢結(jié)果頁面，當(dāng)點(diǎn)擊某一條內(nèi)容時(shí)，可以鏈接到原始網(wǎng)頁，也可以打開全文檢索庫中存儲(chǔ)的網(wǎng)頁內(nèi)容。入庫邏輯：入庫者定義到庫中文檔的結(jié)構(gòu)，比如需要把網(wǎng)站內(nèi)容加載到全文檢索庫，讓用戶通過“站內(nèi)檢索”搜索到相關(guān)的網(wǎng)頁內(nèi)容。入庫文檔結(jié)構(gòu)與關(guān)系型數(shù)據(jù)庫中的表結(jié)構(gòu)類似，每個(gè)入庫的文檔由多個(gè)字段構(gòu)成，假設(shè)這里需要入庫的網(wǎng)站內(nèi)容包括如下字段：文章標(biāo)題、作者、發(fā)布時(shí)間、原文鏈接、正文內(nèi)容（一般作為網(wǎng)頁快照）。包含N個(gè)字段的文檔（DOCUMENT）在真正入庫前需要經(jīng)過切詞（或分詞）索引，切詞的規(guī)則由語言分析器（ANALYZER）完成。切分后的“單詞”被注冊(cè)到索引樹上，供查詢時(shí)用，另外也需要把其它不需要索引的內(nèi)容入庫，所有這些是文件操作均由STORAGE完成。 Lucene倒排索引原理假設(shè)有兩篇文章1和2 文章1的內(nèi)容為：Tom lives in Guangzhou,I live in Guangzhou too. 文章2的內(nèi)容為：He once lived in Shanghai. 經(jīng)過分詞處理后文章1的所有關(guān)鍵詞為：[tom] [live] [guangzhou] [i] [live] [guangzhou] 文章2的所有關(guān)鍵詞為：[he] [live] [shanghai] 加上“出現(xiàn)頻率”和“出現(xiàn)位置”信息后，我們的索引結(jié)構(gòu)為：非結(jié)構(gòu)化數(shù)據(jù)中所存儲(chǔ)的信息是每個(gè)文件包含哪些字符串，也即已知文件，欲求字符串相對(duì)容易，也即是從文件到字符串的映射。而我們想搜索的信息是哪些文件包含此字符串，也即已知字符串，欲求文件，也即從字符串到文件的映射。兩者恰恰相反。于是如果索引總能夠保存從字符串到文件的映射，則會(huì)大大提高搜索速度。由于從字符串到文件的映射是文件到字符串映射的反向過程，于是保存這種信息的索引稱為反向索引。反向索引的所保存的信息一般如下：假設(shè)我的文檔集合里面有100篇文檔，為了方便表示，我們?yōu)槲臋n編號(hào)從1到100，得到下面的結(jié)構(gòu): 左邊保存的是一系列字符串，稱為詞典。每個(gè)字符串都指向包含此字符串的文檔(Document)鏈表，此文檔鏈表稱為倒排表(Posting List)。有了索引，便使保存的信息和要搜索的信息一致，可以大大加快搜索的速度。(Indexing) 全文檢索的索引創(chuàng)建過程一般有以下幾步：第一步：一些要索引的原文檔(Document)。第二步：將原文檔傳給分詞器(Tokenizer)。分詞器(Tokenizer)會(huì)做以下幾件事情(此過程稱為Tokenize)： 1.將文檔分成一個(gè)一個(gè)單獨(dú)的單詞。 2.去除標(biāo)點(diǎn)符號(hào)。 3.去除停詞所謂停詞就是一種語言中最普通的一些單詞，由于沒有特別的意義，因而大多數(shù) 情況下不能成為搜索的關(guān)鍵詞，因而創(chuàng)建索引時(shí)，這種詞會(huì)被去掉而減少索引的大小。英語中停詞(Stop word)如：“the”,“a”，“this”等。對(duì)于每一種語言的分詞組件(Tokenizer)，都有一個(gè)停詞(stop word)集合經(jīng)過分詞(Tokenizer)后得到的結(jié)果稱為詞元(Token).第三步：將得到的詞元(Token)傳給語言處理組件(Linguistic Processor)。語言處理組件(linguistic processor)主要是對(duì)得到的詞元(Token)做一些同語言相關(guān)的處理。對(duì)于英語，語言處理組件(Linguistic Processor)一般做以下幾點(diǎn)：1.變?yōu)樾?Lowercase)2.將單詞縮減為詞根形式，這種操作稱為：stemming.3.將單詞轉(zhuǎn)變?yōu)樵~根形式，這種操作稱為：lemmatization.Stemming 和 lemmatization的異同：相同之處：Stemming和lemmatization都要使詞匯成為詞根形式。兩者的方式不同：Stemming采用的是“縮減”的方式Lemmatization采用的是“轉(zhuǎn)變”：Stemming主要是采取某種固定的算法來做這種縮減Lemmatization主要是采用保存某種字典的方式做這種轉(zhuǎn)變。Stemming和lemmatization不是互斥關(guān)系，(linguistic processor)的結(jié)果稱為詞(Term).也正是因?yàn)橛姓Z言處理的步驟，才能使搜索drove，而drive也能被搜索出來。第四步：將得到的詞(Term)傳給索引組件(Indexer)。索引組件(Indexer)主要做以下幾件事情：1. 利用得到的詞(Term)創(chuàng)建一個(gè)字典。2.對(duì)字典按字母順序進(jìn)行排序。 (Search)第一步：用戶輸入查詢語句。查詢語句同我們普通的語言一樣，也是有一定語法的。不同的查詢語句有不同的語法，如SQL語句就有一定的語法。查詢語句的語法根據(jù)全文檢索系統(tǒng)的實(shí)現(xiàn)而不同。最基本的有比如：AND, OR, NOT等。舉個(gè)例子，用戶輸入語句：lucene AND l

點(diǎn)擊復(fù)制文檔內(nèi)容

化學(xué)相關(guān)推薦

昆明理工大學(xué)學(xué)生社團(tuán)成立資料模板(修改)-資料下載頁

【總結(jié)】昆明理工大學(xué)××協(xié)會(huì)成立資料編號(hào)：＿＿行楷，小二，加粗昆明理工大學(xué)行楷，初號(hào)城市學(xué)院××協(xié)會(huì)成立資料二○年月昆明理工大學(xué)校級(jí)學(xué)生社團(tuán)成立申請(qǐng)表社團(tuán)名稱申請(qǐng)時(shí)間：社團(tuán)宗旨社團(tuán)性質(zhì)成員來源成立發(fā)起人活動(dòng)內(nèi)容指導(dǎo)老師

2025-08-01 21:34

昆明理工大學(xué)毛概總復(fù)習(xí)題(圖庫)-資料下載頁

【總結(jié)】第一章馬克思主義中國化的歷史進(jìn)程和理論成果一、單項(xiàng)選擇題，第一次鮮明地提出“馬克思主義中國化”的命題和任務(wù)的會(huì)議是，把毛澤東思想正式確立為黨的指導(dǎo)思想的會(huì)議是、中期、最本質(zhì)的特點(diǎn)是 C.“三個(gè)代表”重要思想 “建設(shè)有中

2025-04-29 06:59

昆明理工大學(xué)mbaypc公司磷酸鈣鹽產(chǎn)-資料下載頁

【總結(jié)】YPC公司磷酸鈣鹽產(chǎn)品市場(chǎng)推廣策劃預(yù)銷售實(shí)驗(yàn)研究開題報(bào)告論文選題的國內(nèi)外研究動(dòng)態(tài)及現(xiàn)狀一、管理實(shí)驗(yàn)的發(fā)展歷程?“實(shí)驗(yàn)是科學(xué)之母”，這是培根的一句至理名言。但長期以來，很多人都認(rèn)為，這里的科學(xué)僅僅指典型的自然科學(xué)，如物理學(xué)、化學(xué)、醫(yī)學(xué)等。持此觀點(diǎn)的人忽視了實(shí)驗(yàn)科學(xué)在心理學(xué)、經(jīng)濟(jì)學(xué)、管理學(xué)等諸多領(lǐng)域的廣泛運(yùn)用。其實(shí)一直以來，實(shí)驗(yàn)手段

2025-05-15 09:47

昆明理工大學(xué)mbaypc公司磷酸鈣鹽產(chǎn)-資料下載頁

2025-01-07 09:38

昆明理工大學(xué)92_隨機(jī)時(shí)間序列分析-資料下載頁

【總結(jié)】§隨機(jī)時(shí)間序列分析模型一、時(shí)間序列模型的基本概念及其適用性二、隨機(jī)時(shí)間序列模型的平穩(wěn)性條件三、隨機(jī)時(shí)間序列模型的識(shí)別四、隨機(jī)時(shí)間序列模型的估計(jì)五、隨機(jī)時(shí)間序列模型的檢驗(yàn)?經(jīng)典計(jì)量經(jīng)濟(jì)學(xué)模型與時(shí)間序列模型?確定性時(shí)間序列模型與隨機(jī)性時(shí)間序列模型一、時(shí)間序列模型的基本概念及其適用性1、時(shí)間

2025-01-07 09:32

昆明理工大學(xué)工程經(jīng)濟(jì)學(xué)_資金的時(shí)間價(jià)值與等值計(jì)算-資料下載頁

【總結(jié)】工程經(jīng)濟(jì)學(xué)?參考文獻(xiàn)?石振武,張斌主編.工程經(jīng)濟(jì)學(xué)，科學(xué)出版社，2023年12月?吳鋒,葉鋒主編.工程經(jīng)濟(jì)學(xué)，機(jī)械出版社，2023?黃有亮.工程經(jīng)濟(jì)學(xué)，東南大學(xué)出版社?黃渝祥.工程經(jīng)濟(jì)學(xué)，同濟(jì)大學(xué)出版社?杜葵.工程經(jīng)濟(jì)學(xué)，重慶大學(xué)出版社1第二章資金的時(shí)間價(jià)值與等

2025-01-05 22:29

昆明理工大學(xué)java期末考試題背完必過-資料下載頁

【總結(jié)】1在java中，數(shù)組的下標(biāo)是從（）開始的。a.以上說法都不對(duì)b.可以任意指定c.1d.01在Java中，n維數(shù)組只是n-1維數(shù)組的數(shù)組。對(duì)錯(cuò)誤2數(shù)組說明時(shí)系統(tǒng)并不會(huì)創(chuàng)建數(shù)組，因此不能訪問它的任何元素。對(duì)錯(cuò)誤2若已有定義“Strings=”Thisis”;”，則執(zhí)行語句“Stringt=(”S

2025-03-25 03:34

昆明理工大學(xué)20xx年職業(yè)規(guī)劃大賽-資料下載頁

【總結(jié)】2008年昆明理工大學(xué)職業(yè)規(guī)劃大賽作者：郝雄

2025-08-04 15:57

昆明理工大學(xué)馬克思試題(2012年5月)-資料下載頁

【總結(jié)】馬克思主義基本原理概論試題一、單項(xiàng)選擇題：1分/題，共40題。1、愛因斯坦指出：“哲學(xué)可以被認(rèn)為是全部科學(xué)之母”。這說明：A哲學(xué)是一切科學(xué)之科學(xué)B哲學(xué)對(duì)各門具體科學(xué)的研究具有指導(dǎo)作用C哲學(xué)與具體科學(xué)是整體與局部的關(guān)系D哲學(xué)是各門學(xué)科的知識(shí)基礎(chǔ)2、馬克思主義關(guān)于物質(zhì)范疇的正確理解是：A物質(zhì)是自然界中具體的物質(zhì)形態(tài)B物質(zhì)的唯一特性是它可以被感

2025-03-26 01:11

機(jī)械制造技術(shù)基礎(chǔ)昆明理工大學(xué)題庫及答案-資料下載頁

【總結(jié)】一、簡答題，減少復(fù)映的措施有哪些？誤差復(fù)映：指工件加工后仍然具有類似毛坯誤差的現(xiàn)象（形狀誤差、尺寸誤差、位置誤差）措施：多次走刀；提高工藝系統(tǒng)的剛度。？影響磨削燒傷的因素有哪些？磨削燒傷：當(dāng)被磨工件的表面層的溫度達(dá)到相變溫度以上時(shí)，表面金屬發(fā)生金相組織的變化，使表面層金屬強(qiáng)度硬度降低，并伴隨有殘余應(yīng)力的產(chǎn)生，甚至出現(xiàn)微觀裂紋的現(xiàn)象。影響因素：合理選擇磨削用量；

2025-06-22 04:46

昆明理工大學(xué)c語言程序的設(shè)計(jì)課后習(xí)題答案-資料下載頁

【總結(jié)】....昆明理工大學(xué)C語言程序設(shè)計(jì)課后習(xí)題答案第1章認(rèn)識(shí)C語言（一）、是非題。，但匯編語言和硬件平臺(tái)無關(guān)。。，不僅適合編寫應(yīng)用軟件，而且適于編寫系統(tǒng)軟件。

2025-06-23 20:03

昆明理工大學(xué)程序設(shè)計(jì)語言課程設(shè)計(jì)-資料下載頁

【總結(jié)】課程設(shè)計(jì)課程名稱：程序設(shè)計(jì)語言課程設(shè)計(jì)設(shè)計(jì)題目：萬年歷的設(shè)計(jì)通訊錄的設(shè)計(jì)學(xué)院：信息工程與自動(dòng)化學(xué)院專業(yè)：計(jì)算機(jī)科學(xué)與技術(shù)年級(jí)：2012級(jí)

2025-07-07 14:17

昆明理工大學(xué)學(xué)生手冊(cè)考試提綱[試題]-資料下載頁

【總結(jié)】2、學(xué)生未經(jīng)請(qǐng)假逾期個(gè)工作日不注冊(cè)者，又無正當(dāng)事由的，取消其注冊(cè)資格。不能如期注冊(cè)者，應(yīng)當(dāng)履行。10，向?qū)W院申請(qǐng)辦理暫緩注冊(cè)手續(xù)3、1、學(xué)生所修的課程均須進(jìn)行考核，考核分為和兩種形式?？荚嚒⒖疾槔ッ骼砉ご髮W(xué)學(xué)生手冊(cè)考試提綱1、學(xué)生所修的課程均須進(jìn)行考核，考核分為和兩種形式?？荚嚒⒖疾?、學(xué)生未經(jīng)請(qǐng)假逾期個(gè)工作日不

2024-10-21 21:40

[教學(xué)]昆明理工大學(xué)學(xué)生手冊(cè)考試提綱-資料下載頁

【總結(jié)】2、學(xué)生未經(jīng)請(qǐng)假逾期個(gè)工作日不注冊(cè)者，又無正當(dāng)事由的，取消其注冊(cè)資格。不能如期注冊(cè)者，應(yīng)當(dāng)履行。10，向?qū)W院申請(qǐng)辦理暫緩注冊(cè)手續(xù)3、1、學(xué)生所修的課程均須進(jìn)行考核，考核分為和兩種形式。考試、考查昆明理工大學(xué)學(xué)生手冊(cè)考試提綱1、學(xué)生所修的課程均須進(jìn)行考核，考核分為和兩種形式。考試、考查2、學(xué)生未經(jīng)請(qǐng)假逾期個(gè)工作日不

2024-10-13 08:45

昆明理工大學(xué)計(jì)量經(jīng)濟(jì)學(xué)練習(xí)題-資料下載頁

【總結(jié)】1、經(jīng)濟(jì)計(jì)量學(xué)的研究步驟有哪些？一、模型設(shè)定：依據(jù)一定的經(jīng)濟(jì)理論或經(jīng)驗(yàn)，先驗(yàn)地用一個(gè)或一組數(shù)學(xué)方程式表示被研究系統(tǒng)內(nèi)經(jīng)濟(jì)變量之間的關(guān)系。1、研究有關(guān)經(jīng)濟(jì)理論；2、確定變量以及函數(shù)形式；3、統(tǒng)計(jì)數(shù)據(jù)的收集與整理二、參數(shù)估計(jì)：參數(shù)估計(jì)的方法主要有一般最小平方法（OLS）及其拓展形式（GLS、WLS、2StageLS等）、最大似然估計(jì)法、數(shù)值計(jì)算法等。三、模型檢驗(yàn)1、經(jīng)濟(jì)意義準(zhǔn)

2025-03-25 03:34

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

昆明理工大學(xué)-web服務(wù)與分布式計(jì)算-期末報(bào)告--文庫吧

昆明理工大學(xué)學(xué)生社團(tuán)成立資料模板(修改)-資料下載頁

昆明理工大學(xué)毛概總復(fù)習(xí)題(圖庫)-資料下載頁

昆明理工大學(xué)mbaypc公司磷酸鈣鹽產(chǎn)-資料下載頁

昆明理工大學(xué)mbaypc公司磷酸鈣鹽產(chǎn)-資料下載頁

昆明理工大學(xué)92_隨機(jī)時(shí)間序列分析-資料下載頁

昆明理工大學(xué)工程經(jīng)濟(jì)學(xué)_資金的時(shí)間價(jià)值與等值計(jì)算-資料下載頁

昆明理工大學(xué)java期末考試題背完必過-資料下載頁

昆明理工大學(xué)20xx年職業(yè)規(guī)劃大賽-資料下載頁

昆明理工大學(xué)馬克思試題(2012年5月)-資料下載頁

機(jī)械制造技術(shù)基礎(chǔ)昆明理工大學(xué)題庫及答案-資料下載頁

昆明理工大學(xué)c語言程序的設(shè)計(jì)課后習(xí)題答案-資料下載頁

昆明理工大學(xué)程序設(shè)計(jì)語言課程設(shè)計(jì)-資料下載頁

昆明理工大學(xué)學(xué)生手冊(cè)考試提綱[試題]-資料下載頁

[教學(xué)]昆明理工大學(xué)學(xué)生手冊(cè)考試提綱-資料下載頁

昆明理工大學(xué)計(jì)量經(jīng)濟(jì)學(xué)練習(xí)題-資料下載頁

昆明理工大學(xué)-web服務(wù)與分布式計(jì)算-期末報(bào)告--全文預(yù)覽

昆明理工大學(xué)-web服務(wù)與分布式計(jì)算-期末報(bào)告--預(yù)覽頁

昆明理工大學(xué)-web服務(wù)與分布式計(jì)算-期末報(bào)告--免費(fèi)閱讀

昆明理工大學(xué)-web服務(wù)與分布式計(jì)算-期末報(bào)告-(存儲(chǔ)版)

昆明理工大學(xué)-web服務(wù)與分布式計(jì)算-期末報(bào)告--文庫吧在線文庫