【正文】
doc 3 224。doc1 【按道理,tf為零的不應(yīng)該出現(xiàn)在倒排記錄中,有的也算對】insurance224。doc3224。doc2224。doc1 best 224。doc3224。doc1224。doc2第八章 信息檢索的評價習(xí)題 88 [*] 考慮一個有4篇相關(guān)文檔的信息需求,考察兩個系統(tǒng)的前10個檢索結(jié)果(左邊的結(jié)果排名靠前),相關(guān)性判定的情況如下所示:系統(tǒng)1 R N R N N N N N R R系統(tǒng)2 N R N N R R R N N Na. 計算兩個系統(tǒng)的MAP值并比較大小。b. 上述結(jié)果直觀上看有意義嗎?能否從中得出啟發(fā)如何才能獲得高的MAP得分?c. 計算兩個系統(tǒng)的R正確性值,并與a中按照MAP進行排序的結(jié)果進行對比。解答:a. 系統(tǒng)1 (1+2/3+3/9+4/10)/4= 系統(tǒng)2 (1/2+2/5+3/6+4/7)/4= b. 相關(guān)文檔出現(xiàn)得越靠前越好,最好前面35篇之內(nèi)c. 系統(tǒng)1的RPrecision= , 系統(tǒng)2 RPrecision= 習(xí)題 89 [**] 在10 000篇文檔構(gòu)成的文檔集中,某個查詢的相關(guān)文檔總數(shù)為8,下面給出了某系統(tǒng)針對該查詢的前20個有序結(jié)果的相關(guān)(用R表示)和不相關(guān)(用N表示)情況,其中有6篇相關(guān)文檔:R R N N N N N N R N R N N N R N N N N Ra. 前20篇文檔的正確率是多少?P@20=6/20=30%b. 前20篇文檔的F1值是多少?R@20=6/8=75%,F(xiàn)1=3/7=150c. 在25%召回率水平上的插值正確率是多少?1d. 在33%召回率水平上的插值正確率是多少?3/9=%e. 假定該系統(tǒng)所有返回的結(jié)果數(shù)目就是20,請計算其MAP值。(1+1+3/9+4/11+5/15+6/20)/8=假定該系統(tǒng)返回了所有的10 000篇文檔,上述20篇文檔只是結(jié)果中最靠前的20篇文檔,那么f. 該系統(tǒng)可能的最大MAP是多少?從第21位開始,接連兩篇相關(guān)文檔,此時可以獲得最大的MAP,此時有:(1+1+3/9+4/11+5/15+6/20+7/21+8/22)/8=g. 該系統(tǒng)可能的最小MAP是多少?(1+1+3/9+4/11+5/15+6/20+7/9999+8/10000)/8=h. 在一系列實驗中,只有最靠前的20篇文檔通過人工來判定,(e)的結(jié)果用于近似從(f)到(g)的MAP取值范圍。對于上例來說,通過(e)而不是(f)和(g)來計算MAP所造成的誤差有多大(采用絕對值來計算)? |(+)/2|=第九章 相關(guān)反饋及查詢擴展習(xí)題93:用戶查看了兩篇文檔d1 和 d2,并對這兩篇文檔進行了判斷:包含內(nèi)容CDs cheap software cheap CDs的文檔d1為相關(guān)文檔,而內(nèi)容為cheap thrills DVDs 的文檔d2為不相關(guān)文檔。假設(shè)直接使用詞項的頻率作為權(quán)重 (不進行歸一化也不加上文檔頻率因子),也不對向量進行長度歸一化。采用公式(93)進行Rocchio相關(guān)反饋,請問修改后的查詢向量是多少?其中α = 1,β = ,γ = 。解答: 習(xí)題94: Omar實現(xiàn)了一個帶相關(guān)反饋的Web搜索系統(tǒng),并且為了提高效率,系統(tǒng)只基于返回網(wǎng)頁的標(biāo)題文本進行相關(guān)反饋。用戶對結(jié)果進行判定,假定第一個用戶Jinxing的查詢是banana slug 返回的前三個網(wǎng)頁的標(biāo)題分別是:banana slug Ariolimax columbianus Santa Cruz mountains banana slug Santa Cruz Campus Mascot Jinxing認(rèn)為前兩篇文檔相關(guān),而第3篇文檔不相關(guān)。假定Omar的搜索引擎只基于詞項頻率(不包括長度歸一化因子和IDF因子)進行權(quán)重計算,并且假定使用Rocchio算法對原始查詢進行修改,其中α = β = γ = 1。請給出最終的查詢向量(按照字母順序依次列出每個詞項所對應(yīng)的分量)。 解答:第十章 XML檢索(無作業(yè))第十一章 概率檢索模型習(xí)題111 根據(jù)公式(1118)和公式(1119)推導(dǎo)出公式(1120)。 解答:代入求解即可。習(xí)題113 令Xt表示詞項t在文檔中出現(xiàn)與否的隨機變量。假定文檔集中有|R|篇相關(guān)文檔,其中有s篇文檔包含詞項t,即在這s篇文檔中Xt=1。假定所觀察到的數(shù)據(jù)就是這些Xt在文檔中的分布情況。請證明采用MLE估計方法對參數(shù)進行估計的結(jié)果,即使得觀察數(shù)據(jù)概率最大化的參數(shù)值為 pt = s/ |R|。 第十二章 基于語言建模的信息檢索模型習(xí)題123 習(xí)題123 例122中按照M1 和 M2 算出的文檔的似然比是多少? 解答:由于P(s|M1) = 000 000 000 48 ,P(s|M2) = 000 000 000 000 384,所以兩者的似然比是 習(xí)題126 [*] 考慮從如下訓(xùn)練文本中構(gòu)造LM: the martian has landed on the latin pop sensation ricky martin 請問:a. 在采用MLE估計的一元概率模型中,P(the)和P(martian)分別是多少?b. 在采用MLE估計的二元概率模型中,P(sensation|pop)和 P(pop|the)的概率是多少? 解答: a. P(the)=2/11, P(martian)=1/11b. P(sensation|pop)=1, P(pop|the)=0 習(xí)題 127 [**] 假定某文檔集由如下4篇文檔組成:文檔ID 文檔文本 1 2 3 4 click go the shears boys click click click click click metal here metal shears click here 為該文檔集建立一個查詢似然模型。假定采用文檔語言模型和文檔集語言模型的混合模型。采用MLE來估計兩個一元模型。 計算在查詢click、shears以及click shears下每篇文檔模型對應(yīng)的概率,并利用這些概率來對返回的文檔排序。將這些概率填在下表中。解答: 文檔及文檔集MLE估計 querydoc1 doc2 doc3 doc4 collection click 1/2 1 0 1/4 7/16 shears 1/8 0 0 1/4 2/16 于是,加權(quán)以后的估計結(jié)果 doc4 doc1doc2doc3第十三章 文本分類及樸素貝葉斯方法習(xí)題 132 [*] 表135中的文檔中,對于如下的兩種模型表示,哪些文檔具有相同的模型表示?哪些文檔具有不同的模型表示?對于不同的表示進行描述。(i) 貝努利模型,(ii) 多項式模型。 第十四章 基于向量空間模型的文本分類第十五章 支持向量機及文檔機器學(xué)習(xí)方法第十六章 扁平聚類第十七章 層次聚類第十八章 矩陣分解及隱性語義索引第十九章 Web搜索基礎(chǔ)第二十章 Web采集及索引第二十一章 鏈接分