freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

[管理學]信息檢索課件東北大學(編輯修改稿)

2024-11-12 21:44 本頁面
 

【文章內容簡介】 ? 實際應用中顯得有些粗糙 – 為什么中頻詞好? – 兩個閾值怎么選??? ? 但是,這些思想為信息檢索系統(tǒng)中項的選取奠定了基礎 為什么中頻詞好 ? 簡單地把所有的詞匯都作為文獻的特征項,檢索效果并不很好 ? 不同的詞匯對文獻的表示作用不同 – 一般說來,常用詞在所有文獻中都有著較高的頻率,區(qū)分度低 – 罕用詞在文獻集中的出現次數較少,難以確定它們的統(tǒng)計規(guī)律,相關度低 – 而中等頻率的詞匯常常與文獻所表示的主題相關,區(qū)分度較高,表示能力最強,最有價值。 有價值的特征項 ? 有價值的特征項應具備以下特征: – 相關度 ? 與文獻內容有關,以便在需要時進行索引項的檢索 – 區(qū)分度 ? 能將一篇文獻與其它文獻區(qū)分開 ? 怎么度量 – 項頻率 tf(文獻內頻率) – 反比文獻頻率 idf( inverse document frequency) 項頻率 tf ? 一個項的重要性隨著它在文獻中的出現頻率的提高而提高 ? 我們應該采用某種依項的出現頻率單調遞增函數來估算權重 ? 項在文獻中出現的次數稱為項頻率( term frequency, tf),根據項頻率計算項的重要性的函數稱為項頻率因子,簡稱 tf因子。 常用的 tf因子 ? 原始 tf因子:直接用項頻率 tf作為 tf因子 ? 對數 tf因子: 1+ln(tf) ? 二元 tf因子:不考慮項頻率 tf,其值根據項是否在文獻中出現為 1或 0(出現時為 1,否則為 0)。 ? 改進的 tf因子: +*tf/文獻中的最大 tf ? 大規(guī)模的測試表明,對數 tf因子的效果最好 反比文獻頻率 idf ? 在許多篇文獻中出現的項的區(qū)分度小于僅在很少幾篇文獻中出現的項 – 這表明應該用一個依項在其中出現的文獻數目單調遞減函數來評估項的重要性 ? 基于這個原因,人們提出反比文獻頻率因子,簡稱 idf因子 – 一般用 log(N/nk)或各種變形來計算。 – 其中, N是文獻總數, nk是第 k個特征項在其中出現的文獻數,稱為項的文獻頻率 示例 示例 向量空間模型評價 ? 使用了更高級的數學工具,同樣清晰 ? 標引詞加權 ? 相似度有強弱之分 ? 可以排序 ? 結果數量可控 – top 10, top 20, … ? 布爾模型 ? 簡單,定義清晰 ? 相似度沒有強弱之分 ? 不排序 ? 可能會導致結果非常少或者非常多 向量空間模型評價 ? 項之間線性
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1