freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡(luò)信息獲取與情報(bào)分析技術(shù)(七)(編輯修改稿)

2024-09-11 20:44 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 關(guān)性 Relevance 主觀的概念 反映對(duì)象的匹配程度 不同應(yīng)用相關(guān)性不同 18 典型的搜索過(guò)程 文檔集 任務(wù) 信息需求 查詢(xún) 自然語(yǔ)言描述 結(jié)果 搜索 引擎 查詢(xún) 重構(gòu) Get rid of mice in a politically correct way Info about removing mice without killing them How do I trap mice alive? mouse trap 是否轉(zhuǎn)義 ? 是否轉(zhuǎn)義 ? 是否轉(zhuǎn)義 ? 檢索效果的評(píng)價(jià) 正確率 (Precision) : 返回結(jié)果文檔中正確的比例。如返回 80篇文檔,其中 20篇相關(guān),正確率 1/4 召回率 (Recall) : 全部相關(guān)文檔中被返回的比例,如返回80篇文檔,其中 20篇相關(guān),但是總的應(yīng)該相關(guān)的文檔是100篇,召回率 1/5 正確率和召回率反映檢索效果的兩個(gè)方面,缺一不可。 全部返回,正確率低,召回率 100% 只返回一個(gè)非??煽康慕Y(jié)果,正確率 100%,召回率低 將在后面介紹 (有興趣的可以先看 ) 20 大文檔集 假定 N = 1 百萬(wàn)篇文檔 (1M), 每篇有 1000個(gè)詞 (1K) 假定每個(gè)詞平均有 6個(gè)字節(jié) (包括空格和標(biāo)點(diǎn)符號(hào) ) 那么所有文檔將約占 6GB 空間 . 假定 詞匯表的大小 (即詞項(xiàng)個(gè)數(shù) ) M = 500K 21 詞項(xiàng) 文檔矩陣將非常大 矩陣大小為 500K x 1M=500G 但是該矩陣中最多有 10億 (1G)個(gè) 1 詞項(xiàng) 文檔矩陣高度稀疏 (sparse). 稀疏矩陣 應(yīng)該有更好的表示方式 比如我們僅僅記錄所有 1的位置 22 Why? 倒排索引 (Inverted index) 對(duì)每個(gè)詞項(xiàng) t, 記錄所有包含 t的文檔列表 . 每篇文檔用一個(gè)唯一的 docID來(lái)表示,通常是正整數(shù),如 1,2,3… 能否采用定長(zhǎng)數(shù)組的方式來(lái)存儲(chǔ) docID列表 23 文檔 中加入單詞 時(shí)該如何處理倒排索引 (續(xù) ) 通常采用變長(zhǎng)表方式 磁盤(pán)上,順序存儲(chǔ)方式比較好,便于快速讀取 內(nèi)存中,采用鏈表或者可變長(zhǎng)數(shù)組方式 存儲(chǔ)空間 /易插入之間需要平衡 24 Dictionary Postings 按 排序 原因后面再講Posting Brutus Calpurnia Caesar 詞典倒排 記錄 表倒排記錄詞條流 Friends Romans Countrymen 倒排索引構(gòu)建 修改后的詞條 friend roman countryman 倒排索引friend roman countryman 待索引文檔 Friends, Romans, countrymen. 詞條化工具語(yǔ)言分析工具索引構(gòu)建過(guò)程 : 詞條序列 詞條, docID二元組 I did enact Julius Caesar I was killed i39。 the Capitol。 Brutus killed me. Doc 1 So let it be with
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1