freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

計算所軟件室trec-11報告(參考版)

2025-01-08 16:01本頁面
  

【正文】 Topic Distillation結(jié)果 TREC11 Topic Distillation Resultthutd5pltr02wt2icttd1ibmhaifapruog05tadmercahuninedi5fduwt11t1mu525uamst02wttyedi01carrot2a pirc2wd2uic0104csiro02td1 tdwsdtfidf ajouai0210RUN IDP10Named Page Finding排名 排名情況 (MMR 單位 RunID Doc Anchor Link) ? tsinghua thunp3 D A ? cmu lti lmralleq D A ? yonsei yenp01 D A L ? glasgow uog07cta D A ? neuchatel uninenp1 D A ? hummingbird hum02pd D ? chinese academy ictnp6 D A Named Page Finding結(jié)果 TREC11 Named Page Finding resultthunp3lmralleqyenp01uog07cta unitenp1hum02pdictnp6 iit02blitlinkmu106csiro02np01uip03 uwmtbw2uamst02wntlapltr02wt9 pirc2wnp1ajouai0204kuhpf0201RUN IDMRR結(jié)論 取得了令人鼓舞的結(jié)果 某些因素可能在一些新的任務中起確定性的作用 我們可以在新的任務中大顯身手 排名: ? Topic Distillation排名第三 (18) ? Named Page Finding排名第七 (19) 總結(jié)論和展望 和應用相結(jié)合 繼續(xù)跟蹤和交流 明年繼續(xù)參加 謝謝! 。 經(jīng)過分析,發(fā)現(xiàn)利用 URL發(fā)現(xiàn)的較好結(jié)果包括在利用 anchor text和結(jié)構(gòu)信息所得結(jié)果中,因此 URL分析沒有使用在今年的結(jié)果中。 單獨使用鏈接文本檢索, homepage finding的 MRR值達到 ,略低于內(nèi)容檢索的結(jié)果。結(jié)果有所改善,但仍不能取得滿意的結(jié)果。 鏈接分析 試圖利用文檔之間的鏈接關系發(fā)現(xiàn)重要資源 主要利用 HITS算法 (hub,authority) 原始算法存在缺陷,主要是計算結(jié)果存在 topic drift現(xiàn)象,不再和原主題緊密相關。由于超文本分析的復雜性,目前只使用了文檔的 title域。在 Wt10g上,topic 501550的一次檢索平均準確率為(去年的結(jié)果是 ,第一名是),達到 OKAPI的水平;使用純內(nèi)容檢索得到的 homepage finding任務的結(jié)果的 MRR達到 ,超過上屆參加者使用內(nèi)容檢索得到的結(jié)果。 組織形式:考慮到實際情況,以松散耦合的形式為主,系統(tǒng)的組成部分相對獨立,每一部分考慮一個單獨的因素,最后以線性組合的形式綜合考慮。 對 50個 intersection topic效果不是很好,但是對于其中正確結(jié)果較多的 topic效果也還行。 優(yōu)化方案仍采用局部最優(yōu)策略,然后針對未判定文檔的處理作相應調(diào)整。 TREC11 filtering最終的反饋方案 TREC11 filtering mailing list的討論表明,方案三的假設比較合理。 ? 優(yōu)點:可以有效控制返回文檔的數(shù)量。 ? 缺點:正反例中心的初值似乎對未判定文檔的分類影響很大,目前還沒有找到較好的構(gòu)造方法。 TREC11 filtering的反饋試驗 (2) ( 2)利用過濾時獲得的正反例信息構(gòu)造正例中心和反例中心,再用正反例中心分割未判定文檔,形成偽正例 /偽反例集合,從而模擬出已知整個測試集的正反例答案的情況,這使得 TREC10的優(yōu)化策略可以繼續(xù)使用。 TREC11 filtering的反饋試驗 (1) 鑒于已知正反例答案的不完全性,我們已經(jīng)嘗試了 3種方法控制過濾反饋的效用: ( 1)通過正例 /反例的相對比例來調(diào)節(jié)過濾閾值,即不考慮返回結(jié)果中的未判定文檔。 TREC11 filtering的主要困難 由于測試集合的標準答案只給出一部分,因而過濾時繼續(xù)使用原來的優(yōu)化策略無法獲得充分的反饋信息; 已知的部分答案在整個測試集合中所占的比例無法得知,因而不能控制未判定文檔(undetermined)的返回比例,從而無從把握最終返回文檔的數(shù)量。即過濾過程中的反饋是不充分的。 TREC11跟 TREC10 filtering的差別 Topic形式由 Reuters類別變?yōu)?TREC格式,數(shù)目由 84個增加到 100個,每個 topic的已知正例數(shù)目由 2個變?yōu)?3個。二者結(jié)合的結(jié)果由原來的 ,約提高 6%。 對小樣本訓練集進行優(yōu)化處理:根據(jù)擴展時偽相關文檔數(shù)的多少決定是否應擴大 “ 正例樣本集 ” ,小于某一閾值的樣本集將被復制若干遍。 鑒于 TREC11的 topic改為 TREC風格后,原來的特征選擇算法幾乎失效,故最后直接用 3個種子,原始 topic和擴展產(chǎn)生的偽相關文檔按照一定的比例混合構(gòu)成原始的 profile。 ? Threshold: 通過經(jīng)驗和訓練確定初始值,在反饋過程中調(diào)整。 程序運行時間: TREC11約為 4小時, 20M/m (TREC10約為 ,主要是由于反饋量減少 ) Adaptive filtering 系統(tǒng)框架 特征選擇 用戶興趣 (Profile)初始化 掃描文檔 計算 Profile/文檔的相似度 Profile調(diào)整 訓練集合 相似度 閾值 ? Yes No 輸出結(jié)果文檔 Yes/No/不確定 是否相關 ? Filtering評估方法 Adaptive amp。 ? Testing Set: 720,000多文檔 ,大約 5G。 space travel amp。 ? 100個 topic統(tǒng)一處理,結(jié)果分別評測。 ? Training Set: 83,650篇文檔 ,~ ? Testing Set: 720,000多文檔 ,~ 子任務 ? Adaptive Filtering:每個 Topic只給出三個訓練正例 ? Batch Filtering:每個 Topic給出 Training Set中的所有正例Routing:同 Batch Filtering,但返回結(jié)果要排序 應用場景 個性化網(wǎng)絡信息推送 敏感信息發(fā)現(xiàn) 網(wǎng)絡信息分類 個人興趣的跟蹤 Topic集合 Topic ? assessor topics: 前 50(101150)個 topic為傳統(tǒng)的 TREC風格,是由 NIST的裁判員手工構(gòu)造的; ? intersection topics: 后 50(151200)個 topic由Reuters Corpus的若干個類別組合而成,叫做intersection topics,是自動構(gòu)造的。 其他 track也有相應的公開評測工具 第三部分 TREC11 主要任務介紹以及我們的工作 目的、方法與結(jié)果 TREC11的所有 Tracks CLIR(Use English
點擊復制文檔內(nèi)容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1