正文內(nèi)容

計算所軟件室trec-11報告(參考版)

2025-01-08 16:01本頁面

　　

【正文】 Topic Distillation結(jié)果 TREC11 Topic Distillation Resultthutd5pltr02wt2icttd1ibmhaifapruog05tadmercahuninedi5fduwt11t1mu525uamst02wttyedi01carrot2a pirc2wd2uic0104csiro02td1 tdwsdtfidf ajouai0210RUN IDP10Named Page Finding排名排名情況 (MMR 單位 RunID Doc Anchor Link) ? tsinghua thunp3 D A ? cmu lti lmralleq D A ? yonsei yenp01 D A L ? glasgow uog07cta D A ? neuchatel uninenp1 D A ? hummingbird hum02pd D ? chinese academy ictnp6 D A Named Page Finding結(jié)果 TREC11 Named Page Finding resultthunp3lmralleqyenp01uog07cta unitenp1hum02pdictnp6 iit02blitlinkmu106csiro02np01uip03 uwmtbw2uamst02wntlapltr02wt9 pirc2wnp1ajouai0204kuhpf0201RUN IDMRR結(jié)論取得了令人鼓舞的結(jié)果某些因素可能在一些新的任務中起確定性的作用我們可以在新的任務中大顯身手排名： ? Topic Distillation排名第三 (18) ? Named Page Finding排名第七 (19) 總結(jié)論和展望和應用相結(jié)合繼續(xù)跟蹤和交流明年繼續(xù)參加謝謝！。經(jīng)過分析，發(fā)現(xiàn)利用 URL發(fā)現(xiàn)的較好結(jié)果包括在利用 anchor text和結(jié)構(gòu)信息所得結(jié)果中，因此 URL分析沒有使用在今年的結(jié)果中。單獨使用鏈接文本檢索， homepage finding的 MRR值達到，略低于內(nèi)容檢索的結(jié)果。結(jié)果有所改善，但仍不能取得滿意的結(jié)果。鏈接分析試圖利用文檔之間的鏈接關系發(fā)現(xiàn)重要資源主要利用 HITS算法 (hub,authority) 原始算法存在缺陷，主要是計算結(jié)果存在 topic drift現(xiàn)象，不再和原主題緊密相關。由于超文本分析的復雜性，目前只使用了文檔的 title域。在 Wt10g上，topic 501550的一次檢索平均準確率為(去年的結(jié)果是，第一名是)，達到 OKAPI的水平；使用純內(nèi)容檢索得到的 homepage finding任務的結(jié)果的 MRR達到，超過上屆參加者使用內(nèi)容檢索得到的結(jié)果。組織形式：考慮到實際情況，以松散耦合的形式為主，系統(tǒng)的組成部分相對獨立，每一部分考慮一個單獨的因素，最后以線性組合的形式綜合考慮。對 50個 intersection topic效果不是很好，但是對于其中正確結(jié)果較多的 topic效果也還行。優(yōu)化方案仍采用局部最優(yōu)策略，然后針對未判定文檔的處理作相應調(diào)整。 TREC11 filtering最終的反饋方案 TREC11 filtering mailing list的討論表明，方案三的假設比較合理。 ? 優(yōu)點：可以有效控制返回文檔的數(shù)量。 ? 缺點：正反例中心的初值似乎對未判定文檔的分類影響很大，目前還沒有找到較好的構(gòu)造方法。 TREC11 filtering的反饋試驗 (2) （ 2）利用過濾時獲得的正反例信息構(gòu)造正例中心和反例中心，再用正反例中心分割未判定文檔，形成偽正例 /偽反例集合，從而模擬出已知整個測試集的正反例答案的情況，這使得 TREC10的優(yōu)化策略可以繼續(xù)使用。 TREC11 filtering的反饋試驗 (1) 鑒于已知正反例答案的不完全性，我們已經(jīng)嘗試了 3種方法控制過濾反饋的效用：（ 1）通過正例 /反例的相對比例來調(diào)節(jié)過濾閾值，即不考慮返回結(jié)果中的未判定文檔。 TREC11 filtering的主要困難由于測試集合的標準答案只給出一部分，因而過濾時繼續(xù)使用原來的優(yōu)化策略無法獲得充分的反饋信息；已知的部分答案在整個測試集合中所占的比例無法得知，因而不能控制未判定文檔(undetermined)的返回比例，從而無從把握最終返回文檔的數(shù)量。即過濾過程中的反饋是不充分的。 TREC11跟 TREC10 filtering的差別 Topic形式由 Reuters類別變?yōu)?TREC格式，數(shù)目由 84個增加到 100個，每個 topic的已知正例數(shù)目由 2個變?yōu)?3個。二者結(jié)合的結(jié)果由原來的，約提高 6%。對小樣本訓練集進行優(yōu)化處理：根據(jù)擴展時偽相關文檔數(shù)的多少決定是否應擴大 “ 正例樣本集 ” ，小于某一閾值的樣本集將被復制若干遍。鑒于 TREC11的 topic改為 TREC風格后，原來的特征選擇算法幾乎失效，故最后直接用 3個種子，原始 topic和擴展產(chǎn)生的偽相關文檔按照一定的比例混合構(gòu)成原始的 profile。 ? Threshold: 通過經(jīng)驗和訓練確定初始值，在反饋過程中調(diào)整。程序運行時間： TREC11約為 4小時， 20M/m (TREC10約為 ,主要是由于反饋量減少 ) Adaptive filtering 系統(tǒng)框架特征選擇用戶興趣 (Profile)初始化掃描文檔計算 Profile/文檔的相似度 Profile調(diào)整訓練集合相似度閾值？ Yes No 輸出結(jié)果文檔 Yes/No/不確定是否相關？ Filtering評估方法 Adaptive amp。 ? Testing Set： 720,000多文檔 ,大約 5G。 space travel amp。 ? 100個 topic統(tǒng)一處理，結(jié)果分別評測。 ? Training Set: 83,650篇文檔 ,~ ? Testing Set： 720,000多文檔 ,~ 子任務 ? Adaptive Filtering：每個 Topic只給出三個訓練正例 ? Batch Filtering：每個 Topic給出 Training Set中的所有正例Routing：同 Batch Filtering，但返回結(jié)果要排序應用場景個性化網(wǎng)絡信息推送敏感信息發(fā)現(xiàn) 網(wǎng)絡信息分類個人興趣的跟蹤 Topic集合 Topic ? assessor topics: 前 50(101150)個 topic為傳統(tǒng)的 TREC風格，是由 NIST的裁判員手工構(gòu)造的； ? intersection topics: 后 50(151200)個 topic由Reuters Corpus的若干個類別組合而成，叫做intersection topics，是自動構(gòu)造的。其他 track也有相應的公開評測工具第三部分 TREC11 主要任務介紹以及我們的工作目的、方法與結(jié)果 TREC11的所有 Tracks CLIR(Use English

點擊復制文檔內(nèi)容

教學課件相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

計算所軟件室trec-11報告(參考版)

計算所軟件室trec-11報告(參考版)

生態(tài)所金屬所自動化所計算所(參考版)

計算所1993軟基試題(參考版)

中科院計算所智能安全(參考版)

電子政務與計算所機新工程(參考版)

電子政務與計算所機新工程(ppt25頁)(參考版)

中科院計算所南側(cè)街邊綠地提升項目(參考版)

中科院計算所android開發(fā)技術培訓大綱(參考版)

張力液體的簡易計算所得稅(參考版)

[計算機]軟件文檔寫作11-管理文檔(參考版)

計算所的使命與研究生的責任漫談以人為本的科學發(fā)展觀(參考版)

[計算機]軟件研究室培訓c語言(參考版)

南京大學計算機軟件研究所(參考版)

[計算機軟件及應用]移動通信軟件編程基礎—java語言第11章(參考版)

[計算機軟件及應用]11-12操作程序(參考版)

計算所軟件室trec-11報告-資料下載頁

計算所軟件室trec-11報告(參考版)

計算所軟件室trec-11報告-文庫吧資料

計算所軟件室trec-11報告-展示頁

計算所軟件室trec-11報告-在線瀏覽