freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

計算所軟件室trec-11報告(編輯修改稿)

2025-02-01 16:01 本頁面
 

【文章內(nèi)容簡介】 g 主要算法 Adaptive filtering ? 在 tf*idf模型的實現(xiàn)上由原來的 tf*log(N/n)改為log(tf)*log(N/n) ? Profile Initializing ? 3 positive samples + 適當比例的 Topic + 根據(jù)前兩者從訓練集中篩選出來的適量偽正例。 ? Threshold: 通過經(jīng)驗和訓練確定初始值,在反饋過程中調(diào)整。 ? Profile Adaptation ? Optimization for two Measurement functions ? Rocchio反饋算法 : Pn+1=Pn+a*Dpos+b*Dneg +b’*Dund TREC10 filtering存在問題 大集合結(jié)果好,小集合結(jié)果很差,零太多 優(yōu)化方法太簡單 特征選擇有待改進 是否嘗試語義特征項? TREC11 filtering算法的改進 改進了原來的互信息特征選擇算法,在整個訓練集上計算各個 topic的特征詞,由 3個種子和適量的擴展文檔組成 “ 相關(guān)文檔集 ” ,訓練集中剩下的文檔作為 “ 不相關(guān)文檔集 ” 。 鑒于 TREC11的 topic改為 TREC風格后,原來的特征選擇算法幾乎失效,故最后直接用 3個種子,原始 topic和擴展產(chǎn)生的偽相關(guān)文檔按照一定的比例混合構(gòu)成原始的 profile。 改進了原來的針對 TREC目標函數(shù)的優(yōu)化算法,引入了局部最優(yōu)策略,追求各個反饋區(qū)間的局部最優(yōu)值來達到全局的最優(yōu)值;同時盡量避免 ‘ 0’返回的出現(xiàn)。 對小樣本訓練集進行優(yōu)化處理:根據(jù)擴展時偽相關(guān)文檔數(shù)的多少決定是否應(yīng)擴大 “ 正例樣本集 ” ,小于某一閾值的樣本集將被復(fù)制若干遍。 TREC11改進算法在 TREC10上的實驗 實驗結(jié)果表明,改進的特征選擇算法略好于舊的特征選擇算法,并且可以控制小樣本訓練集的優(yōu)化。二者結(jié)合的結(jié)果由原來的 ,約提高 6%。 局部最優(yōu)策略的引入是成功的,可進一步使結(jié)果由 ,約提高 23%。 TREC11跟 TREC10 filtering的差別 Topic形式由 Reuters類別變?yōu)?TREC格式,數(shù)目由 84個增加到 100個,每個 topic的已知正例數(shù)目由 2個變?yōu)?3個。 不再給出訓練 /測試集合中的全部正反例答案,改為只給出部分正例和反例,訓練 /測試集合中的其他文檔將作為未判定文檔對待。即過濾過程中的反饋是不充分的。 U目標函數(shù)的歸一化方法有所變化,相同的 U值歸一化后 T11SU約為 T10SU的兩倍。 TREC11 filtering的主要困難 由于測試集合的標準答案只給出一部分,因而過濾時繼續(xù)使用原來的優(yōu)化策略無法獲得充分的反饋信息; 已知的部分答案在整個測試集合中所占的比例無法得知,因而不能控制未判定文檔(undetermined)的返回比例,從而無從把握最終返回文檔的數(shù)量。 原來的優(yōu)化策略有些可能不再適用,需要重新修正。 TREC11 filtering的反饋試驗 (1) 鑒于已知正反例答案的不完全性,我們已經(jīng)嘗試了 3種方法控制過濾反饋的效用: ( 1)通過正例 /反例的相對比例來調(diào)節(jié)過濾閾值,即不考慮返回結(jié)果中的未判定文檔。 ? 缺點:不能保證在已知正反例構(gòu)成的小集合上很好的結(jié)果可以推廣到整個測試集合上,取決于各個 topic的實際相關(guān)文檔在整個測試集上的具體分布情況。 TREC11 filtering的反饋試驗 (2) ( 2)利用過濾時獲得的正反例信息構(gòu)造正例中心和反例中心,再用正反例中心分割未判定文檔,形成偽正例 /偽反例集合,從而模擬出已知整個測試集的正反例答案的情況,這使得 TREC10的優(yōu)化策略可以繼續(xù)使用。 ? 優(yōu)點:返回文檔的數(shù)量較多,當實際相關(guān)文檔較多時有優(yōu)勢。 ? 缺點:正反例中心的初值似乎對未判定文檔的分類影響很大,目前還沒有找到較好的構(gòu)造方法。 TREC11 filtering的反饋試驗 (3) ( 3)假定測試集合中已知的相關(guān)文檔足夠多,據(jù)此把過濾時遇到的未判定文檔大部或者全部作為反例文檔對待。 ? 優(yōu)點:可以有效控制返回文檔的數(shù)量。 ? 缺點:不能保證假設(shè)成立,當實際相關(guān)文檔確實較少時有優(yōu)勢;但是當實際相關(guān)文檔集合較已知正例答案大很多時,損失也大。 TREC11 filtering最終的反饋方案 TREC11 filtering mailing list的討論表明,方案三的假設(shè)比較合理。 根據(jù)以上實驗結(jié)果的比較分析,最終確定以方案三為基礎(chǔ),經(jīng)過改進后形成最終的反饋方案。 優(yōu)化方案仍采用局部最優(yōu)策略,然后針對未判定文檔的處理作相應(yīng)調(diào)整。 ICT TREC11 filtering的結(jié)果 Run ID MeanT11U T11U vs. median(topic nums) MeanT11F T11F vs. median(topic nums) (Best) = (Worst/Zero) (Best) = (Worst/Zero) ICTAdaFT11Ua 46(6) 3 1(0/0) 43(5) 0 7(2/2) ICTAdaFT11Ub 46(6) 3 1(0/0) 43(5) 0 7(2/2) ICTAdaFT11Uc 45(6) 3 2(0/0) 41(4) 0 9(2/2) ICTAdaFT11Fd 18(0) 2 30(3/3) 29(0) 2 19(2/2) Table 1 ICT TREC11 adaptive filtering結(jié)果 (50 Assessor topics) ICT TREC11 filtering的結(jié)果 Run ID MeanT11U T11U vs. median(topic nums) MeanT11F T11F vs. median(topic nums) (Best) = (Worst/Zero) (Best) = (Worst/Zero) ICTAdaFT11Ua 50(18) 0 0(0/0) 12(5) 32 6(6/6) ICTAdaFT11Ub 49(17) 0 1(1/1) 13(3) 31 6(6/6) ICTAdaFT11Uc 50(18) 0 0(0/0) 12(5) 32 6(6/6) ICTAdaFT11Fd 19(0) 7 24(3/3)
點擊復(fù)制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1