freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

計(jì)算所軟件室trec-11報(bào)告(編輯修改稿)

2025-02-01 16:01 本頁面
 

【文章內(nèi)容簡介】 g 主要算法 Adaptive filtering ? 在 tf*idf模型的實(shí)現(xiàn)上由原來的 tf*log(N/n)改為log(tf)*log(N/n) ? Profile Initializing ? 3 positive samples + 適當(dāng)比例的 Topic + 根據(jù)前兩者從訓(xùn)練集中篩選出來的適量偽正例。 ? Threshold: 通過經(jīng)驗(yàn)和訓(xùn)練確定初始值,在反饋過程中調(diào)整。 ? Profile Adaptation ? Optimization for two Measurement functions ? Rocchio反饋算法 : Pn+1=Pn+a*Dpos+b*Dneg +b’*Dund TREC10 filtering存在問題 大集合結(jié)果好,小集合結(jié)果很差,零太多 優(yōu)化方法太簡單 特征選擇有待改進(jìn) 是否嘗試語義特征項(xiàng)? TREC11 filtering算法的改進(jìn) 改進(jìn)了原來的互信息特征選擇算法,在整個(gè)訓(xùn)練集上計(jì)算各個(gè) topic的特征詞,由 3個(gè)種子和適量的擴(kuò)展文檔組成 “ 相關(guān)文檔集 ” ,訓(xùn)練集中剩下的文檔作為 “ 不相關(guān)文檔集 ” 。 鑒于 TREC11的 topic改為 TREC風(fēng)格后,原來的特征選擇算法幾乎失效,故最后直接用 3個(gè)種子,原始 topic和擴(kuò)展產(chǎn)生的偽相關(guān)文檔按照一定的比例混合構(gòu)成原始的 profile。 改進(jìn)了原來的針對(duì) TREC目標(biāo)函數(shù)的優(yōu)化算法,引入了局部最優(yōu)策略,追求各個(gè)反饋區(qū)間的局部最優(yōu)值來達(dá)到全局的最優(yōu)值;同時(shí)盡量避免 ‘ 0’返回的出現(xiàn)。 對(duì)小樣本訓(xùn)練集進(jìn)行優(yōu)化處理:根據(jù)擴(kuò)展時(shí)偽相關(guān)文檔數(shù)的多少?zèng)Q定是否應(yīng)擴(kuò)大 “ 正例樣本集 ” ,小于某一閾值的樣本集將被復(fù)制若干遍。 TREC11改進(jìn)算法在 TREC10上的實(shí)驗(yàn) 實(shí)驗(yàn)結(jié)果表明,改進(jìn)的特征選擇算法略好于舊的特征選擇算法,并且可以控制小樣本訓(xùn)練集的優(yōu)化。二者結(jié)合的結(jié)果由原來的 ,約提高 6%。 局部最優(yōu)策略的引入是成功的,可進(jìn)一步使結(jié)果由 ,約提高 23%。 TREC11跟 TREC10 filtering的差別 Topic形式由 Reuters類別變?yōu)?TREC格式,數(shù)目由 84個(gè)增加到 100個(gè),每個(gè) topic的已知正例數(shù)目由 2個(gè)變?yōu)?3個(gè)。 不再給出訓(xùn)練 /測(cè)試集合中的全部正反例答案,改為只給出部分正例和反例,訓(xùn)練 /測(cè)試集合中的其他文檔將作為未判定文檔對(duì)待。即過濾過程中的反饋是不充分的。 U目標(biāo)函數(shù)的歸一化方法有所變化,相同的 U值歸一化后 T11SU約為 T10SU的兩倍。 TREC11 filtering的主要困難 由于測(cè)試集合的標(biāo)準(zhǔn)答案只給出一部分,因而過濾時(shí)繼續(xù)使用原來的優(yōu)化策略無法獲得充分的反饋信息; 已知的部分答案在整個(gè)測(cè)試集合中所占的比例無法得知,因而不能控制未判定文檔(undetermined)的返回比例,從而無從把握最終返回文檔的數(shù)量。 原來的優(yōu)化策略有些可能不再適用,需要重新修正。 TREC11 filtering的反饋試驗(yàn) (1) 鑒于已知正反例答案的不完全性,我們已經(jīng)嘗試了 3種方法控制過濾反饋的效用: ( 1)通過正例 /反例的相對(duì)比例來調(diào)節(jié)過濾閾值,即不考慮返回結(jié)果中的未判定文檔。 ? 缺點(diǎn):不能保證在已知正反例構(gòu)成的小集合上很好的結(jié)果可以推廣到整個(gè)測(cè)試集合上,取決于各個(gè) topic的實(shí)際相關(guān)文檔在整個(gè)測(cè)試集上的具體分布情況。 TREC11 filtering的反饋試驗(yàn) (2) ( 2)利用過濾時(shí)獲得的正反例信息構(gòu)造正例中心和反例中心,再用正反例中心分割未判定文檔,形成偽正例 /偽反例集合,從而模擬出已知整個(gè)測(cè)試集的正反例答案的情況,這使得 TREC10的優(yōu)化策略可以繼續(xù)使用。 ? 優(yōu)點(diǎn):返回文檔的數(shù)量較多,當(dāng)實(shí)際相關(guān)文檔較多時(shí)有優(yōu)勢(shì)。 ? 缺點(diǎn):正反例中心的初值似乎對(duì)未判定文檔的分類影響很大,目前還沒有找到較好的構(gòu)造方法。 TREC11 filtering的反饋試驗(yàn) (3) ( 3)假定測(cè)試集合中已知的相關(guān)文檔足夠多,據(jù)此把過濾時(shí)遇到的未判定文檔大部或者全部作為反例文檔對(duì)待。 ? 優(yōu)點(diǎn):可以有效控制返回文檔的數(shù)量。 ? 缺點(diǎn):不能保證假設(shè)成立,當(dāng)實(shí)際相關(guān)文檔確實(shí)較少時(shí)有優(yōu)勢(shì);但是當(dāng)實(shí)際相關(guān)文檔集合較已知正例答案大很多時(shí),損失也大。 TREC11 filtering最終的反饋方案 TREC11 filtering mailing list的討論表明,方案三的假設(shè)比較合理。 根據(jù)以上實(shí)驗(yàn)結(jié)果的比較分析,最終確定以方案三為基礎(chǔ),經(jīng)過改進(jìn)后形成最終的反饋方案。 優(yōu)化方案仍采用局部最優(yōu)策略,然后針對(duì)未判定文檔的處理作相應(yīng)調(diào)整。 ICT TREC11 filtering的結(jié)果 Run ID MeanT11U T11U vs. median(topic nums) MeanT11F T11F vs. median(topic nums) (Best) = (Worst/Zero) (Best) = (Worst/Zero) ICTAdaFT11Ua 46(6) 3 1(0/0) 43(5) 0 7(2/2) ICTAdaFT11Ub 46(6) 3 1(0/0) 43(5) 0 7(2/2) ICTAdaFT11Uc 45(6) 3 2(0/0) 41(4) 0 9(2/2) ICTAdaFT11Fd 18(0) 2 30(3/3) 29(0) 2 19(2/2) Table 1 ICT TREC11 adaptive filtering結(jié)果 (50 Assessor topics) ICT TREC11 filtering的結(jié)果 Run ID MeanT11U T11U vs. median(topic nums) MeanT11F T11F vs. median(topic nums) (Best) = (Worst/Zero) (Best) = (Worst/Zero) ICTAdaFT11Ua 50(18) 0 0(0/0) 12(5) 32 6(6/6) ICTAdaFT11Ub 49(17) 0 1(1/1) 13(3) 31 6(6/6) ICTAdaFT11Uc 50(18) 0 0(0/0) 12(5) 32 6(6/6) ICTAdaFT11Fd 19(0) 7 24(3/3)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1