正文內(nèi)容

計(jì)算所軟件室trec-11報(bào)告(編輯修改稿)

2025-02-01 16:01 本頁面

　

【文章內(nèi)容簡介】 g 主要算法 Adaptive filtering ? 在 tf*idf模型的實(shí)現(xiàn)上由原來的 tf*log(N/n)改為log(tf)*log(N/n) ? Profile Initializing ? 3 positive samples + 適當(dāng)比例的 Topic + 根據(jù)前兩者從訓(xùn)練集中篩選出來的適量偽正例。 ? Threshold: 通過經(jīng)驗(yàn)和訓(xùn)練確定初始值，在反饋過程中調(diào)整。 ? Profile Adaptation ? Optimization for two Measurement functions ? Rocchio反饋算法 : Pn+1=Pn+a*Dpos+b*Dneg +b’*Dund TREC10 filtering存在問題大集合結(jié)果好，小集合結(jié)果很差，零太多優(yōu)化方法太簡單特征選擇有待改進(jìn) 是否嘗試語義特征項(xiàng)？ TREC11 filtering算法的改進(jìn) 改進(jìn)了原來的互信息特征選擇算法，在整個(gè)訓(xùn)練集上計(jì)算各個(gè) topic的特征詞，由 3個(gè)種子和適量的擴(kuò)展文檔組成 “ 相關(guān)文檔集 ” ，訓(xùn)練集中剩下的文檔作為 “ 不相關(guān)文檔集 ” 。鑒于 TREC11的 topic改為 TREC風(fēng)格后，原來的特征選擇算法幾乎失效，故最后直接用 3個(gè)種子，原始 topic和擴(kuò)展產(chǎn)生的偽相關(guān)文檔按照一定的比例混合構(gòu)成原始的 profile。改進(jìn)了原來的針對(duì) TREC目標(biāo)函數(shù)的優(yōu)化算法，引入了局部最優(yōu)策略，追求各個(gè)反饋區(qū)間的局部最優(yōu)值來達(dá)到全局的最優(yōu)值；同時(shí)盡量避免 ‘ 0’返回的出現(xiàn)。對(duì)小樣本訓(xùn)練集進(jìn)行優(yōu)化處理：根據(jù)擴(kuò)展時(shí)偽相關(guān)文檔數(shù)的多少?zèng)Q定是否應(yīng)擴(kuò)大 “ 正例樣本集 ” ，小于某一閾值的樣本集將被復(fù)制若干遍。 TREC11改進(jìn)算法在 TREC10上的實(shí)驗(yàn) 實(shí)驗(yàn)結(jié)果表明，改進(jìn)的特征選擇算法略好于舊的特征選擇算法，并且可以控制小樣本訓(xùn)練集的優(yōu)化。二者結(jié)合的結(jié)果由原來的，約提高 6%。局部最優(yōu)策略的引入是成功的，可進(jìn)一步使結(jié)果由，約提高 23%。 TREC11跟 TREC10 filtering的差別 Topic形式由 Reuters類別變?yōu)?TREC格式，數(shù)目由 84個(gè)增加到 100個(gè)，每個(gè) topic的已知正例數(shù)目由 2個(gè)變?yōu)?3個(gè)。不再給出訓(xùn)練 /測試集合中的全部正反例答案，改為只給出部分正例和反例，訓(xùn)練 /測試集合中的其他文檔將作為未判定文檔對(duì)待。即過濾過程中的反饋是不充分的。 U目標(biāo)函數(shù)的歸一化方法有所變化，相同的 U值歸一化后 T11SU約為 T10SU的兩倍。 TREC11 filtering的主要困難由于測試集合的標(biāo)準(zhǔn)答案只給出一部分，因而過濾時(shí)繼續(xù)使用原來的優(yōu)化策略無法獲得充分的反饋信息；已知的部分答案在整個(gè)測試集合中所占的比例無法得知，因而不能控制未判定文檔(undetermined)的返回比例，從而無從把握最終返回文檔的數(shù)量。原來的優(yōu)化策略有些可能不再適用，需要重新修正。 TREC11 filtering的反饋試驗(yàn) (1) 鑒于已知正反例答案的不完全性，我們已經(jīng)嘗試了 3種方法控制過濾反饋的效用：（ 1）通過正例 /反例的相對(duì)比例來調(diào)節(jié)過濾閾值，即不考慮返回結(jié)果中的未判定文檔。 ? 缺點(diǎn)：不能保證在已知正反例構(gòu)成的小集合上很好的結(jié)果可以推廣到整個(gè)測試集合上，取決于各個(gè) topic的實(shí)際相關(guān)文檔在整個(gè)測試集上的具體分布情況。 TREC11 filtering的反饋試驗(yàn) (2) （ 2）利用過濾時(shí)獲得的正反例信息構(gòu)造正例中心和反例中心，再用正反例中心分割未判定文檔，形成偽正例 /偽反例集合，從而模擬出已知整個(gè)測試集的正反例答案的情況，這使得 TREC10的優(yōu)化策略可以繼續(xù)使用。 ? 優(yōu)點(diǎn)：返回文檔的數(shù)量較多，當(dāng)實(shí)際相關(guān)文檔較多時(shí)有優(yōu)勢。 ? 缺點(diǎn)：正反例中心的初值似乎對(duì)未判定文檔的分類影響很大，目前還沒有找到較好的構(gòu)造方法。 TREC11 filtering的反饋試驗(yàn) (3) （ 3）假定測試集合中已知的相關(guān)文檔足夠多，據(jù)此把過濾時(shí)遇到的未判定文檔大部或者全部作為反例文檔對(duì)待。 ? 優(yōu)點(diǎn)：可以有效控制返回文檔的數(shù)量。 ? 缺點(diǎn)：不能保證假設(shè)成立，當(dāng)實(shí)際相關(guān)文檔確實(shí)較少時(shí)有優(yōu)勢；但是當(dāng)實(shí)際相關(guān)文檔集合較已知正例答案大很多時(shí)，損失也大。 TREC11 filtering最終的反饋方案 TREC11 filtering mailing list的討論表明，方案三的假設(shè)比較合理。根據(jù)以上實(shí)驗(yàn)結(jié)果的比較分析，最終確定以方案三為基礎(chǔ)，經(jīng)過改進(jìn)后形成最終的反饋方案。優(yōu)化方案仍采用局部最優(yōu)策略，然后針對(duì)未判定文檔的處理作相應(yīng)調(diào)整。 ICT TREC11 filtering的結(jié)果 Run ID MeanT11U T11U vs. median(topic nums) MeanT11F T11F vs. median(topic nums) (Best) = (Worst/Zero) (Best) = (Worst/Zero) ICTAdaFT11Ua 46(6) 3 1(0/0) 43(5) 0 7(2/2) ICTAdaFT11Ub 46(6) 3 1(0/0) 43(5) 0 7(2/2) ICTAdaFT11Uc 45(6) 3 2(0/0) 41(4) 0 9(2/2) ICTAdaFT11Fd 18(0) 2 30(3/3) 29(0) 2 19(2/2) Table 1 ICT TREC11 adaptive filtering結(jié)果 (50 Assessor topics) ICT TREC11 filtering的結(jié)果 Run ID MeanT11U T11U vs. median(topic nums) MeanT11F T11F vs. median(topic nums) (Best) = (Worst/Zero) (Best) = (Worst/Zero) ICTAdaFT11Ua 50(18) 0 0(0/0) 12(5) 32 6(6/6) ICTAdaFT11Ub 49(17) 0 1(1/1) 13(3) 31 6(6/6) ICTAdaFT11Uc 50(18) 0 0(0/0) 12(5) 32 6(6/6) ICTAdaFT11Fd 19(0) 7 24(3/3)

點(diǎn)擊復(fù)制文檔內(nèi)容

教學(xué)課件相關(guān)推薦

短路電流及其計(jì)算(11)-資料下載頁

【總結(jié)】2021/6/17第三章短路電流及其計(jì)算2021/6/17歐姆法標(biāo)幺值法短路容量法如果各種電氣設(shè)備的電阻和電抗及其它電氣參數(shù)用短路容量表示，稱短路容量法。如果各種電氣設(shè)備的電阻和電抗及其它電氣參數(shù)用相對(duì)值表示，稱標(biāo)幺值法。如果各種電氣設(shè)備的電阻和電抗及其它電氣參數(shù)用有名值即有單位的值表示，稱有歐姆法，也稱名值法。

2025-05-11 01:29

[計(jì)算機(jī)軟件及應(yīng)用]第11章數(shù)據(jù)庫的安全管理-資料下載頁

【總結(jié)】AnIntroductiontoDatabaseSystems蚌埠學(xué)院ComputerScienceandtechnology2021SQLServer數(shù)據(jù)庫應(yīng)用AnIntroductiontoDatabaseSystems2/80第11章數(shù)據(jù)庫的安全管理概述登錄賬號(hào)管理數(shù)據(jù)庫用戶

2025-10-10 04:11

[計(jì)算機(jī)]軟件測試基礎(chǔ)-資料下載頁

【總結(jié)】軟件測試基礎(chǔ)軟件測試概述隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展和廣泛深入的應(yīng)用，軟件產(chǎn)品的質(zhì)量自然成為人們共同關(guān)注的焦點(diǎn)。而軟件是由人來完成的，其做的工作不會(huì)是完美無缺的，所以有錯(cuò)就成為軟件的屬性，而且是無法改變的。給軟件帶來錯(cuò)誤的原因很多，主要有以下幾點(diǎn)：1.交流不夠、交流上有誤解或者根本不進(jìn)行交流；2.軟件復(fù)雜性；3.程序設(shè)計(jì)

2025-10-10 03:54

[計(jì)算機(jī)軟件及應(yīng)用]軟件詳細(xì)設(shè)計(jì)-資料下載頁

【總結(jié)】周蘇教授QQ:81505050軟件工程學(xué)教程第二版第5章軟件詳細(xì)設(shè)計(jì)?結(jié)構(gòu)化構(gòu)造?圖形設(shè)計(jì)工具?偽碼與程序設(shè)計(jì)語言(PDL)?各種詳細(xì)設(shè)計(jì)工具的比較?詳細(xì)設(shè)計(jì)文件與復(fù)審第5章軟件詳細(xì)設(shè)計(jì)?概要設(shè)計(jì)完成了程序的總體結(jié)構(gòu)設(shè)計(jì)，規(guī)定了各個(gè)模塊的功能及各模塊之

2025-03-22 02:03

軟件工程導(dǎo)論第11章-資料下載頁

【總結(jié)】第11章面向?qū)ο笤O(shè)計(jì)面向?qū)ο笤O(shè)計(jì)的準(zhǔn)則1.模塊化面向?qū)ο蟮能浖_發(fā)模式，支持了系統(tǒng)模塊化的原則：對(duì)象就是模塊。它把數(shù)據(jù)結(jié)構(gòu)和操作（方法）緊密地結(jié)合在一起構(gòu)成模塊。2.抽象類實(shí)際上是一種抽象數(shù)據(jù)類型，它對(duì)外開放的公共接口構(gòu)成了類的規(guī)格說明（協(xié)議），這種接口規(guī)定了外界可以使用的

2025-09-11 21:48

[計(jì)算機(jī)軟件及應(yīng)用]第5章計(jì)算機(jī)軟件-資料下載頁

【總結(jié)】信息系統(tǒng)基礎(chǔ)第5章計(jì)算機(jī)軟件第5章計(jì)算機(jī)軟件?計(jì)算機(jī)語言?程序設(shè)計(jì)與算法?操作系統(tǒng)概述?典型操作系統(tǒng)介紹?典型應(yīng)用軟件介紹計(jì)算機(jī)語言?計(jì)算機(jī)語言及其發(fā)展?定義：計(jì)算機(jī)語言就是計(jì)算機(jī)能讀懂的語言，是人與計(jì)算機(jī)通信所使用的語言，即我們通常所說的程序設(shè)計(jì)語言。?發(fā)

2025-10-07 23:20

[計(jì)算機(jī)軟件及應(yīng)用]計(jì)算機(jī)-資料下載頁

【總結(jié)】中文word功能：文檔管理功能：建立、搜索、保存、加密、恢復(fù)編輯功能：輸入、自動(dòng)更正、簡繁轉(zhuǎn)換、查找、替換排版功能：字體、段落、頁面表格處理：建立、編輯、格式化、統(tǒng)計(jì)、排序等圖形處理：建立、插入、編輯、格式化、圖文混排高級(jí)功能：建立目錄、郵件合并標(biāo)題欄菜單欄常用工具欄文字編輯區(qū)

2025-10-10 04:20

重積分的計(jì)算法(11)-資料下載頁

【總結(jié)】機(jī)動(dòng)目錄上頁下頁返回結(jié)束1一、利用極坐標(biāo)計(jì)算二重積分二、小結(jié)思考題第二節(jié)二重積分的計(jì)算法(２)機(jī)動(dòng)目錄上頁下頁返回結(jié)束2AoDi??irr?iirrr???ii??????i???iiiiiirrr????????????22

2025-05-10 22:22

計(jì)算機(jī)軟件概述ppt課件-資料下載頁

【總結(jié)】第3章計(jì)算機(jī)軟件概述操作系統(tǒng)算法與程序設(shè)計(jì)軟件概述1.什么是計(jì)算機(jī)軟件2.計(jì)算機(jī)軟件的特性3.計(jì)算機(jī)軟件的分類3計(jì)算機(jī)軟件概述什么是計(jì)算機(jī)軟件4計(jì)算機(jī)軟件概述計(jì)算機(jī)系統(tǒng)=硬件+軟件計(jì)算機(jī)系統(tǒng)計(jì)算機(jī)硬件計(jì)算機(jī)軟件運(yùn)算器控制器

2025-05-12 13:15

計(jì)算機(jī)軟件基礎(chǔ)ppt課件-資料下載頁

【總結(jié)】下一頁計(jì)算機(jī)軟件基礎(chǔ)Thesoftwarebasicofputer主講：趙英良西安交通大學(xué)計(jì)算機(jī)教學(xué)實(shí)驗(yàn)中心第8單元操作系統(tǒng)基礎(chǔ)下一頁上一頁停止放映第2頁第一部分：操作系統(tǒng)基本概念計(jì)算機(jī)系統(tǒng)=計(jì)算機(jī)硬件+計(jì)算機(jī)軟件計(jì)算機(jī)硬件是構(gòu)成計(jì)算機(jī)系

2025-05-12 13:15

計(jì)算機(jī)軟件系統(tǒng)ppt課件-資料下載頁

【總結(jié)】1軟件行業(yè)相關(guān)的職業(yè)?軟件工程師?程序員?軟件測試工程師?計(jì)算機(jī)軟件產(chǎn)品檢驗(yàn)員?程序調(diào)試工程師?構(gòu)架工程師2第4章計(jì)算機(jī)軟件系統(tǒng)軟件的性質(zhì)及發(fā)展史操作系統(tǒng)應(yīng)用軟件程序設(shè)計(jì)語言與語言處理軟件工程及其標(biāo)準(zhǔn)3計(jì)算機(jī)軟件概述對(duì)計(jì)算機(jī)軟件的

2025-01-17 19:38

計(jì)算機(jī)二級(jí)辦公室軟件概述-資料下載頁

【總結(jié)】目錄第1章Word高級(jí)應(yīng)用正文排版---------------------------------------------------------------------------------------2分節(jié)、目錄---------------------------------------------------------------------------

2025-06-27 06:07

[計(jì)算機(jī)軟件及應(yīng)用]軟件簡介_lh-資料下載頁

【總結(jié)】CTM課程實(shí)驗(yàn)軟件簡介本課程上機(jī)實(shí)驗(yàn)使用兩個(gè)地理信息系統(tǒng)軟件進(jìn)行專題地圖編制的練習(xí)?MapInfo?ArcGIS一、MapInfo軟件介紹MapInfo是美國MapInfo公司開發(fā)的桌面工具型地理信息系統(tǒng)軟件它是一套強(qiáng)大的基于Windows平臺(tái)的地理信息系統(tǒng)軟件，使用它可方便、直觀地展現(xiàn)數(shù)據(jù)與地理信息的關(guān)系。MapInfo

2025-02-21 00:40

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

計(jì)算所軟件室trec-11報(bào)告(編輯修改稿)

短路電流及其計(jì)算(11)-資料下載頁

[計(jì)算機(jī)軟件及應(yīng)用]第11章數(shù)據(jù)庫的安全管理-資料下載頁

[計(jì)算機(jī)]軟件測試基礎(chǔ)-資料下載頁

[計(jì)算機(jī)軟件及應(yīng)用]軟件詳細(xì)設(shè)計(jì)-資料下載頁

軟件工程導(dǎo)論第11章-資料下載頁

[計(jì)算機(jī)軟件及應(yīng)用]第5章計(jì)算機(jī)軟件-資料下載頁

[計(jì)算機(jī)軟件及應(yīng)用]計(jì)算機(jī)-資料下載頁

重積分的計(jì)算法(11)-資料下載頁

計(jì)算機(jī)軟件概述ppt課件-資料下載頁

計(jì)算機(jī)軟件基礎(chǔ)ppt課件-資料下載頁

計(jì)算機(jī)軟件系統(tǒng)ppt課件-資料下載頁

計(jì)算機(jī)二級(jí)辦公室軟件概述-資料下載頁

[計(jì)算機(jī)軟件及應(yīng)用]軟件簡介_lh-資料下載頁

[計(jì)算機(jī)軟件及應(yīng)用]軟件工程課件-資料下載頁

[計(jì)算機(jī)軟件及應(yīng)用]3軟件工程-資料下載頁

計(jì)算所軟件室trec-11報(bào)告(參考版)

計(jì)算所軟件室trec-11報(bào)告-文庫吧資料

計(jì)算所軟件室trec-11報(bào)告-展示頁

計(jì)算所軟件室trec-11報(bào)告-在線瀏覽

計(jì)算所軟件室trec-11報(bào)告-閱讀頁