【正文】
e for Reuters (removing noisy terms), and did not see any improvement from feature reduction on OHSUMED. F e a tu r e S e le c ti o n 2 0 f e a tu r e s 5 0 f e a tu r e s 1 0 0 f e a tu r e s 2 0 0 f e a tu r e s C o r r e la ti o n C h i s q u a r e F r e q u e n c y 0 . 7 8 4 0 . 7 4 2 0 . 7 1 7 0 . 7 9 2 0 . 7 7 1 0 . 7 6 3 0 . 7 9 9 0 . 7 9 0 0 . 7 7 8 0 . 8 0 2 0 . 7 9 4 0 . 7 8 5 63 Feature Reduction (2/3) ? [Bekkerman SIGIR 2022] – The BEP of Reuters almost approaches its maximum with only 50 words (chosen by MI), but the graph of 20 NG constantly goes up while its slope constantly lowers. – Only 3 words can achieve % microaverage for the largest 10 categories in Reuters 64 Feature Reduction (3/3) ? Joachims? Fig 1 [1998] for Reuters “acq” category: – All features are ranked by (binary) information gain – Feature sets: 1200, 201500, 5011000, 10012022, … – Worse feature sets still perform much better than random (using na239。 1 : 音樂 (7) 2 : 數(shù)位音樂 (5) 3 : 下載 (4) 4 : 計(jì)畫 (4) 5 : BMG (3) 6 : Music (2) 7 : Sony Music (2) 8 : Entertainment (2) 9 : BMG Entertainment (2) 38 關(guān)聯(lián)詞分析:新的方法: [Tseng 2022] ? 第一步:詞彙選擇: – 每篇文件先用 詞庫 (長詞優(yōu)先法)斷詞 – 再由 關(guān)鍵詞擷取演算法 擷取關(guān)鍵詞(至少出現(xiàn) 2次者)(包含新詞) – 以 停用詞 過濾擷取出的關(guān)鍵詞,並依詞頻( term frequency) 高低排序 – 選 詞頻最高的 N 個(gè)詞作關(guān)聯(lián)分析 ? 第二步:詞彙關(guān)聯(lián)分析 : – 每篇文件選出來的詞,以 DICE公式計(jì)算兩個(gè)詞彙的 權(quán)重 wgt: – 關(guān)聯(lián)詞 的權(quán)重超過門檻值( )者,才依下面公式累積其權(quán)重 – 關(guān)聯(lián)詞 的最後相似度定義為: ? 原方法:僅單純累加每對關(guān)聯(lián)詞的權(quán)重 ? 新方法:加入 IDF (inverse document frequency ) 及 詞彙長度 ???ni ikijkj TTw gtTTs i m 1 ),(),(? ???? ni ikijkkkj TTw g tn dfnwTTs i m 1 ),()l o g ( )l o g (),(39 關(guān)聯(lián)詞擷取效率比較 ? Chen ?95 ?96 的方法: – 4714 文件 , 8 MB, 費(fèi)時(shí) 1,708,551 個(gè)關(guān)聯(lián) 詞對 – 限制每個(gè)詞的關(guān)聯(lián)詞數(shù)最多 100 個(gè),共刪除了 60% 的 詞對 – 2GB文件,費(fèi)時(shí) CPU小時(shí),產(chǎn)生 4,000,000個(gè)關(guān)聯(lián)詞對 ? Tseng的方法: – 336,067 新聞文件 , 323 MB – 費(fèi)時(shí)約 小時(shí),擷取出 11,490,822 個(gè)關(guān)鍵詞 – 全部關(guān)聯(lián)詞數(shù) : 248,613, 平均每個(gè)詞有 9個(gè)關(guān)聯(lián)詞 – 2022: NTCIR 38萬篇中文新聞文件, 51分鐘 ? 斷詞、索引詞擷取、關(guān)鍵詞擷取、關(guān)聯(lián)詞分析、反向索引檔建立 40 關(guān)聯(lián)詞應(yīng)用範(fàn)例( 1/3) 41 關(guān)聯(lián)詞應(yīng)用範(fàn)例( 2/3) 42 關(guān)聯(lián)詞應(yīng)用範(fàn)例( 3/3) 43 關(guān)聯(lián)詞排序 ? 關(guān)聯(lián)詞可按三種方式排序 – 強(qiáng)度: ? 即關(guān)聯(lián)詞共現(xiàn)性的強(qiáng)度 – 詞頻 : ? 按關(guān)聯(lián)詞出現(xiàn)的文件篇數(shù)( df) 排序, df 越高者,排在越前面 – 時(shí)間: ? 按關(guān)聯(lián)詞出現(xiàn)在最近文件的次序排序 ? 目的:讓最近才出現(xiàn)的關(guān)聯(lián)詞不必累積到足夠大的強(qiáng)度,即可排序在前面 ? 如:「李登輝」的關(guān)聯(lián)詞中,出現(xiàn)「康乃爾」,因?yàn)槔畹禽x最近又重訪康乃爾 ? 對具有時(shí)間事件的文件集可能很重要 ? 關(guān)聯(lián)詞提示的順序不同 , 使用者感覺的關(guān)聯(lián)度不同 44 關(guān)聯(lián)詞排序 查詢詞「古蹟」的關(guān)聯(lián)詞,依「詞頻」 ,「時(shí)間」 ,「強(qiáng)度」排序 45 關(guān)聯(lián)詞成效評估 ? 目的 – 瞭解查詢詞與其提示的關(guān)聯(lián)詞之間的關(guān)聯(lián) (relatedness)情況 ? 以兩種方式評估: – 直接計(jì)數(shù)前 N( 50) 個(gè)被受試者判定為有關(guān)聯(lián)的關(guān)聯(lián)詞數(shù) ? 優(yōu)點(diǎn):簡單,可回溯比較 ? 缺點(diǎn):不能細(xì)微區(qū)分排序的差異 – 以精確率與召回率評估哪一種排序方式較好 ? 計(jì)算平均精確率的程式為 TREC及 NTCIR用的 trec_eval 程式 ? 評估方式: – 邀請 5位研究所同學(xué),就 30個(gè)查詢詞(每人 6個(gè)),從系統(tǒng)提示出來的前 50個(gè)關(guān)聯(lián)詞中,判斷是否跟查詢詞相關(guān) 46 trec_eval 的部分輸出 Queryid (Num): 4 ( 即 查詢詞 : 「古蹟」) Total number of documents (terms) (for 「古蹟」 ) Retrieved: 50 Relevant: 43 Rel_ret: 35(即 找到且被判斷為相關(guān)者) Interpolated Recall Precision Averages: at at at at at at at at at at at Average precision (noninterpolated) for all rel. terms ( 單一查詢的平均精確率) Precision: At 5 terms: At 10 terms: At 15 terms: At 20 terms: At 30 terms: RPrecision (precision after R (= num_rel for a query) docs retrieved): Exact: 47 關(guān)聯(lián)詞成效評估 ? 從 25233篇新聞文件中擷取關(guān)聯(lián)詞 ? 結(jié)果 : – 排序 詞頻 時(shí)間 強(qiáng)度 – 關(guān)聯(lián)比例 48% 59% 69% – 平均精確率 – 「詞頻」最差,因?yàn)楦哳l詞,代表的主題較範(fàn)圍較大 , 以致於跟任何查詢詞的關(guān)係都不大 ? 結(jié)論: – 依「強(qiáng)度」排序的效果最好 ? 比較: – (Sanderson amp。 此項(xiàng)數(shù)位音樂下載將是市場上首項(xiàng)具有防止盜錄功能的產(chǎn)品。 另外, Sony Music也將於下週一宣佈該公司計(jì)畫於本月底開 始提供數(shù)位音樂下載。該公司為執(zhí)行上述計(jì)畫已與多家高科技廠商合作 , 包括 IBM、 Liquid Audio 與 Microsoft。 ( 美國矽谷 /陳美滿 ) 根據(jù) San Jose Mercury News報(bào)導(dǎo)指出 ,BMG Entertainment計(jì)畫在 6月上旬或中旬開始在 Inter 上銷售數(shù)位音樂 。在此文中,我們也從幾個(gè)不同角度,分析和比較這三個(gè) metadata 格式的異同和優(yōu)缺點(diǎn)。Dublin Core 則比較像是 USMARC 的網(wǎng)路節(jié)縮版,使非專業(yè)人士也能在短時(shí)間內(nèi)熟悉和使用此格式來著錄收藏資料,但在現(xiàn)階段祇針對類似傳統(tǒng)印刷品的電子文件。雖然它們各有自己的設(shè)計(jì)目標(biāo)和特質(zhì),但都是假設(shè)其操作環(huán)境為類似網(wǎng)際網(wǎng)路的環(huán)境。1 資訊檢索與知識探勘 ? 簡介 ? 主題檢索 ? 關(guān)聯(lián)分析 ? 自動(dòng)分類 ? 自動(dòng)歸類 ? 自動(dòng)摘要 ? 時(shí)間事件分析 ? 系統(tǒng)展示 ? 結(jié)語 曾元顯 數(shù)位媒體中心 國立臺(tái)灣師範(fàn)大學(xué) 2 文件資訊探勘 ? ( text mining, knowledge discovery in text)意義: – 擷取隱晦、有用、未被發(fā)掘、有潛在價(jià)值的資訊或知識 – 互動(dòng)、反覆的過程來探索文件庫以發(fā)現(xiàn)新的、有趣的訊息或規(guī)律 – 依賴人工解讀結(jié)果,使發(fā)現(xiàn)的訊息變成有用的資訊或知識 ? 具體項(xiàng)目(工具): – 資訊檢索、擷取、關(guān)聯(lián)、摘要、歸類、分類、時(shí)間事件分析 ? 應(yīng)用: – 資訊搜尋、知識萃取、知識管理、犯罪分析、案例追蹤 ? 使用的技術(shù): – 資料庫管理技術(shù)、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、人工智慧、資訊視覺化、資訊科學(xué)、圖書館學(xué)、簡單的文字處理工具、處理流程的彈性串連 ? 考量的因素(面臨的挑戰(zhàn)): – 要能處理大量資料 – 要能快速回應(yīng)、提供互動(dòng)性 – 多面向、多維度的分析 – 高階、視覺化的使用介面 3 主題檢索 ? 意義: – 根據(jù)使用者的資訊需求,找出符合需求之文件或文字 ? 應(yīng)用: – 前案檢索、相似案例檢索(技術(shù)專利、法院判例) – 案例比對 – 案例關(guān)聯(lián) – 案例分類 – 案例歸類 – 案例時(shí)間事件分析 ? 使用技術(shù): – information retrieval、 NLP、 machine learning 4 自動(dòng)索引 ? 意義: – 對文件、詞彙進(jìn)行分析、轉(zhuǎn)換、組織 – 便於有效率的高階運(yùn)用 ? 應(yīng)用: – 檢索、關(guān)聯(lián)、分類、歸類、摘要、趨勢分析等工作的核心運(yùn)算與結(jié)構(gòu) ? 使用的技術(shù): – Hash, trie, Btree, … – fast sorting, data pression, … – Stemming, stopwords, ngrams, … – Authority control, thesaurus, topic map, ontology, … – Natural language processing, machine learning, … – File format parsing, language identification, … – Security control, user control, access control, robot, … – Support for different OSs, DBMS, platforms, … 5 資訊檢索的問題 ? 字串不匹配( vocabulary mismatch):查詢詞與文件記載 (或索引詞 )不同 – 同義:「筆記型電腦」 vs「筆記本電腦」 (形似 ),「閣揆」 vs「行政院長」 – 廣狹義:「攜帶型」 vs「掌上型」, ? 使用者需求差異大:同樣的檢索詞,但相關(guān)的文件會(huì)因人而異 – Known item search ? 已知「作者」、「人名」;已知文件內(nèi)的字串:「嘿嘿嘿」、「這我不聽他的」 – Unknown item search: ? 無法精確表達(dá)查詢字串:人名、地名、機(jī)構(gòu)名、專有名詞、特定領(lǐng)域名稱 ? 不知如何表達(dá)查詢字串:「晶圓代工的發(fā)展前景」、「電視廣告對兒童的影響」 ? 領(lǐng)域需求差異大:斷詞需求、查詢功能 – 「中醫(yī)工會(huì)」:「治虛寒,五香、 加 八角、 加 薑, 加 味米酒 …」 – 「社文中心」:「 D?eng Xiaoping?s legacy 」 ? 資料本身不一致、不乾淨(jìng),檔案格式差異大 – 民 83年 vs 199年代日期格式不同 – 異常標(biāo)點(diǎn)符號、字碼、 dash 、 single quote – 資料誤植、 OCR 雜訊文字 – Data cleaning is required