【導(dǎo)讀】文字知識(shí)探勘簡(jiǎn)介。規(guī)律訊息成資訊或知識(shí)。資訊組織與主題分析的技術(shù)內(nèi)容。圖書館學(xué)較重視標(biāo)準(zhǔn)化的作業(yè)與架構(gòu)。資訊科技較重視自動(dòng)化技術(shù)的用。檢索失敗的主要因素之一:「字彙不匹配問(wèn)題」。曾元顯,漸進(jìn)式關(guān)聯(lián)詞庫(kù)之建構(gòu)方法,中華民國(guó)發(fā)明。透過(guò)國(guó)科會(huì)小產(chǎn)學(xué)計(jì)畫,技術(shù)移轉(zhuǎn)國(guó)內(nèi)廠商。文獻(xiàn)探討、技術(shù)瞭解、優(yōu)缺點(diǎn)分析、適用範(fàn)圍分析。提出適用情況與應(yīng)用方向。Salton曾提出建構(gòu)共現(xiàn)索引典的架構(gòu):。重要的索引詞彙,任兩詞彙皆拿來(lái)比對(duì)相似度。計(jì)算量至少M(fèi)2,M:所有重要詞彙的個(gè)數(shù)。歸類方式,主要有:。–兩個(gè)類別之間的相似度,若超過(guò)某個(gè)門檻值,就結(jié)合並歸成同一類,透過(guò)共現(xiàn)索引典的查詢擴(kuò)展,檢索成效的召回率,通??商?。定義非對(duì)稱的詞彙相似度。詞彙Tj及Tk在文件i中的權(quán)重: