【文章內(nèi)容簡(jiǎn)介】
), .. .,(m a xa r g n1qc qcP)),(...),((m a xa rg),...,(m a xa rgn1qcn1qcQqcPQqcPqcP???簡(jiǎn)化貝葉斯分類(lèi) (續(xù) ) 如何計(jì)算權(quán)值? N=65類(lèi)別總數(shù)目 表示 term和 qci的共現(xiàn)頻率 ),( termqcP i????iiii1 t e r mqcc o u n t e rNt e r mqcc o u n t e r50t e r mqcP),(),(.),(Tfidf權(quán)值處理 ? 對(duì) P(qc,term)進(jìn)行降低權(quán)值的處理,處理理由如下: ? 越多,那么它與該問(wèn)題主體的關(guān)聯(lián)性越強(qiáng); ? 現(xiàn)多次,那么它對(duì)分類(lèi)的貢獻(xiàn)就小。 ? 基于此,我們采用了 tfidf進(jìn)行權(quán)值處理。 Tfidf公式 ? Tfidf公式 ? 參數(shù)含義: ? 其中 N和上面的一樣, N=65, M表示 term在M種問(wèn)題類(lèi)型中出現(xiàn)。 )..l og (*),(),( 50M 10Nt e r mqcPt e r mqcP 12 ???Tfidf二次處理 ? 首先看看不太均勻的語(yǔ)料庫(kù) 訓(xùn)練語(yǔ)料中實(shí)例最多的幾個(gè)類(lèi)別 訓(xùn)練庫(kù)中的實(shí)例數(shù) HUM_PERSON 345 OBJ_OTHER 235 DES_OTHER 252 LOC_OTHER 209 DES_REASON 164 Tfidf二次處理 (續(xù) ) 訓(xùn)練語(yǔ)料中實(shí)例最多的幾