freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

navigatingtotextcategorization-文庫(kù)吧資料

2024-07-30 16:32本頁(yè)面
  

【正文】 ; ? FP( Falsely Postive):是指那些分類為正例但是實(shí)際上為負(fù)例的文章; ? FN( Falsely Negtive):是指那些分類為負(fù)例但是實(shí)際上為正例的文章; ? TN( Truly Negtive) :是指那些分類為負(fù)例,實(shí)際上也為負(fù)例的文章。 評(píng)估分類器的效果( EFFECTIVENESS) (二 ) ? 經(jīng)常把分類問(wèn)題(多分類問(wèn)題)看成是二類問(wèn)題(是否屬于某個(gè)特定類別)。 評(píng)估分類器的效果( EFFECTIVENESS) (一 ) ? 效果 (effectiveness):這個(gè)術(shù)語(yǔ)來(lái)統(tǒng)稱那些分類結(jié)果質(zhì)量的評(píng)價(jià)指標(biāo),包括正確率、召回率和 F1值。所以 IG和卡方法性能差不多,優(yōu)于 DF法, DF優(yōu)于點(diǎn)互信息法。該詞在它所“標(biāo)識(shí)”的類別中應(yīng)該頻繁出現(xiàn)。 Distinctive for categorization:也就是說(shuō),如果該詞出現(xiàn)則可以以一個(gè)很大的概率將文章歸為某類。主要看所選擇的詞是否具有類別標(biāo)識(shí)性。我們這里得出的結(jié)論,同文獻(xiàn)( Yang et al .1997)使用普通英文文本評(píng)測(cè)的結(jié)果基本一致。 DF、卡方、點(diǎn)對(duì)點(diǎn)互信息、信息增益法提取特征詞對(duì)比(一) DF、卡方、點(diǎn)對(duì)點(diǎn)互信息、信息增益法提取特征詞對(duì)比(三) ? 一般結(jié)論: CHI,IG,和 DF 的性能明顯優(yōu)于 MI。 ? 運(yùn)算公式 ? 存在問(wèn)題 ? 同 IG法 幾種特征詞選擇算法效果驗(yàn)證 訓(xùn)練語(yǔ)料庫(kù)測(cè)試語(yǔ)料庫(kù)情況說(shuō)明 ? 共有文化、歷史、讀書、社會(huì)與法制、娛樂,軍事等六個(gè)類別(其中文化,歷史,讀書,軍事來(lái)自鳳凰新聞,社會(huì)與法制來(lái)自騰訊和新浪,娛樂類新聞來(lái)自網(wǎng)易)。p(x)*log(p(x)/0)=infinity。 ? 運(yùn)算公式: ? D( p//q) =sum(p(x)*log(p(x)/q(x)))。NAVIGATING TO TEXT CATEGORIZATION 文本分類初探 作者:領(lǐng)頭驢 ROAD OF MAP ? 特征詞選擇算法基礎(chǔ)知識(shí) ? 幾種特征詞選擇算法效果驗(yàn)證 ? 文本分類以及預(yù)處理代碼實(shí)現(xiàn) ? 程序調(diào)用 文本分類基礎(chǔ)知識(shí) 分類問(wèn)題 (CATEGORIZATION)的兩種模式 ? 廣義分類問(wèn)題的兩種定義 ? 監(jiān)督學(xué)習(xí)( Supervised Learning) ? 非監(jiān)督學(xué)習(xí) (Unsupervised Leaning) ? 區(qū)別:是否對(duì)于類別標(biāo)簽 (class label)有先驗(yàn)知識(shí) ? 監(jiān)督學(xué)習(xí)(狹義上的分類):事先知道類別標(biāo)簽 ? 非監(jiān)督學(xué)習(xí)(狹義上的聚類):事先不知道類別標(biāo)簽 ? 本次匯報(bào)專題集中于:狹義上的分類(后面統(tǒng)稱為文本分類) 返回 文檔模型(一) ? Bag of words or bowl(詞袋模型或者碗模型 ) ? 思想: ? 詞與詞之間的概率分布 條件獨(dú)立 (在給定類別后每個(gè)詞的概率分布與其他詞無(wú)關(guān)) ? 單詞生成的概率與它在文檔中的位置無(wú)關(guān) ? 每篇文檔看作是一“袋子”的詞 ? 應(yīng)用舉例: ? 樸素貝葉斯模型 文檔模型(二) ? Vector Space Model[VSM](文檔向量模型) ? 思想: ? 利用向量空間模型進(jìn)行文本分類的主要思路基于鄰近假設(shè) ? 鄰近假設(shè):同一類文檔在 N維向量空間中會(huì)構(gòu)成一個(gè)鄰近區(qū)域,而不同類的鄰近區(qū)域之間是互不重疊的 ? 該模型將每個(gè)文檔看成是一個(gè) N維向量 ? 應(yīng)用: ? KNN, LR,SVM 兩種文檔模型的對(duì)比 ? 相同點(diǎn): ? 從詞的粒度上來(lái)講,都沒有考慮詞語(yǔ)
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1