freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

navigatingtotextcategorization(完整版)

2024-08-19 16:32上一頁面

下一頁面
  

【正文】 某個特定詞的條件下文本類別的概率分布之間的距離 , 特征詞 t 的交叉熵越大 , 對文本類別分布的影響也越大。訓練語料庫中每個類別 1000篇文章,共有 6000篇文章,測試語料庫中每個類別有 100篇文章,共有600篇文章。 2。但針對某一個具體類別來說,我們又可以這樣考慮:即有多少篇文章屬于該類?有多少篇文章不屬于該類?如果將屬于該類的文章定義為“正例”,不屬于該類別的文章定義為負例,那么就有了 查準率,查全率, Fscore等性能評估標準。 Fscore更接近于 p,r兩個數種較小的那個 文本分類以及預處理代碼實現 預處理算法處理框架圖 分類算法框架圖 KNN算法 ? KNN文本分類算法又稱為 (k nearest neighhor)。//最后的分類和聚類結果信息 編程思路 ? 操縱數據庫模塊 ? int ConstructDictionary(DICTIONARYamp。 testingsetVSM,char*keywordsaddress)//為測試樣本集合建立 VSM模型 ? 序列化模塊 ? void SaveDictionary(DICTIONARYamp。//將關聯表結構反序列化到內存 ? void SaveVSM(DOCMATRIXamp。 for(vectorstring::iterator it=()。 (F)。 coutFscore(itsecond)[2]endl。 avaR+=(itsecond)[1]。 cout平均 F值 avaFendl。 avaR/=()。//平均召回率 double avaF=0.。it!=()。 double F=(*it,classifyResults,TestingCorpus)。//將 VSM ? 分詞模塊:頭文件中定義了一個指向指向類的成員函數的指針,分別指向兩種不同的切分模式。//將詞典反序列化到內存 ? void SaveContingencyTable(CONTINGENCYamp。//獲得訓練集中每一類所包含的文章 ID ? vectorstring GetClassification(string articleIds)。 重要數據結構定義 ? typedef map string,vectorpairint,int DICTIONARY。 ? 查全率 (recall) r=TP/(TP+FN)。(注:這是我個人的一點見地,如有偏頗的地方歡迎指正) ? 由此我們可以得出這樣的結論: IG法,卡方法,雖然有抑制高頻詞噪聲和低頻詞噪聲的能力,但是歸根結底,這兩種方法是基于頻率的 經典 統計推斷,不能夠有效抑制全部高頻詞噪聲,如果要提高特征詞集合抑制高頻詞噪聲的能力,可能要求諸于貝葉斯 統計推斷。 ? (摘自 李曉明 《 搜索引擎 — 原理、技術、與系統 》 ) DF、卡方、點對點互信息、信息增益法提取特征詞對比(四) DF、卡方、點對點互信息、信息增益法提取特征詞對比(五) ? 我的實驗結論: ? 評價一個特征詞是否是好詞,一個特征詞集合是否選擇的合理。 其中 p(x)和 q(x)為兩個概率分布 ? 約定 0*log(0/q(x))=0。p(x)*log(p(x)/0)=infinity。主要看所選擇的詞是否具有類別標識性。 評估分類器的效果( EFFECTIVENESS) (一 ) ? 效果 (effectiveness):這個術語來統稱那些分類結果質量的評價指標,包括正確率、召回率和 F1值。 它的含義是:測試集中被正確分類的正例數量除以測試集中實際正例數量。//定義字典數據結構 ? typedef mappairstring,string,pairint,int CONTINGENCY。//獲
點擊復制文檔內容
高考資料相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1