freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

中文文本分類算法設計及其實現(xiàn)(更新版)

2025-05-24 23:48上一頁面

下一頁面
  

【正文】 目錄第一章 緒論 文本分類背景和意義 文本分類的應用領域 Internet上面應用 網(wǎng)絡圖書館方面的應用 網(wǎng)絡安全方面 電子郵件方面 目前國內外研究現(xiàn)狀 文本分類的發(fā)展趨勢展望 本章小結 8第二章 文本分類主要過程 文本分類的過程圖 關于語料庫 文本分類語料庫介紹 文本分類,訓練階段的主要步驟 文本分類,分類(測試)階段的主要過程 關于文本分詞 文本空間向量的形成 1VSM(Vector Space Model) 1常見的權值計算方法 1布爾框架(Booolean weighting) 1TFIDF計算權值算法 1詞典 1用戶詞典 1停用詞詞典 1常用的降維方法 1信息增益方法 1互信息方法 1期望交叉熵方法 1X^2統(tǒng)計方法 1文本證據(jù)權方法 1本章小結 18第三章 常用的文本分類方法 1k臨近分類器 1KNN算法概述 1KNN算法用于文本分類器構造 1KNN算法用于分類 KNN算法效果評價 支持向量機分類器 2SVM算法概述 2SVM構造分類器 2線性可分 2線性不可分 2映射函數(shù)(核函數(shù)) 2SVM分類評價 2決策樹算法分類器 2決策樹概述 2決策樹分類器的構造 2決策樹分類器的構造 2樸素貝葉斯分類器 2貝葉斯算法原理 2貝葉斯分類器 2貝葉斯進行分類 2BP神經(jīng)網(wǎng)絡分類器 2BP神經(jīng)網(wǎng)絡原理 2BP神經(jīng)網(wǎng)絡分類器 BP神經(jīng)網(wǎng)絡進行分類 3本章小結 31第四章 試驗結果分析統(tǒng)計 3試驗結果評估指標簡介 3使用KNN分類算法部分結果分析 3訓練總篇數(shù)對分類結果的影響 3不同的K值對分類結果的影響 3降維深度對分類結果的影響 3采用不同的降維方法對試驗結果的影響 3分而統(tǒng)計各個類別的詳細信息 3使用SVM分類算法結果分析 3訓練總篇數(shù)對分類結果的影響 3降維深度對分類結果的影響 3采用不同的降維方法對試驗結果的影響 3分而統(tǒng)計各個類別的詳細信息 本章小結 41總結與展望 42參考文獻 44致謝 45附錄 46 第一章 緒論、文本分類背景和意義 互聯(lián)網(wǎng)發(fā)展,網(wǎng)上電子圖書(txt文檔、pdf文檔、微小說、期刊論文等等),企業(yè)公司內部文件整理,電子文檔的增加,為了高效訪問和使用這些文檔數(shù)據(jù),如果人為的對這些文件信息進行處理,不僅需要花費大量的時間翻閱每一篇文章,了解每篇文章的大體內容,而且要付出很大的精力去統(tǒng)計。1Title: The design and implementation of Chinese text classification algorithmName: Feng ChengpingSupervisor: Xiang Ming ABSTRACT With today39。 對源代碼進行注釋。 文本分類中需要用到的各種分類方法的資料描述。畢業(yè)設計(論文)任務書 畢業(yè)設計(論文)題 目 中文文本分類算法的設計及其實現(xiàn) 電信 學院 計算機 系 84 班學生姓名 豐成平 學 號 2008055089 指導教師 相明 設計所在單位 西安交通大學計算機系 2013 年 6 月系 ( 所 ) 計算機科學與技術 系 (所) 主任 批 準 日 期 畢業(yè)設計(論文)任務書 電信學 院 計算機 系 84 班 學生 豐成平 畢業(yè)設計(論文)工作自 2013 年 2 月 21 日起至 2013 年 6 月 20 日止畢業(yè)設計(論文)進行地點: 西安交通大學 課題的背景、意義及培養(yǎng)目標 隨著文本文件的增多,對其自動進行分門別類尤為重要。 中科院文本分詞工具(nlpir)。 課題的基本要求(工程設計類題應有技術經(jīng)濟分析要求)程序可演示。最后,將文本分類運用于眾多領域,例如:信息過濾、文檔管理、網(wǎng)絡安全、電子圖書整理、網(wǎng)絡圖書館,搜索引擎,這樣則不是通過關鍵字過濾,而是基于文本內容的過濾或者是搜索,能大大提高過濾的可靠性以及搜索的準確性,無疑使文本領域的一項重大的突破關 鍵 詞:文本向量;特征降維;分類算法;分類器設計。 Classification algorithms。如用引入文本分類系統(tǒng),當查詢某個關鍵字的時候,可以自動判定與之相關的文件類別,基于內容的查詢,可以直接命5第一章 緒論中目標,查詢速度和精度能得到有效的提升、網(wǎng)絡圖書館方面的應用 任何一個圖書館的館藏資源成千上萬,如果沒能很好的分門別類,大量的圖書便會雜亂無章,不僅浪費工作人員的時間進行整理和查詢,而且讀者在找尋自己想要的圖書方面也會花費很大的時間。 到目前為止,文本自動分類在國外大致經(jīng)歷了三個發(fā)展階段: 預測分析階段(19581964)判斷文本分類是否能夠真正的在現(xiàn)實社會中起到作用 實際運用構思階段(19651974)主要進行文本分類的初步構思,形成大概的理論和框架。開始訓練集、測試集語料庫輸入文本采用中科院nlpir分詞 文本分詞TFIDF計算權值空間文本向量降維方法向量降維分類方法:svm/決策樹...進行文本分類Weka、C++、matlab仿真最終結果 圖21 文本分類過程圖第二章文本分類的國主要過程、關于語料庫、文本分類語料庫介紹 本次試驗中采用復旦大學語料庫,分為訓練集與測試集,訓練集20個類別,共計9804篇,測試集20個類別,共計9833篇。、文本空間向量的形成、VSM(Vector Space Model) 俗稱向量空間模型。Wi詞頻與反文檔頻率的大體思想是:一個字詞對這篇文章的重要性隨著它在本篇文章中出現(xiàn)的次數(shù)正比例增加,但是相對整體語料庫而言,如果在整體語料庫中出現(xiàn)的次數(shù)太多,該字詞的表征作用會呈反比例下降。最終的詞典長度和空間向量的長度是相同的。一篇文章包含的詞可能有一千個,我們可以選取其中的前500個進行試驗,也可以選取100個 甚至10個進行試驗,只是最后得到的結果會有差異,對于結果如何,在后面的試驗中會有詳細的數(shù)據(jù)對比。、X^2統(tǒng)計方法X^2統(tǒng)計方法表示特征詞t與文本類別C的相關度,顧名思義,當然是相關度越高,該特征詞對某個類別的表征作用越明顯,反之表征作用越低。、k臨近分類器、KNN算法概述KNN算法(即K鄰近算法),這種算法可以說是最簡單而又普遍的算法,通過尋找相鄰的點,然后計算各個點和所要決策的點之間的距離,從中找出距離最近的一個點,那么要判斷的點就屬于那個點所在的類別。例如在某個語料庫中,可能其中某個類別里面的文章數(shù)比較多,而另外一個類別里面的文章數(shù)很少,那么在選擇的時候,肯定文章數(shù)比較多的文章靠近S的點會比較多,這樣就相當于定向的將結果趨近于文章數(shù)比較多的那個類別,因此,在使用KNN分類算法時,訓練集語料庫中的各個類別的文本數(shù)最好比較平均為好,這也是為什么本人在試驗的時候,不直接把復旦語料庫直接拿來應用,而是經(jīng)過自己處理進行使用,就是為了保證結果的合理性。||W||表示二范數(shù),可以理解為正常情況下的求向量的長度,求M的最大值,相當于求W的最小值 用公式形象的表示為: (33)此式還有一個約束條件,如下: (34) (35)、線性不可分以上為線性可分的情況,直接用一條直線或者空間平面就可以對其進行劃分,而在實際文本分類的過程中,肯定是存在相當多的點,這些點錯綜交雜,不可能如以上那樣那么有條理,而是零散的分布在空間的多個區(qū)域,針對這種情況,要引入懲罰函數(shù),如下圖所示:圖35 曲線劃分圖示 圖36 懲罰函數(shù)引入圖第一種方法:可以用一條曲線進行劃分;第二種方法:還是如以上所說,用一條直線,但是在這條直線中,加入一個懲罰因子,懲罰函數(shù)的計算公式為: (36)由于這里面在劃分的時候,強制性的將原本不屬于該類別的點劃分如該類別中,所以加入懲罰函數(shù)權衡這樣做帶來的后果,當然在最后計算中,懲罰函數(shù)越小越小,盡量產生更少的劃分錯誤的點。上面的決策樹在第一次就將四個類兩兩分開,也有可能在第一次判斷的時候,就把某個類單獨的區(qū)分了開來,后面進行區(qū)分的時候也是如此,每當產生一個分類條件,就會單獨的決策分出一個單獨的類,這種屬于上述的一個特例。、決策樹分類器的構造 這樣,當有一條新的屬性信息到來時,前提是這則信息人們事先并不知曉它所處的季節(jié),這樣決策樹分類器通過判斷該屬性的值,進行判斷,權衡最終做出決策結果,該屬性到底屬于哪一個季節(jié)。 ?有類別集合C={y1,y2,...,yn}. ? 計算P(y1|x),P(y2|x),...,P(yn|x)。YmXn隱含層輸出層輸入層 圖311 BP神經(jīng)網(wǎng)絡的拓撲結構圖 如圖所示,X1,X2,...,Xn是BP神經(jīng)網(wǎng)絡的輸入值,Y1,Y2,...,Ym是BP神經(jīng)網(wǎng)絡的預測值,ωij、ωjk 稱為神經(jīng)網(wǎng)絡的權值,或者閾值,BP神經(jīng)網(wǎng)絡可以看成是一個非線性函數(shù),網(wǎng)絡的輸入值和預測值分別為該函數(shù)的自變量和因變量,如上圖所示的神經(jīng)網(wǎng)絡拓撲結構則是表示一個從n個輸入映射到M個輸出的過程。 i=1~n,j=1~l (313) j=1~l,l=1~m (314) 式中η表示學習效率。51第四章 實驗結果分析統(tǒng)計第四章 試驗結果分析統(tǒng)計、試驗結果評估指標簡介前面的部分已經(jīng)把文本分類詳細的的過程,文本分類里面主要的方法,以及各種分類器的構造寫的非常詳細,本章就主要針對KNN、SVM這兩種方法的部分實驗結果進行展示和分析:試驗結果的評測指標,主要有兩個:查全率、查準率
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1