freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

web信息抽取中的文本分類畢業(yè)論文(參考版)

2025-06-22 15:05本頁面
  

【正文】 LIBSVM 是一個開源的軟件包,需要者都可以免費的從作者的個人主頁 LIBSVM 的 C++語言的算法源代碼,還提供了 Python、Java、R、MATLAB、Perl、Ruby 、LabVIEW。 文本分類器 實現(xiàn)工具 LIBSVM SVM 本身是一個數(shù)學(xué)上的理論和求解過程,但其規(guī)則的求解過程很容易利用程序來模擬,這里將用到一個實現(xiàn)好的 SVM 庫 ——LIBSVM。這里預(yù)先提供五種選擇:不處理、[0,1]、[1,1] 、[0,8]、[8,8]。ijfjcitijf將所有文本的向量組成一個矩陣也就是文本向量矩陣,有時需要對這個文本向量矩陣進(jìn)行 scale 操作也就是將每個向量的值空間映射到某個固定的空間中比如[0、 1]空間。l()*l(/()TFclst?模式、方式及算法互相組合共 12 種。TF*IDF: (Inverse Document Frequency,()log/()IDtNclasumt?為分類總數(shù), 為包含詞條 的類別數(shù)) 。N分類選:將 類文本的特征分別按權(quán)重排序, 個特征將輪流從 類mm32 Web 信息抽取中的文本分類文本特征中選出。ictnti基于文檔:文本 中詞語 出現(xiàn),則 對于 的詞頻為 1。在本系統(tǒng)中為了提高特征選擇的效率,采用了過濾法進(jìn)行特征的選擇,而在四種過濾法中,雖然 IG 和 CHI 的特征選擇效果較 DF 要高,但 IG 與 CHI 的處理過程都需要概率估計的方法,處理過程仍然不夠高效,鑒于 SVM 的抗干擾性較高對特征質(zhì)量的要求并不苛刻,所以采用了 DF 的特征選擇方法但對其進(jìn)行了改進(jìn)。優(yōu)點:該方法壓縮率很低,分類精度基本保持不變。四、聚類法聚類法考慮了文本特征的實質(zhì)相似性。三、映射法映射法在文本分類中得到了廣泛的應(yīng)用,且取得了較好的效果。其中以與線性分類器結(jié)合的加權(quán)法效率較高。加權(quán)法是一種特殊的融合法。時間復(fù)雜度很高。將低于特定閾值的詞條從原始特征空間中移除,降低特征空間的維數(shù),保留高于閾值的詞條。如果表示包含詞條 且屬于類別 的文檔頻數(shù), 為包含 但是不屬于 的文AtcBtc檔頻數(shù), 表示屬于 但是不包含 的文檔頻數(shù), 表示語料中文檔總數(shù),CtN和 的互信息可由下式計算:tc 式(4(,)log()()ANMIB???4)如果 和 無關(guān)(即 ) , 值自然為零。另一種方法是將詞條對于各個類別的平均 值作為它對所有類別的 值,但是它的表現(xiàn)不如(43)式。則 對于 的 值由下式計算:cttCHI 式(422()(,))()NADtB??????2)對于多類問題,分別計算 對于每個類別的 值,再用下式計算tCHI詞條 對于整個語料的 ,分別進(jìn)行檢驗:tCHI 式(422max1()(,)miitc??30 Web 信息抽取中的文本分類3)其中 為類別數(shù)。信息增益 11 1()()(|)log(|)((|)log(|)mmmi ii iii i iIGtPctPcttPctPt?? ?????? 式(41)其中 表示 類文檔在語料中出現(xiàn)的概率, 表示語料中包含()iPci ()Pt詞條 的文檔的概率, 表示文檔包含詞條 時屬于 類的條件概率,t(|)ict ic表示語料中不包含詞條 的文檔的概率, 表示文檔不包含詞() (|)it條 時屬于 的條件概率, 表示類別數(shù)。采用詞頻作為特征抽取基于如下基本假設(shè):太低或太高 DF 的詞條不含或含有較少的類別信息。文本特征提取的過濾法主要有詞頻、信息增益、CHI 統(tǒng)計、互信息等。第四章 總體設(shè)計與實現(xiàn)工具的選擇 29文本特征的選擇方法 有:過濾法、融合法、映射法、聚類法。 文本特征選取的目標(biāo)和策略由于文本特征選取的質(zhì)量對于文本分類的質(zhì)量至關(guān)重要,所以選擇一個好的選取策略對提高文本特征的質(zhì)量也是至關(guān)重要的。由于文本特征的特性,所以文本特征可以從一定程度上反映了文本的相似度,基于相同的文本特征的文本向量,如果相同或者差別較小,可以說兩篇文章所涉及的內(nèi)容大致相同,如果文本向量相同,即使文本不完全相同,也說明文本相似度極大。詞頻(Term Frequency)在文本特征的選擇中,有著重要的地位,因為一篇文章所涉及的內(nèi)容,必然是關(guān)于某個方面,這方面的詞語應(yīng)該這文章中不同程度的大量出現(xiàn),所以通過統(tǒng)計詞頻方法就可以確定關(guān)鍵的詞語。這里使用文本向量空間模型的方法對文本進(jìn)行向量化,也就是基于特征詞的向量化過程。有時雖然分詞分出的兩個詞都是登陸的詞,但是需要的詞是兩個詞連在一起的新詞,如:“你好啊” ,你好是一個登陸詞, “啊”也是一個登陸詞,但希望分詞能夠?qū)⑺鼈兎衷谝黄?,這時也需要用戶字典來定義這樣的新詞。 用戶字典在分詞系統(tǒng)中都有未登陸詞識別的功能,但它不一定總是能滿足的要求,比如將兩個未登陸的詞分開識別,而需要的詞語是兩個詞語連在一起的新詞。所以這里的中文停用詞僅為輔助的過濾手段,主要的目的是過濾掉名詞和動詞中需要特別過濾掉的詞語。現(xiàn)代漢語中使用率最高的三類詞分別是名詞、動詞和形容詞,而在一個文本中能夠反映文本主題或者語義的詞語主要都是名詞和動詞,所以按詞性進(jìn)行過濾的效果會更好更加明顯。表 為本系統(tǒng)用到 ICTCLAS 中的幾個接口函數(shù)和數(shù)據(jù)結(jié)構(gòu):表 使用到的接口函數(shù)函數(shù) 參數(shù) 描述bool ICTCLAS_Init(const char * sInitDirPath=NULL) sInitDirPath 初始化目錄地址(配置文件和詞庫)初始化分詞系統(tǒng)bool ICTCLAS_Exit() 分詞系統(tǒng)退出ICTCLAS_API const result_t *ICTCLAS_ParagraphProcessA(const char *sParagraph,int *pResultCount)sParagraph 待分詞字符串pResultCount 分詞個數(shù)進(jìn)行分詞處理并將結(jié)果集地址返回給result_t 類型指針圖 ICTCLAS 的分詞結(jié)果集數(shù)據(jù)結(jié)構(gòu)在圖 所示的結(jié)構(gòu)中:? start 詞語在輸入句子中的開始位置? length 詞語的長度? POS_id 詞性 ID 值,可以快速的獲取詞性表? ID 詞語 ID 如果是未登錄詞,設(shè)成 0 或者1 中文停用詞在分詞和詞頻統(tǒng)計的時候有比要過濾掉一部分無用的中文詞語,比如:的、地、之等大量出現(xiàn)而對文本分類沒有好處的詞語。它全方位支持各種環(huán)境下的應(yīng)用開發(fā)——ICTCLAS 全部采用 C/C++編寫,支持 Linux、FreeBSD 及 Windows 系列操作系統(tǒng),支持C/C++、C 、 Delphi、Java 等主流的開發(fā)語言。二、ICTCLASICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)由中國科學(xué)院計算技術(shù)研究所推出,主要功能包括中文分詞、詞性標(biāo)注、命名實體識別、新詞識別、同時支持用戶詞典。其切分準(zhǔn)確率達(dá) %,分詞速度為 2022 萬字/分鐘,操作擴展極為靈活,并支持多平臺,多碼制,多線程的應(yīng)用。海量也是唯一一家專業(yè)從事中文智能計算及信息數(shù)據(jù)挖掘技術(shù)的理論研究、技術(shù)開發(fā)的國內(nèi)公司。而較為成功的中文分詞系統(tǒng)也不多見,盡管這樣也有必要選擇一個高效的分詞系統(tǒng)來為本系統(tǒng)服務(wù)的。目前新詞識別準(zhǔn)確率已經(jīng)成為評價一個分詞系統(tǒng)好壞的重要標(biāo)志之一。如果把“王軍虎”作為一個詞收錄到字典中去,全世界有那么多名字,而第四章 總體設(shè)計與實現(xiàn)工具的選擇 25且每時每刻都有新增的人名,收錄這些人名本身就是一項巨大的工程。也就是那些在字典中都沒有收錄過,但又確實能稱為詞的那些詞。例如:“乒乓球拍賣完了” ,可以切分成“‘乒乓’ ‘球拍’ ‘賣’‘完’ ‘了’ ”、也可切分成“‘乒乓球’ ‘拍賣’ ‘完’ ‘了’ ”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個詞。如果交叉歧義和組合歧義計算機都能解決的話,在歧義中還有一個難題,是真歧義。交叉歧義相對組合歧義來說還算比較容易處理,組合歧義就必須根據(jù)整個句子來判斷了。 “化妝和服裝”可以分成“‘化妝’和‘服裝’ ”或者“‘化妝’ ‘和服’ ‘裝’ ”。例如:表面的,因為“表面”和“面的”都是詞,那么這個短語就可以分成“‘表面’ ‘的’ ”和“‘表’ ‘面的’ ”。在中文分詞過程中,有兩大難題一直沒有完全突破。有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實遠(yuǎn)非如此。對于任何一個成熟的分詞系統(tǒng)來說,不可能單獨依靠某一種算法來實現(xiàn),都需要綜合不同的算法。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。這種方法只需對語料中的字組頻度進(jìn)行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度??梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng)計,計算它們的互現(xiàn)信息?;诮y(tǒng)計的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。這種分詞方法需要使用大量的語言知識和信息。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。基于理解的分詞方法這種分詞方法是通過讓計算機模擬人對句子的理解,達(dá)到識別詞的效果。一種方法是改進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進(jìn)機械分詞,從而減少匹配的錯誤率。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實際的需要。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。常用的幾種機械分詞方法如下:? 正向最大匹配法(由左到右的方向)? 逆向最大匹配法(由右到左的方向)? 最少切分(使每一句中切出的詞數(shù)最?。┻€可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法?;谧址ヅ涞姆衷~方法這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”器詞典中的詞條進(jìn)行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞) 。中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?其處理過程就是分詞算法。這里也有必要說明一下中文分詞技術(shù),它對這一步處理以及整個分類的系統(tǒng)來說都是至關(guān)重要的。分詞與詞頻統(tǒng)計絕對是可以分開實現(xiàn)的,但如果這樣在分詞處理后還22 Web 信息抽取中的文本分類要經(jīng)過詞頻統(tǒng)計的處理消耗了雙份的時間,這樣做并不高效。以下將分析各個過程的作用和其中使用的關(guān)鍵技術(shù)。(4)對于跨語言的調(diào)用提供良好的調(diào)用接口,不需要在接口外部進(jìn)行跨語言平臺的處理。圖 接口模型(2)簡單,封裝好的接口相對簡單,函數(shù)名稱和參數(shù)名稱直觀易懂。 外部接口在訓(xùn)練階段的處理中需要一個完善的圖形化的工具來輔助完成訓(xùn)練任務(wù),但在測試階段必須將整個工作流程封裝在一起能夠自動的完成,對于總系統(tǒng)來說,它并不關(guān)心是否有訓(xùn)練階段還是有測試階段,唯一需要的就是方便的調(diào)用提供的第三章 需求分析 19方法來完成分類處理。在這個階段需要達(dá)到一下幾個目標(biāo):(1)快速的載入文本特征;(2)準(zhǔn)確、快速、穩(wěn)定的分詞系統(tǒng);(3)高速的詞頻統(tǒng)計;(4)快速的對文本進(jìn)行向量化和 scale 操作;(5)SVM 載入分類模型快速分類。 測試階段目標(biāo)測試階段的基本處理過程與訓(xùn)練階段極為相似,所以在這個階段可以大量復(fù)用訓(xùn)練階段的數(shù)據(jù)結(jié)構(gòu)和方法。(6)由于上述操作涉及內(nèi)容加多,可控可變的參數(shù)也很多,所以必須提供圖形化的界面工具方便訓(xùn)練階段的完成。對 SVM 的分類參數(shù)進(jìn)行優(yōu)化不但可以提高 SVM 的分類精度而且可以極大的提高 SVM 的工作效率。在文本向量化的過程中必須能對向量進(jìn)行 scale操作,也就是要能將向量映射到某個范圍空間中,如()空間,這樣可以降低SVM 的運算復(fù)雜度提高運行效率,一定程度上也能提高分類精度,如圖 所示。不同的文本在不同的策略下所達(dá)到的分類效率和精度將會不同。(3)較為健全的特征選擇策略。(2)高速的詞頻統(tǒng)計功能。另外分詞系統(tǒng)還必須能夠過濾一些無用詞語并增加一些用戶自定義的詞語。由于文本分類系統(tǒng)的訓(xùn)練階段相對獨立且處理過程和策略很多,所以在這個子系統(tǒng)中應(yīng)該達(dá)到以下幾個目標(biāo):(1)準(zhǔn)確、快速、穩(wěn)定的分詞系統(tǒng)。從某種意義上說這種文本向量就反應(yīng)出了文本描述的主題內(nèi)容,而按照策略選擇出的文本特征集是很具有區(qū)分性和代表性的,所以文
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1