freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

web信息抽取中的文本分類畢業(yè)論文-資料下載頁(yè)

2025-08-23 16:34本頁(yè)面

【導(dǎo)讀】題還是求解回歸問題,SVM都有著廣泛的應(yīng)用。本文簡(jiǎn)單的介紹了SVM的基本。這里說明了文本分類的詳細(xì)處理過程,并介紹了這些過程中的關(guān)鍵技。結(jié)合著分析和討論又概略的說明了利用MicrosoftVisualC++創(chuàng)建文本。動(dòng)態(tài)鏈接庫(kù)來實(shí)現(xiàn)C++到Java的遷移。最后給出了由本系統(tǒng)得到的實(shí)驗(yàn)數(shù)據(jù)和結(jié)。的指導(dǎo)下進(jìn)行的研究工作及取得的成果。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文不。包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。意識(shí)到本聲明的法律后果由本人承擔(dān)。許論文被查閱和借閱。掃描等復(fù)制手段保存和匯編本學(xué)位論文。涉密論文按學(xué)校規(guī)定處理。

  

【正文】 哪種分詞算法的準(zhǔn)確度更高,目前并無定論。對(duì)于任何一個(gè)成熟的分詞系統(tǒng)來說,不可能單獨(dú)依靠某一種算法來實(shí)現(xiàn),都需要綜合不同的算法。筆者了解,海量科技 的分詞算法就采用 “ 復(fù)方分詞法 ” ,所謂復(fù)方,相當(dāng)于用中藥中的復(fù)24 Web 信息抽取中的 文本分類 方概念,即用不同的藥 材 綜合起來去醫(yī)治疾病,同樣,對(duì)于中文詞的識(shí)別,需要多種算法來處理不同的問題。 有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實(shí)遠(yuǎn)非如此。中文是一種十分復(fù)雜的語言,讓計(jì)算機(jī)理解 中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破 。 ( 1) 歧義識(shí)別 歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:表面的,因?yàn)?“ 表面 ” 和 “ 面的 ” 都是詞,那么這個(gè)短語就可以分成 “ ‘ 表面 ’‘ 的 ’ ” 和 “ ‘ 表 ’‘ 面的 ’ ” 。這種稱 為交叉歧義 , 這種交叉歧義十分常見 。 “ 化妝和服裝 ” 可以分成“ ‘ 化 妝 ’ 和 ‘ 服裝 ’ ” 或者 “ ‘ 化妝 ’‘ 和服 ’‘ 裝 ’ ” 。由于沒有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案正確。 交叉歧義相對(duì)組合歧義來說還算比較容易處理,組合歧義就 必須 根據(jù)整個(gè)句子來判斷了。例如,在句子 “ 這個(gè)門把手壞了 ” 中, “ 把手 ” 是個(gè)詞,但在句子 “ 請(qǐng)把手拿開 ” 中, “ 把手 ” 就不是一個(gè)詞;在句子 “ 將軍任命了一名中將 ” 中, “ 中將 ” 是個(gè)詞,但在句子 “ 產(chǎn)量三年中將增長(zhǎng)兩倍 ” 中, “ 中將 ” 就不再是詞。 如果交叉歧義和組合歧義計(jì)算機(jī)都能解決的話,在歧義中還有一個(gè)難題 ,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個(gè)應(yīng)該是詞,哪個(gè)應(yīng)該不是詞。例如: “ 乒乓球拍賣完了 ” ,可以切分成 “ ‘ 乒乓 ’‘ 球拍 ’‘ 賣 ’‘ 完 ’‘ 了 ’ ”、也可切分成 “ ‘ 乒乓球 ’‘ 拍賣 ’‘ 完 ’‘ 了 ’ ” ,如果沒有上下文其他的句子,恐怕誰也不知道 “ 拍賣 ” 在這里算不算一個(gè)詞。 ( 2) 新詞識(shí)別 新詞,專業(yè)術(shù)語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實(shí)能稱為詞的那些詞。最典型的是人名,人可以很容易理解句子 “ 王軍虎去廣州了 ” 中, “ 王軍虎 ” 是個(gè)詞,因?yàn)槭且粋€(gè)人的名字,但要是讓計(jì)算機(jī)去識(shí)別就困難了。如果把 “ 王軍虎 ” 作為 一個(gè)詞收錄到字典中去,全世界有那么多名字,而且每時(shí)每刻都有新增的人名,收錄這些人名本身就是一項(xiàng)巨大的工程。即使這項(xiàng)工作可以完成,還是會(huì)存在問題,例如:在句子 “ 王軍虎頭虎腦的 ” 中, “ 王軍虎 ”還能不能算詞? 新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引第四章 總體設(shè)計(jì)與實(shí)現(xiàn)工具的選擇 25 擎來說,分詞系統(tǒng)中的新詞識(shí)別十分重要。目前新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。 實(shí)現(xiàn)工具 ICTCLAS 正是 由于 中 文分詞 技術(shù) 存在著 上述 固有 的 難題所以目前并沒有一套 十全十美的解決方案。而較為成功的中文分詞系統(tǒng)也不多見,盡管這樣也 有 必要 選擇 一個(gè)高效的分詞系統(tǒng)來為本系統(tǒng)服務(wù)的。 一、 海量中文智能分詞 海量中文智能分詞由海量信息技術(shù)有限公司推出,這也是目前國(guó)內(nèi)唯一實(shí)現(xiàn)商業(yè)化服務(wù)的中文智能分詞系統(tǒng)。海量也是唯一一家專業(yè) 從事中文智能計(jì)算及信息數(shù)據(jù)挖掘技術(shù)的理論研究、技術(shù)開發(fā) 的國(guó)內(nèi)公司。 這套分詞系統(tǒng)服務(wù)方向極為廣泛,處理性能優(yōu)秀。其 切分準(zhǔn)確率達(dá) %,分詞速度為 2020 萬字 /分鐘 ,操作擴(kuò)展極為靈活,并 支持多平臺(tái),多碼制,多線程的應(yīng)用。在歧義識(shí)別和新詞識(shí)別方面有很好的性能和質(zhì)量,同時(shí)也提供了多分詞顆粒的選擇及語義指紋等特色功能。 二、 ICTCLAS ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)由中國(guó)科學(xué)院計(jì)算技術(shù)研究所推出,主要功能包括中文分詞 、 詞性標(biāo)注 、 命名實(shí)體識(shí)別 、 新詞識(shí)別 、 同時(shí)支持用戶詞典。 ICTCLAS 是目前 綜合性能最優(yōu) 分詞系統(tǒng) , 分詞速度單機(jī) 996KB/s,分詞精度 %, API 不超過 200KB,各種詞典數(shù)據(jù)壓縮后不到 3M。 它 全方位支持各種環(huán)境下的應(yīng)用開發(fā) —— ICTCLAS 全部采用 C/C++編寫,支持 Linux、 FreeBSD 及 Windows 系列操作系統(tǒng),支持 C/C++、 C、 Delphi、 Java等主流的開發(fā)語言。 ICTCLAS 為免費(fèi)系統(tǒng), 在綜合考慮分詞系統(tǒng)的速度、方便程度和價(jià)格等因素后,最終決定采用 ICTCLAS 最新 版 分詞系統(tǒng)。 表 為 本系統(tǒng)用到 ICTCLAS 中的幾 個(gè)接口函數(shù) 和 數(shù)據(jù)結(jié)構(gòu): 26 Web 信息抽取中的 文本分類 表 使用到的接口函數(shù) 函數(shù) 參數(shù) 描述 bool ICTCLAS_Init(const char * sInitDirPath=NULL) sInitDirPath 初始化目錄地址(配置文件和詞庫(kù)) 初始化分詞系統(tǒng) bool ICTCLAS_Exit() 分詞系統(tǒng)退出 ICTCLAS_API const result_t * ICTCLAS_ParagraphProcessA(const char *sParagraph,int *pResultCount) sParagraph 待分詞字符串 pResultCount 分詞個(gè)數(shù) 進(jìn)行分詞處理并將結(jié)果集地址返回給result_t 類型指針 圖 ICTCLAS 的分詞結(jié)果集數(shù)據(jù)結(jié)構(gòu) 在圖 所示的結(jié)構(gòu) 中: ? start 詞語在輸入句子中的開始位置 ? length 詞語的長(zhǎng)度 ? POS_id 詞性 ID 值,可以快速的獲取詞性表 ? ID 詞語 ID 如果是未登錄詞,設(shè)成 0 或者 1 中文停用詞 在分詞和詞頻統(tǒng)計(jì)的時(shí)候有比要過濾掉一部分 無用的中文詞語,比如:的、地、之等大量出現(xiàn)而對(duì)文本分類沒有好處的詞語。 實(shí)踐過程中發(fā)現(xiàn)僅通過停用詞的過濾方式并不完善,因?yàn)?這樣 過濾掉的詞語數(shù)量較少?zèng)]有達(dá)到提 高效率的目的。 現(xiàn)代漢語中使用率最高的三類詞分別是名詞、動(dòng)詞和形容詞,而 在一個(gè)文本中能夠反映文本主題或者語義的詞語 主要都是 名詞和動(dòng)詞 ,所以按詞性進(jìn)行過濾的效果會(huì)更好更加明顯。在分詞的結(jié)果集中 POS_id 就反映了詞語的詞性。所以這里的中文停用詞僅為輔助的過濾手段,主要 的目的是 過濾掉名詞和動(dòng)詞中需要 特第四章 總體設(shè)計(jì)與實(shí)現(xiàn)工具的選擇 27 別 過濾掉的詞語。 英文停用詞 在 ICTCLAS 中字符串或者說英文詞都是作為未登陸詞處理的,詞語的 ID 一般是設(shè)為 1 的,在 Web 文本中經(jīng)常出現(xiàn)機(jī)構(gòu)名的縮寫、英文中的介詞、網(wǎng)址等等這樣無關(guān)緊要的字符串, 而這些字符串往往又大量的出現(xiàn),這必然 引起 詞頻統(tǒng)計(jì)工作的浪費(fèi),而且也會(huì)降低分類精度,所以也有必要將這些詞或者字符串過濾掉。 用戶字典 在分詞系統(tǒng)中都有未登陸詞識(shí)別的功能,但它不一定總是能滿足的要求,比如將兩個(gè)未登陸的詞分開識(shí)別,而需要的詞語是兩個(gè)詞語連在一起的新詞。這時(shí)就有必要讓用戶自己能夠定義一些新詞,而戶字典的目的就是記錄這些用戶定義的新詞。 有時(shí)雖然分詞分出的兩個(gè)詞都是登陸的詞,但是需要的詞是兩個(gè)詞連在一起的新詞,如:“你好啊”,你好是一個(gè)登陸詞, “ 啊 ” 也是一個(gè)登陸詞,但希望分詞能夠?qū)⑺?們分在一起,這時(shí)也需要用戶字典來定義這樣的新詞。 文本向量空間模型 (VSM)及文本特征選取 前邊分析得出文本是不能直接進(jìn)行向量化的,是需要進(jìn)行特殊的向量化 處理的。這里使用文本向量空間模型的方法對(duì)文本進(jìn)行向量化,也就是基于特征詞的向量化過程。 文本特征及文本相似度 文本特征就是通過某種選擇策略選擇出來的若干詞語,對(duì)于一篇文章來說,它的文本特征 的選擇策略 應(yīng)該反映了這篇文章主旨或者說是它的主要內(nèi)容,而對(duì)于多篇文章來說,它們文本特征 的選擇策略 則 應(yīng)該 反映出了這些文章的共同點(diǎn) ,這種共同點(diǎn)可以 是文章涉及領(lǐng)域也可以是它們的關(guān)聯(lián)關(guān)系還可以是它們的相似之處,對(duì)于多類多篇文章的文本特征,這種文本特征的選擇策略應(yīng)該反映了多類文本之間的區(qū)別又應(yīng)該反映了同類文本中的共同點(diǎn)。 28 Web 信息抽取中的 文本分類 詞頻 ( Term Frequency) 在文本特征的選擇中,有著重要的地位,因?yàn)橐黄恼?所涉及的內(nèi)容,必然是關(guān)于某個(gè)方面,這方面的詞語應(yīng)該這文章中不同程度的大量出現(xiàn),所以通過統(tǒng)計(jì)詞頻方法就可以確定關(guān)鍵的詞語。但這個(gè)過程必須過濾掉某些無關(guān)詞語 ,如:助詞、介詞等詞頻很高又沒有實(shí)際價(jià)值的詞語。 由于文本特征的特性,所以文本特征可以從一定程度上反映了 文本的相似度,基于相同的文本特征的文本向量,如果相同或者差別較小,可以說兩篇文章所涉及的內(nèi)容大致相同,如果文本向量相同,即使文本不完全相同,也說明文本相似度極大。 從這個(gè)角度說文本特征選擇的質(zhì)量可以影響文本相似度的評(píng)定,好的文本特征集以及基于此文本特征的文本向量可以直接用來實(shí)現(xiàn)文本相似度的比較,也可以用于生成語義指紋等。 文本特征選取的目標(biāo)和策略 由于文本特征選取的質(zhì)量對(duì)于文本分類的質(zhì)量至關(guān)重要,所以選擇一個(gè)好的選取策略 對(duì)提高文本特征的質(zhì)量也是至關(guān)重要的。 一個(gè)好的文本特征應(yīng)該具有以下幾個(gè)特點(diǎn) : ( 1) 代表性好,能夠反映同類 別 文本的共同特點(diǎn) ; ( 2) 區(qū)分性好,能夠反映不同類 別 文本的重要區(qū)別和同類文本的細(xì)微差別 ; ( 3) 數(shù)量適中,文本特征的數(shù)量如果過少則 達(dá)不到代表性好的目的,部分很有代表性的詞語未能被選入文本特征集,降低了分類的精度; 但也不是越多越好,過多的文本特征將降低 文本向量化和分類的速度,使系統(tǒng)的效率降低 ,有時(shí)很大的特征數(shù)量會(huì)極大的降低特征集的區(qū)分性使分類精度反而降低 。 文本特征的選擇方法 [8] 有:過濾法、融合法、映射法、聚類法。 一、 過濾法 過濾法具有很快的速度, 很適合大規(guī)模文本的特征提取問題。 文本特征提取的過濾法主要有詞頻、信息增益、 CHI 統(tǒng)計(jì)、互信息等。 詞頻 ( Document Frequency) 這里的 詞頻( Document Frequency) 區(qū)別于 小節(jié)中 的( Term Frequency) , 是指在訓(xùn)練語料中出現(xiàn)該詞條的文檔數(shù)。 采用 詞頻 作為特征抽取基于如下基本假設(shè):太低或太高 DF 的詞條不第四章 總體設(shè)計(jì)與實(shí)現(xiàn)工具的選擇 29 含或含有較少的類別信息。將這樣的詞條從原始特征空間中移除,不但能夠降低特征空間的維數(shù),而且還有可能提高分類的精度。 信息增益 1 1 1( ) ( ) ( ) ( | ) l o g ( | ) ( ) ( | ) l o g ( | )m m mi i i i ii i iI G t P c P t P c t P c t P t P c t P c t? ? ?? ? ? ?? ? ? 式 ( 41) 其中 ()iPc 表示 ic 類文檔在語料中出現(xiàn)的概率, ()Pt 表示語料中包含詞條 t 的文檔的概率, ( | )iPc t 表示文檔包含 詞 條 t 時(shí)屬于 ic 類的條件概率,()Pt 表示語料中不包含詞條 t 的文檔的概率, ( | )iPc t 表示文檔不包含詞條 t 時(shí)屬于 ic 的條件概率, m 表示類別數(shù)。 CHI 統(tǒng)計(jì) A 表示屬于 c 類且包含 t 的文檔頻數(shù), B 表示不屬于 c 類 別 但是包含 t的文檔頻數(shù), C 表示屬于 c 類 別 但是不包含 t 的文檔頻數(shù), D 是既不屬于 c也不包含 t 的文檔頻數(shù)。則 t 對(duì)于 c 的 CHI 值由下式計(jì)算: 22 ()( , ) ( ) ( ) ( ) ( )N A D C Btc A C B D A B C D???? ? ? ? ? ? 式 ( 42) 對(duì)于多類問題,分別計(jì)算 t 對(duì)于每個(gè)類別的 CHI 值,再用下式計(jì)算詞條 t 對(duì)于整個(gè)語料的 CHI ,分別進(jìn)行檢驗(yàn): 22m a x 1( ) m a x ( , )miit t c?? ? ? 式 ( 43) 其中 m 為類別數(shù)。從原始特征空間中移除低于特定閾值的詞條,保留高于該閾值的詞條作為文檔特征。另一種方法是將詞條對(duì)于各個(gè)類別的平均 CHI 值作為它對(duì)所有類別的 CHI 值,但是它的表現(xiàn)不如( 43)式。 互信息 互信息( Mutual Information)在統(tǒng)計(jì)語言模型中被廣泛采用
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1