freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

從評論語料庫中挖掘產(chǎn)品特征詞畢業(yè)論文-預(yù)覽頁

2025-07-12 05:40 上一頁面

下一頁面
 

【正文】 在這種情況下,對產(chǎn)品特征之間的層次關(guān)系合理且準(zhǔn)確處理的要求,就顯得非常急迫,本課題應(yīng)運(yùn)時勢,對產(chǎn)品特征進(jìn)行分層次的特征抽取。由于同類產(chǎn)品的特征基本一致,故可以利用產(chǎn)品特征對同類產(chǎn)品所獲得的評價進(jìn)行對比。同時人工定義的產(chǎn)品特征是靜態(tài)的,當(dāng)產(chǎn)品的功能發(fā)生改變后(比如手機(jī)加入了新的功能),只有重新召集領(lǐng)域?qū)<也拍軐⑿绿卣骷尤朐擃惍a(chǎn)品的產(chǎn)品特征集合中。產(chǎn)品評論挖掘是一個充滿機(jī)遇和挑戰(zhàn)的研究領(lǐng)域,盡管取得了一些研究成果,但是許多問題還有待進(jìn)一步的探索和研究。由于漢語詞的規(guī)范是漢語自動分詞的基礎(chǔ)。漢語詞自動切分算法。傳統(tǒng)漢語分詞要獲得新的突破,只能在分詞算法上做文章,必須在現(xiàn)有的分詞算法和方法的基礎(chǔ)找到一種新的分詞算法,這是今后漢語自動分詞努力的重要方向之一。以前的消歧方法大體可分為兩類:規(guī)則方法與統(tǒng)計方法。若是在詞處理的相應(yīng)階段,結(jié)合對分詞階段未解決的歧義字段進(jìn)行處理,則會起到事半功倍的效果。二是增加臨時詞典。隨著計算機(jī)技術(shù)和漢語語言研究的發(fā)展,漢語詞自動切分歧義處理將會有更大的突破。漢語自動分詞是中文信息處理的“瓶頸”問題, 它的最終解決依賴于漢語的分詞結(jié)構(gòu)、句法結(jié)構(gòu)、語義等語言知識的深入系統(tǒng)的研究。因?yàn)樽匀徽Z言理解既是人工智能研究領(lǐng)域需要解決的重大課題,也是漢語自動分詞研究的重要內(nèi)容。以上兩種思路也是近年來人工智能領(lǐng)域研究的熱點(diǎn)問題,應(yīng)用到分詞方法上, 于是產(chǎn)生了專家系統(tǒng)分詞法和神經(jīng)網(wǎng)絡(luò)分詞法。但仍難以解決復(fù)雜的漢語組詞關(guān)系。神經(jīng)網(wǎng)絡(luò)具有聯(lián)想、容錯、記憶、自適應(yīng)、自學(xué)習(xí)和處理復(fù)雜多模式等優(yōu)點(diǎn),不足的是網(wǎng)絡(luò)連接模型表達(dá)復(fù)雜,訓(xùn)練過程較長,不能對自身的推理方法進(jìn)行解釋,對未在訓(xùn)練樣本中出現(xiàn)過的新的詞匯不能給予正確切分;專家系統(tǒng)具有顯式的知識表達(dá)形式, 知識容易維護(hù),能對推理行為進(jìn)行解釋,并可利用深層知識來切分歧義字段;缺點(diǎn)是不能從經(jīng)驗(yàn)中學(xué)習(xí),當(dāng)知識庫龐大時難以維護(hù),在進(jìn)行多歧義字段切分時耗時較長,同時在知識表示、知識獲取和知識驗(yàn)證等方面存在一些問題。所謂“支持度”即關(guān)聯(lián)性規(guī)則的一個關(guān)鍵指標(biāo),它對頻繁項(xiàng)的形成有很大的影響,它是用于描述頻繁項(xiàng)出現(xiàn)頻度的指標(biāo),最低支持度(Minimum_Support)意為只對達(dá)到指定頻度的項(xiàng)集感興趣,如果指定最低支持度為小于1的值則關(guān)聯(lián)規(guī)則認(rèn)為研究者們只對頻度達(dá)到指定百分比的項(xiàng)集感興趣。這是因?yàn)槿藗兛梢允褂眯稳菰~描述很多主體,既有我們感興趣的,也有不相關(guān)的。并定于在微軟職業(yè)開發(fā)者論壇(PDC)上登臺亮相。C(讀做 C sharp,C sharp,現(xiàn)在很多非專業(yè)一般讀C井。并且C成為ECMA與ISO標(biāo)準(zhǔn)規(guī)范。而微軟當(dāng)前為它的這種新語言大造聲勢也是值得注意的,目前大家的反應(yīng)是:這是對Java的反擊。C能夠在用戶領(lǐng)域獲得這樣的禮遇嗎?我們必須等待并觀望,就像已經(jīng)由SSI公司的CEO和主席Kalpathi ,“我發(fā)現(xiàn)所有這些都是漸進(jìn)的。近年來,產(chǎn)品特征和觀點(diǎn)的挖掘已經(jīng)有了一些研究,這些研究中對產(chǎn)品特征和觀點(diǎn)詞的提取分為人工定義和自動提取兩類。人工定義產(chǎn)品特征和觀點(diǎn)需要每一個領(lǐng)域的產(chǎn)品都有該領(lǐng)域的專家參與,因此不具有移植性,不能應(yīng)對產(chǎn)品發(fā)生變化的情況。Soo Min Kim 則基于人工標(biāo)注的褒貶詞典找出評價詞,然后借助于 FrameNet 分析句子的語義結(jié)構(gòu)來找出評價對象。另現(xiàn)有的研究沒有處理多特征單觀點(diǎn)的問題,即在產(chǎn)品評論中,經(jīng)常會出現(xiàn)多個特征后面只接一個觀點(diǎn)詞的情況,如“打電話、播放 mp看圖片很方便”、“無論是從音場、低音效果,都非常令人咋舌”、“信號強(qiáng)度、按鍵、待機(jī)時間方面我都很滿意”,本文則通過自動獲得的產(chǎn)品特征詞和觀點(diǎn)詞對多特征單觀點(diǎn)的評價進(jìn)行處理。 現(xiàn)有的評論挖掘?qū)Ξa(chǎn)品評論的選取沒有作深入的研究。系統(tǒng)以人工提供的少量產(chǎn)品特征作為種子集合,發(fā)現(xiàn)產(chǎn)品評論語料庫中的產(chǎn)品特征出現(xiàn)語句,將這些語句按照給定的文本模式結(jié)構(gòu)進(jìn)行模式化表示,從中生成新的文本模式,再用這些自動獲取的文本模式來抽取新的產(chǎn)品特征,并將新的產(chǎn)品特征加入產(chǎn)品特征種子集合。 2)生成侯選文本模式 對|SO|中的語句進(jìn)行句法分析,并生成依存關(guān)系,將每個出現(xiàn)名詞或名詞短語作為中心詞的依存關(guān)系按照定義 1 中的文本模式結(jié)構(gòu)進(jìn)行模式化表示,每一個模式化表示的依存關(guān)系記為 Ti,將所有模式化表示的依存關(guān)系加入集合|T|。定義2 文本模式相似度:simT,T=Di+Dj+Li+Lj0 Reli=Relj并且MPoSi=MPoSj (2)3)評估侯選文本模式 評估侯選文本模式的目的是對候選模式集合|C|中的候選文本模式進(jìn)行評估以得到優(yōu)秀的文本模式,并將該優(yōu)秀模式加入文本模式集合以尋找新的產(chǎn)品特征。 采用BootStrapping方法來自動建立電子詞典,該方法給定的種子集合中的種子直接就是人工定義的文本模式,使用這些文本模式發(fā)現(xiàn)新的詞條。所有的候選模式采用定義3中的公式進(jìn)行置信度評價,將置信度最高的文本模式作為優(yōu)秀文本模式加入文本模式集合|P|。 2)評估侯選產(chǎn)品特征 候選產(chǎn)品特征集合|F|中每一個候選產(chǎn)品特征 Fi都可能被一個或多個文本模式得到,本文假設(shè):能夠被多個文本模式抽取得到的產(chǎn)品特征元組具有更高的可靠性。 產(chǎn)品評論內(nèi)容的分析對獲得的評論數(shù)據(jù)分析后發(fā)現(xiàn),產(chǎn)品評論具有很鮮明的特征:用戶的描述很散亂。有些作為評價對象的意義不明確,可能代表多種特征,如“效果、性能、速度”等詞語就不能單獨(dú)作為特征來看待,必須提取其前面的內(nèi)容作為真正的特征,如“照相、MP視頻播放,效果都是一般”,就需要把前面的“照相、MP視頻播放”提取出來。因此在對中文評論的挖掘中,模式就得和英語的有所不同,并且產(chǎn)品評論中可用來當(dāng)作模式的特征也不多。選取多少個最佳特征以及采用什么評價函數(shù),都需要針對某一個具體的問題通過實(shí)驗(yàn)來決定。在常用的幾種特征選擇方法如互信息、信息增益、TFIDF、詞頻方法以及χ2統(tǒng)計方法中,χ2統(tǒng)計方法通常優(yōu)于其它方法。為此,可以認(rèn)為有相似分布的特征項(xiàng)對文本分類應(yīng)該具有相似的貢獻(xiàn)。則t對于c的χ2值由式()計算: (6)由于N,A+C,B+D均是常數(shù),式(6)可以簡化為: (7) 當(dāng)特征t與類別c相互獨(dú)立時χ2(t,c)=0,此時特征t不包含任何與類別c有關(guān)的鑒別信息。覆蓋率要求模式結(jié)構(gòu)越簡單越好,但錯誤率要求模式結(jié)構(gòu)越復(fù)雜越好。重慶科技學(xué)院本科畢業(yè)生論文 3系統(tǒng)設(shè)計3系統(tǒng)設(shè)計 系統(tǒng)總體設(shè)計首先根據(jù)系統(tǒng)要達(dá)到的特征詞挖掘工作設(shè)計出總體的結(jié)構(gòu),:圖 系統(tǒng)界面設(shè)計系統(tǒng)界面是軟件使用者使用的界面,界面應(yīng)簡潔易懂,:系統(tǒng)主界面代碼如下:namespace TestSpliter{partial class Form1 {/// 必需的設(shè)計器變量。/paramprotected override void Dispose(bool disposing) {if (disposing amp。 }region Windows 窗體設(shè)計器生成的代碼ponent() { = new ()。 = new ()。()。 = new (107, 23)。 += new ()。 = true。 = 2。 = 。 = 6。 = menuStrip1。// // groupBox2// ()。 = new (695, 133)。// // textBox2// = 。 = new (689, 113)。 = new (75, 23)。 += new ()。()。()。(false)。(false)。private groupBox1。private button2。return。 39。 i 。 = 文本文件|*.txt。StreamWriter sw = (path)。} }要進(jìn)行特征詞的挖掘就要先進(jìn)行分詞,只要分詞準(zhǔn)確了就能將需要的特征詞提取出來。()。string[] re = (39。for (int i = 0。 }重慶科技學(xué)院本科畢業(yè)生論文 4系統(tǒng)測試4 系統(tǒng)測試 系統(tǒng)功能測試程序完成后為了檢驗(yàn)程序挖掘產(chǎn)品特征詞系統(tǒng)所提取的特征詞的準(zhǔn)確性進(jìn)行以下測試:對提供的預(yù)料進(jìn)行特征詞提取,例如;輸入:我剛了這個諾基亞手機(jī),是粉紅色的,看上去是長方形,帶有點(diǎn)橢圓,看上去不錯,功能也不錯。雖然成功的完成了系統(tǒng)是設(shè)計工作但是這只是文本挖掘的一個很小的部分,還有待完善。在論文完成之際,首先要感謝我的指導(dǎo)老師黃
點(diǎn)擊復(fù)制文檔內(nèi)容
外語相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1