【正文】
以往實(shí)驗(yàn) 從對比實(shí)驗(yàn)結(jié)果的比較中發(fā)現(xiàn):對于華碩臺式電腦,本文實(shí)驗(yàn)的準(zhǔn)確率與召回率相對于以往實(shí)驗(yàn)分別提高了9%%;對于蘋果iPhone4S手機(jī),本文實(shí)驗(yàn)的準(zhǔn)確率與召回率相對于以往實(shí)驗(yàn)分別提高了7%%;%%。本文實(shí)驗(yàn)的準(zhǔn)確率、召回率以及值均高于以往實(shí)驗(yàn)結(jié)果,表明本文的算法性能要強(qiáng)于以往實(shí)驗(yàn),推進(jìn)了基于統(tǒng)計(jì)規(guī)則方法對中文產(chǎn)品特征進(jìn)行挖掘?qū)嶒?yàn)的進(jìn)步。 實(shí)驗(yàn)誤差分析按照本文的實(shí)驗(yàn)步驟,對于實(shí)驗(yàn)的誤差總結(jié)分析如下:(1)人工挖掘產(chǎn)品特征的誤差。在本文的實(shí)驗(yàn)中,對于正確產(chǎn)品特征的獲取是采用人工挖掘并進(jìn)行多人投票的方式進(jìn)行的,盡管多人投票能夠在一定程度上避免單人進(jìn)行人工挖掘的主觀性,但是人工挖掘產(chǎn)品特征仍然避免不了主觀態(tài)度以及相對誤差,影響著正確產(chǎn)品特征集的建立。(2)分詞及詞性標(biāo)注誤差。本文采用張華平博士研發(fā)并最新發(fā)布NLPIR/ICTCLAS 2015分詞系統(tǒng)對評論語料進(jìn)行分詞及詞性標(biāo)注,盡管該軟件目前在國內(nèi)國際評測中排名第一,但是仍然存在分詞及詞性標(biāo)注的誤差。例如“前置的耳麥插口比較方便”這一評論語句經(jīng)過分詞及詞性標(biāo)注后為“前/f 置/v的/u 耳/n 麥/n 插口/n 比較/d 方便/a”,很明顯產(chǎn)品特征“耳麥”被分詞工具分割為兩個(gè)獨(dú)立的名詞,在之后構(gòu)建事務(wù)文件并提取頻繁規(guī)則項(xiàng)時(shí)將會被過濾掉,類似這樣分詞的情況造成了實(shí)驗(yàn)結(jié)果的誤差。此外,例如“感覺服務(wù)還不錯(cuò)”這一評論語句經(jīng)過分詞及詞性標(biāo)注后為“感覺/n 服務(wù)/v 還/d 不錯(cuò)/a”,很明顯“服務(wù)”這一產(chǎn)品特征經(jīng)過詞性標(biāo)注為動詞,直接在構(gòu)建事務(wù)文件時(shí)被剔除,這種詞性標(biāo)注的誤差也對實(shí)驗(yàn)結(jié)果造成了影響。(3)形容詞鄰近度剪枝算法誤差。在形容詞鄰近度剪枝算法中,本文設(shè)定了最小限制值,當(dāng)候選產(chǎn)品特征與形容詞的詞語距離大于該值時(shí),就將其從候選產(chǎn)品特征集中移除。但是,在評論語句中,有些產(chǎn)品特征名詞或名詞短語附近并不存在修飾其的形容詞,在經(jīng)歷形容詞鄰近度算法步驟后就會被過濾掉,使實(shí)驗(yàn)結(jié)果的召回率降低,對實(shí)驗(yàn)結(jié)果造成了誤差。(4)常規(guī)非產(chǎn)品特征剪枝算法誤差。與人工挖掘產(chǎn)品特征的誤差類似,常規(guī)非產(chǎn)品特征集合的構(gòu)建也是采用人工挖掘以及多人投票的方式進(jìn)行的,這就導(dǎo)致了非產(chǎn)品特征集合的產(chǎn)生受到一定程度的主觀影響,非產(chǎn)品特征集合的不同構(gòu)建導(dǎo)致了最終產(chǎn)品特征集的不同,影響著實(shí)驗(yàn)的準(zhǔn)確率。 本章小結(jié)本章為本文最重要的一個(gè)部分,即進(jìn)行用戶評論中產(chǎn)品特征的挖掘?qū)嶒?yàn)。本章首先介紹了實(shí)驗(yàn)評論語料的來源及獲取方法,同時(shí)對算法性能評估方法進(jìn)行了說明,做好了實(shí)驗(yàn)前的準(zhǔn)備工作。之后按照前兩章對于相關(guān)算法的介紹,分別進(jìn)行基于關(guān)聯(lián)規(guī)則挖掘算法的產(chǎn)品特征挖掘得到候選產(chǎn)品特征,以及候選產(chǎn)品特征的剪枝得到最終準(zhǔn)確的產(chǎn)品特征集。本章還對冗余性剪枝和形容詞鄰近度剪枝兩個(gè)算法的閾值進(jìn)行了參數(shù)實(shí)驗(yàn),得到了實(shí)驗(yàn)效果最佳的參數(shù)設(shè)置值;并將本文的方法與之前學(xué)者的研究方法進(jìn)行了對比實(shí)驗(yàn),得到了增加形容詞鄰近度剪枝后挖掘效果更佳的結(jié)論。最后,本章對實(shí)驗(yàn)中可能出現(xiàn)誤差的原因進(jìn)行了分析與總結(jié)。 學(xué)習(xí)好幫手. . . .. .結(jié)論產(chǎn)品特征挖掘是觀點(diǎn)挖掘的第一步,具有舉足輕重的作用,為后續(xù)情感分析對用戶觀點(diǎn)的極性及強(qiáng)度的判斷做鋪墊。同時(shí),產(chǎn)品特征挖掘?qū)οM(fèi)者購買產(chǎn)品、商家判斷哪些產(chǎn)品特征是用戶最為關(guān)注、代銷商決定進(jìn)貨產(chǎn)品及數(shù)量都具有重要意義。本文采用Apriori關(guān)聯(lián)規(guī)則挖掘算法對評論語料進(jìn)行產(chǎn)品特征挖掘,算法生成的頻繁項(xiàng)集即為候選產(chǎn)品特征集合。候選產(chǎn)品特征剪枝是本文的關(guān)鍵步驟,本文依次進(jìn)行包含單字剪枝、頻繁三項(xiàng)集剪枝的基礎(chǔ)剪枝,以往研究中較成熟的鄰近規(guī)則剪枝、冗余性剪枝,以及本文在以往算法基礎(chǔ)上新增加的形容詞鄰近度剪枝,最終進(jìn)行頻繁非產(chǎn)品特征剪枝得到最終的產(chǎn)品特征集合。本文選取華碩臺式電腦、蘋果iPhone 4S手機(jī)、佳能6D套機(jī)三種商品的用戶評論作為本文實(shí)驗(yàn)的評論語料集,以準(zhǔn)確率、召回率、值為評價(jià)指標(biāo),對于獨(dú)立支持度與形容詞鄰近度的最小限制值進(jìn)行了剪枝算法參數(shù)實(shí)驗(yàn),發(fā)現(xiàn)當(dāng)獨(dú)立支持度限制值一定時(shí),隨著形容詞鄰近度限制值的增加,值整體呈增長趨勢,實(shí)驗(yàn)挖掘效果增強(qiáng);其次,對于獨(dú)立支持度與形容詞鄰近度限制值的9種不同組合中,當(dāng)限制獨(dú)立支持度2,形容詞鄰近度3時(shí),值最大,即此時(shí)產(chǎn)品特征挖掘結(jié)果最佳,實(shí)驗(yàn)效果最好。此外,本文將本文的產(chǎn)品特征挖掘方法與以往研究中的方法進(jìn)行對比實(shí)驗(yàn),%%,即本文增加形容詞鄰近度剪枝算法后挖掘效果更佳。實(shí)驗(yàn)后本文還對實(shí)驗(yàn)的誤差進(jìn)行了總結(jié)分析,發(fā)現(xiàn)誤差主要存在于人工挖掘產(chǎn)品特征、分詞及詞性標(biāo)注、形容詞鄰近度剪枝算法、常規(guī)非產(chǎn)品特征剪枝算法四方面。因此,如何進(jìn)一步避免誤差使算法性能增強(qiáng)是今后產(chǎn)品特征挖掘研究的重點(diǎn)。此外,對于隱性產(chǎn)品特征挖掘以及后續(xù)觀點(diǎn)極性以及強(qiáng)度判斷的研究也是以后研究的方向。參考文獻(xiàn)[1] 第35次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[J]. 互聯(lián)網(wǎng)天地,2014,07:7189.[2] 郗亞輝,張明,袁方,[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2011,05:1623+38.[3] 伍星,何中市,[J].計(jì)算機(jī)工程與應(yīng)用,2008,36:3741.[4] ZHUANG Li,JING Feng, ZHU Xiaoyan. Movie review mining and summarization [C]//Proceedings of the 2006 ACM CIKM International Conference on Information and Knowledge Management. New York: ACM Press,2006:4350.[5] MENG X,WANG H. Mining user reviews: from specification to of the ACLIJCNLP 2009 Conference Short Papers, Singapore,2009:177180.[6] KOBAYASHI N,INUI K, MATS11M0T0 Y,et al. Collecting evaluative expressions for opinion extract ion[C]. Natural Language Processing IJCNLP 2004. Springer,2005:596605.[7] 張陽. 基于產(chǎn)品評論的觀點(diǎn)挖掘研究[D].西北大學(xué),2014.[8] HU M, LIU B. Mining and summarizing customer reviews[C].Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, Seat le,2004:168177.[9] HU M,LIU B. Mining opinion features in customer reviews[C]. Proceedings of the National Conference on Artificial Intelligence, San Jose, 2004:755760.[10] POPESCU A_M,ETZI0NI 0, Extracting product features and opinions from reviews[C],Natural language processing and text mining, Springer, 2007:928.[11] MEI Q, LING X, W0NDRA M, et al. Topic sentiment mixture: modeling facets and opinions in weblogs[C]. Proceedings of the 16th international conference on World Wide Web, Raleigh, 2007:171180.[12] WANG Bo, WANG Houfeng. Bootstrapping both product properties and opinion words from Chinese reviews with crosstraining [C].Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence. Washington: IEEE Computer Society, 2007:259262.[13] JIN W,HO H H, SRIHARI R K. OpinionMiner: a novel machine learning system for web opinion mining and extraction [C]. Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, Paris, 2009:11951204.[14] 李培. 產(chǎn)品評論挖掘的觀點(diǎn)抽取和分類技術(shù)研究[D]. 重慶: 重慶大學(xué)計(jì)算機(jī)學(xué)院, 2009[15] 李實(shí). 中文網(wǎng)絡(luò)客戶評論中的產(chǎn)品特征挖掘方法研究[D].哈爾濱工業(yè)大學(xué),2009.[16] 李實(shí),葉強(qiáng),李一軍,羅嗣卿. 挖掘中文網(wǎng)絡(luò)客戶評論的產(chǎn)品特征及情感傾向[J]. 計(jì)算機(jī)應(yīng)用研究,2010,08:30163019.[17] XIA Yunqing, XU Ruifeng, WONG Kam The unified collocation framework for opinion mining [C] / /Proceedings of the 6th International Conference on Machine Learning and Cybernetics. Washington: IEEE Computer Society, 2007: 844850.[18] [D]. 重慶:重慶大學(xué)計(jì)算機(jī)學(xué)院, 2009.[19] [D].大連理工大學(xué),2013.[20] 王永,張勤,楊曉潔. 中文網(wǎng)絡(luò)評論中產(chǎn)品特征提取方法研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2013,12:7073.致謝隨著這篇本科畢業(yè)論文的完成,我大學(xué)四年的學(xué)習(xí)生活即將畫上句點(diǎn)。在過去的四年中,有太多的人想要感謝。首先,我要向我畢業(yè)論文的指導(dǎo)教師王名揚(yáng)副教授表達(dá)我衷心的感謝。王老師從論文選題、開題、到論文成稿,都為我提供了大量的建議與指導(dǎo)。她對待科研嚴(yán)謹(jǐn)認(rèn)真的態(tài)度、對待工作勤奮負(fù)責(zé)的作風(fēng)、對待學(xué)生尊重耐心的師表對我產(chǎn)生了潛移默化的巨大影響。使我在撰寫畢業(yè)論文期間對待實(shí)驗(yàn)數(shù)據(jù)等也都養(yǎng)成一絲不茍的態(tài)度,并在解決問題的過程中對科研工作逐漸產(chǎn)生了興趣,這些收獲對我今后研究生的學(xué)習(xí)生活也受益匪淺。 另外,還要感謝李實(shí)老師、于鳴老師在畢業(yè)論文開題答辯中對我論文選題及具體過程提出的改進(jìn)意見,老師的意見一針見血,對我后來畢業(yè)論文具體過程的修改產(chǎn)生了積極的作用。感謝在論文選題過程中給我鼓勵的張謹(jǐn)、張晶同學(xué),她們在我選題遇到困難時(shí)的鼓勵使我能夠堅(jiān)持在規(guī)定時(shí)間完成開題任務(wù);感謝撰寫論文期間與我共同討論實(shí)驗(yàn)過程中遇到的問題,并試圖幫我解決的張謹(jǐn)同學(xué),在討論中使我從誤區(qū)中走出,有了更加清晰的思路。最后,感謝父母對于我學(xué)習(xí)上的鼓勵與信任,生活上的關(guān)心與照顧。感謝四年的大學(xué)學(xué)習(xí)生活中所有教誨我的老師和關(guān)心鼓勵我的同學(xué)們!寧可累死在路上,也不能閑死在家里!寧可去碰壁,也不能面壁。是狼就要練好牙,是羊就要練好腿。什么是奮斗?奮斗就是每天很難,可一年一年卻越來越容易。不奮斗就是每天都很容易,可一年一年越來越難。能干的人,不在情緒上計(jì)較,只在做事上認(rèn)真;無能的人!不在做事上認(rèn)真,只在情緒上計(jì)較。拼一個(gè)春夏秋冬!贏一個(gè)無悔人生!早安!—————獻(xiàn)給所有努力的人.千萬不要刪除行尾的分節(jié)符,此行不會被打