freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

從評論語料庫中挖掘產(chǎn)品特征詞畢業(yè)論文(已修改)

2025-06-30 05:40 本頁面
 

【正文】 重慶科技學(xué)院本科畢業(yè)生論文 目錄從評論語料庫中挖掘產(chǎn)品特征詞畢業(yè)論文目錄中文摘要 I英文摘要 II1 緒論 1 研究背景 1 選題意義 1 從評論語料庫中挖掘產(chǎn)品特征詞的研究現(xiàn)狀 2 產(chǎn)品特征詞挖掘的發(fā)展前景 3 漢語分詞介紹 3 特征詞挖掘的相關(guān)算法 6 開發(fā)環(huán)境介紹 62 產(chǎn)品特征詞的挖掘 8 8 9 弱監(jiān)督機器學(xué)習(xí)方法介紹 9 產(chǎn)品評論內(nèi)容的分析 13 產(chǎn)品評論統(tǒng)計特征的提取 13 模式結(jié)構(gòu)與模式特征集 143系統(tǒng)設(shè)計 16 系統(tǒng)總體設(shè)計 16 系統(tǒng)界面設(shè)計 16 特征詞挖掘的系統(tǒng)設(shè)計 214 系統(tǒng)測試 23 系統(tǒng)功能測試 23 系統(tǒng)的不足 24 系統(tǒng)的后續(xù)工作 24總結(jié) 26致謝 27參考文獻 28重慶科技學(xué)院本科畢業(yè)生論文 1緒論1 緒論隨著Internet的廣泛應(yīng)用,用戶使用產(chǎn)品會通過Web 對產(chǎn)品進行評論,這些評論中包含用戶對產(chǎn)品的各個方面的性能持有肯定還是否定的意見。產(chǎn)品評論中蘊涵了豐富的信息,生產(chǎn)廠商分析產(chǎn)品評論可以了解產(chǎn)品的不足和用戶實際需求以改進產(chǎn)品,用戶瀏覽產(chǎn)品評論可以在購買產(chǎn)品之前更多地了解產(chǎn)品,從而更加合理地購買產(chǎn)品。要從大量使用自然語言進行描述用戶評論獲取信息,只有通過人工逐一閱讀,這是一個需要大量時間和精力的過程,因此,需要自動化的產(chǎn)品評論挖掘來更快地從大量的用戶評論中獲取信息。產(chǎn)品評論大多用自然語言進行描述,生產(chǎn)廠商和用戶只有采用人工閱讀的方式才能從中提取信息,而這是一個費時、費力且容易產(chǎn)生錯誤的過程,因此,產(chǎn)生了自動產(chǎn)品評論挖掘的需求。產(chǎn)品評論挖掘一般分為產(chǎn)品特征提取、主觀句定位和用戶詞性判斷和挖掘結(jié)果顯示等4個階段。產(chǎn)品特征提取作為產(chǎn)品評論挖掘的第1個階段,目的是從眾多的用戶評論中挖掘出用戶所關(guān)心的產(chǎn)品特征,從而對實際產(chǎn)品銷售和售后服務(wù)做出正確的評價,幫助決策者和購買者能夠最大限度的了解現(xiàn)有產(chǎn)品的特點和特征。找出用戶最感興趣和最希望提供的功能,從而改進產(chǎn)品。用戶購買產(chǎn)品之前可以了解已經(jīng)購買了該產(chǎn)品的用戶關(guān)于該產(chǎn)品的使用體驗,了解產(chǎn)品各個方面的性能,還可以對同類型的產(chǎn)品按照性能進行比較,從而合理的購買產(chǎn)品。產(chǎn)品特征提取目的是從眾多的用戶評論中挖掘出用戶所關(guān)心的產(chǎn)品特征(比如:相機的產(chǎn)品特征包括重量、大小、圖片的質(zhì)量、電池的使用時間、存儲容量等;手機的產(chǎn)品特征包括制式、重量、體積、屏幕大小、攝像頭像素等)。由于角度不同及用戶通常使用一些常識性描述,生產(chǎn)廠家所使用的產(chǎn)品功能和不見特征名稱與用戶所表達出來的有很多是不一樣的,主要對廠家產(chǎn)品的規(guī)格特征和用戶描述特征提取及其關(guān)系進行了研究。抽取出產(chǎn)品特征之后就著重于研究用戶對某個產(chǎn)品特征的看法,即在一個表達了用戶看法的主管句中提取出產(chǎn)品特征、極性詞匯及程度,在現(xiàn)有研究的處理過程中,對產(chǎn)品特征并未進行歸類處理,所有的特征地位都是等同的,故本來處于上下位的特征可能放在不同的表示中,這樣就造成用戶看到的是沒有主次之分的特征,同時有些本是同一特征的不同表示方法,卻歸納到不同的特征中去,這種情況下雖然對某些特征進行了評價,但由于使用哪個不同的詞語作為產(chǎn)品特征,結(jié)果對同一部件的評價放在了不同的展示中,這樣展現(xiàn)給用戶的是很多沒有主次之分特征堆積。摩托羅拉A1890(MOTO A1890):圖 (MOTO A1890)天翼3G雙網(wǎng)雙待手機評論在這種情況下,對產(chǎn)品特征之間的層次關(guān)系合理且準(zhǔn)確處理的要求,就顯得非常急迫,本課題應(yīng)運時勢,對產(chǎn)品特征進行分層次的特征抽取。 從評論語料庫中挖掘產(chǎn)品特征詞的研究現(xiàn)狀產(chǎn)品評論挖掘需要了解用戶對產(chǎn)品的哪些功能、性能進行了評價,因此需要從產(chǎn)品評論語句中提取表達了用戶評價的對象——產(chǎn)品特征。產(chǎn)品特征提取的目的是發(fā)現(xiàn)用戶在產(chǎn)品評論中對哪些產(chǎn)品特征表達了自己的看法。用戶在產(chǎn)品評論中對特征的描述是一個開放性的問題,可能在產(chǎn)品評論中發(fā)表廠家根本沒有考慮到的一些性能,因此挖掘出產(chǎn)品評論中所提及的特征,了解用戶對這類產(chǎn)品最關(guān)心的功能及性能是很重要的。由于同類產(chǎn)品的特征基本一致,故可以利用產(chǎn)品特征對同類產(chǎn)品所獲得的評價進行對比。產(chǎn)品特征的提取分為人工定義和自動提取兩類。在人工定義方面,Kobayashi、Inui 和 Matsumoto 以人工定義方式提出了針對汽車的產(chǎn)品特征,建立了 287 個產(chǎn)品特征,每一個特征使用一個三元組進行表示(Attribute,Subject, Value),其中subject 表示產(chǎn)品,attribute 表示產(chǎn)品的特征,value 表示對這個特征的觀點;姚天昉利用本體建立了汽車的產(chǎn)品特征,該系統(tǒng)可在電子公告板、門戶網(wǎng)站的各大論壇上挖掘并且概括意見持有者對各種汽車品牌的不同性能指標(biāo)的評論和意見,并且判斷這些意見的褒貶性以及強度;Li Zhuang 針對電影人工定義電影的產(chǎn)品特征,將電影的產(chǎn)品特征分為兩類:電影的元素(screenplay, vision effect)和與和電影相關(guān)的人員(director, screenwriter, actor)。人工定義產(chǎn)品特征的方法需要每一個領(lǐng)域的產(chǎn)品都有該領(lǐng)域的專家參與,因此不具有移植性。同時人工定義的產(chǎn)品特征是靜態(tài)的,當(dāng)產(chǎn)品的功能發(fā)生改變后(比如手機加入了新的功能),只有重新召集領(lǐng)域?qū)<也拍軐⑿绿卣骷尤朐擃惍a(chǎn)品的產(chǎn)品特征集合中。而且人工定義的方法需要有人工標(biāo)注的語料作為訓(xùn)練集,不同種類的產(chǎn)品就必須要標(biāo)注不同的語料,這就相當(dāng)耗費時間,也無法適用所有種類的產(chǎn)品。產(chǎn)品評論挖掘在國內(nèi)外屬于新的研究方向,但是這方面研究的意義非常重大,它作為自然語言處理領(lǐng)域的一個重要應(yīng)用,涉及到了大量理論和應(yīng)用技術(shù),它對電子商務(wù)的發(fā)展有著直接的促進作用。本文主要研究了產(chǎn)品評論挖掘中的產(chǎn)品特征詞的抽取以。產(chǎn)品評論挖掘是一個充滿機遇和挑戰(zhàn)的研究領(lǐng)域,盡管取得了一些研究成果,但是許多問題還有待進一步的探索和研究。 漢語分詞介紹目前, 漢語自動分詞的研究重心主要集中在對傳統(tǒng)文本的有效切分上。在計算機科學(xué)、情報信息和語言文字研究三個領(lǐng)域的學(xué)者專家們的共同努力之下,傳統(tǒng)文本的有效切分已經(jīng)取得了重大進展。漢語詞的規(guī)范研究。由于漢語詞的規(guī)范是漢語自動分詞的基礎(chǔ)。沒有統(tǒng)一和明確的漢語詞的定義,漢有規(guī)范的漢語分詞詞表,漢語自動分詞就無從談起。在漢語語言學(xué)家和計算機中文信息處理研究專家們的共同努力之下,目前,我國漢語詞的規(guī)范研究和漢語分詞規(guī)范詞表的制定已經(jīng)有了較大突破?!缎畔⑻幚碛矛F(xiàn)代漢語分詞詞表》的制定及不斷完善, 說明了我國在漢語自動分詞詞表方面取得了重大研究成果, 這為漢語自動分詞的研究鋪平了道路。漢語詞自動切分算法。分詞算法研究是漢語自動分詞的重點和難點,每一次分詞算法上的突破都會使?jié)h語自動分詞的速度和精度有較大提高。據(jù)不完全統(tǒng)計, 目前,在漢語自動分詞方法和算法研究中,已經(jīng)出現(xiàn)了數(shù)十種分詞方法和算法。僅80 年代以來見諸報端的自動分詞方法和算法歸納起來就有:最大匹配法、逆向最大匹配法、逐詞遍歷法、設(shè)立切分標(biāo)志法、最佳匹配法、有窮多層次列舉法、二次掃描法、高頻優(yōu)先分詞法、基于期望的分詞法、聯(lián)想——回溯法、雙向掃描法、鄰接約束法、擴充轉(zhuǎn)移網(wǎng)絡(luò)分詞法、語境相關(guān)法、全自動詞典切詞法、基于規(guī)則的分詞法、多遍掃描聯(lián)想法、部件詞典法、鏈接表法、最少分詞詞頻選擇法、專家系統(tǒng)分詞法、基于神經(jīng)網(wǎng)絡(luò)的分詞方法、特征詞庫法、EM 算法、演化算法、直接匹配法和后綴匹配法、二分法、基于詞形的分詞算法、MM 分詞算法、改進的MM 分詞算法、RMM 算法和DMM 算法等上百種。傳統(tǒng)漢語分詞要獲得新的突破,只能在分詞算法上做文章,必須在現(xiàn)有的分詞算法和方法的基礎(chǔ)找到一種新的分詞算法,這是今后漢語自動分詞努力的重要方向之一。漢語詞自動切分歧義處理。漢語自動分詞的主要困難是歧義切分,而歧義在自動分詞普遍存在。隨著分詞研究的突破,分詞歧義處理研究也取得了重大進展。以前的消歧方法大體可分為兩類:規(guī)則方法與統(tǒng)計方法。由于自動分詞中存在三種歧義類型,不同類型的歧義,其產(chǎn)生的根源和消除的方法各不相同。因此,應(yīng)針對不同的歧義類型采取不同的解決方法:對于第一類歧義,由于他們本身就是漢語言中的歧義問題,解決這類歧義需要依靠上、下文語義信息,即增加語義、語用知識的處理。這無異對自動分詞的效率有很大的影響(時間上和空間上),而且實現(xiàn)起來比較困難。若是在詞處理的相應(yīng)階段,結(jié)合對分詞階段未解決的歧義字段進行處理,則會起到事半功倍的效果。統(tǒng)計表明,第一類歧義字段只占整個歧義字段總數(shù)的1/30 以下,因此不必在分詞階段花費巨大的開銷來處理它們。目前對第二類歧義處理方法主要有以下幾種:分詞知識處理法、聯(lián)想—回溯法、基于詞頻統(tǒng)計的方法、鄰接約束法、基于數(shù)學(xué)期望的方法。處理第三類歧義目前主要有兩種方法:一是增加構(gòu)詞知識,
點擊復(fù)制文檔內(nèi)容
外語相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1