freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

東北林業(yè)大學本科生畢業(yè)論文模板-文庫吧

2025-07-18 23:07 本頁面


【正文】 規(guī)則挖掘算法作為產(chǎn)品特征挖掘任務的底層算法。同時,在前人研究方法的基礎上進行了改進與補充,創(chuàng)新性地補充形容詞鄰近度這一條件過濾掉不符合條件的產(chǎn)品特征,以提高產(chǎn)品特征的挖掘性能。論文具體研究內(nèi)容如下:(1)產(chǎn)品特征的挖掘研究。本文主要借鑒Hu和Liu[89]等人率先提出的Apriori關(guān)聯(lián)規(guī)則挖掘算法來挖掘候選產(chǎn)品特征。在抽取產(chǎn)品特征之前,利用中科院研發(fā)的NLPIR/ICTCLAS 2015分詞系統(tǒng)對評論語料進行分詞和詞性標注,同時將每個評論中的名詞匯總于同一行中,建立關(guān)聯(lián)規(guī)則事務文件。利用Apriori關(guān)聯(lián)規(guī)則挖掘算法得到支持度滿足一定條件的候選產(chǎn)品特征一項集、二項集……以此作為候選產(chǎn)品特征。(2)候選產(chǎn)品特征的剪枝研究。由于利用算法提取出的產(chǎn)品特征并不都有意義,因此需要對候選特征進行剪枝,提高挖掘性能。首先,進行包含單字剪枝以及頻繁三項集剪枝的基礎剪枝,之后針對得到的頻繁二項集,進行鄰近規(guī)則剪枝、冗余性剪枝等對產(chǎn)品特征進行過濾。形容詞鄰近度剪枝是本文在前人基礎上補充的剪枝算法,即計算評論語句中候選產(chǎn)品特征與形容詞或副詞最近的距離,設定形容詞鄰近度限制值,過濾掉不滿足條件的候選產(chǎn)品特征。最后,收集常規(guī)非產(chǎn)品特征的詞匯,在候選產(chǎn)品特征中比對并過濾,得到最終的產(chǎn)品特征集。(3)實驗結(jié)果及分析。本文以中關(guān)村在線網(wǎng)站中華碩K30BDA3854M5臺式電腦、iPhone 4S手機、佳能6D套機(24105mm)三種產(chǎn)品的評論為研究對象,利用八爪魚采集器自動獲取評論語料,每種產(chǎn)品收集100條評論。依次對評論語料進行產(chǎn)品特征提取、候選產(chǎn)品特征剪枝等操作,并綜合考慮準確率與召回率兩個評價指標對算法性能進行評估。此外,本文對剪枝算法進行了參數(shù)實驗,得到最佳的參數(shù)限制值;并將本文算法與以往算法進行對比實驗。最后,分析實驗中出現(xiàn)的誤差,確定了算法改進的方向。 論文框架本文框架主要包括以下幾個部分:(1)第一部分是前言,詳細介紹了本課題的研究背景和意義,以及目前國內(nèi)外的研究現(xiàn)狀,最后介紹了本文的研究內(nèi)容以及論文框架。 (2)第二部分主要介紹了產(chǎn)品特征挖掘思想,并重點介紹了本文采用的Apriori關(guān)聯(lián)規(guī)則挖掘算法,并對提取頻繁規(guī)則項之前需進行的分詞及詞性標注、關(guān)聯(lián)規(guī)則事務文件的生成等內(nèi)容進行了介紹。(3)第三部分主要介紹了各類候選產(chǎn)品特征剪枝算法,包括基礎剪枝、鄰近規(guī)則剪枝、冗余性剪枝、形容詞鄰近度剪枝以及頻繁非產(chǎn)品特征剪枝算法的介紹。(4)第四部分是本文的關(guān)鍵步驟,對用戶評論中的產(chǎn)品特征進行了挖掘與剪枝的實驗。包括評論語料的獲取、算法性能評估,并對剪枝算法進行了參數(shù)實驗,還將本文算法與以往研究算法進行了對比實驗,最后對實驗誤差進行了分析。(5)最后一部分是對本篇論文的概括與總結(jié),對本篇論文的研究結(jié)論進行了介紹,并對今后基于本文的改進以及研究方向進行了展望。本文的整體框架圖如圖11所示:圖11 論文框架圖2 產(chǎn)品特征的挖掘產(chǎn)品特征的挖掘是觀點挖掘的第一步,具有舉足輕重的作用。如前所述,本文從用戶評論中挖掘的產(chǎn)品特征均為顯式特征,包括產(chǎn)品的屬性或功能、產(chǎn)品的部件、產(chǎn)品部件的屬性或功能、產(chǎn)品的相關(guān)概念等。目前針對產(chǎn)品特征的挖掘主要有基于統(tǒng)計的特征提?。▽a(chǎn)品特征挖掘問題轉(zhuǎn)化為頻繁項集的挖掘問題)、基于關(guān)鍵詞的特征提?。ń㈥P(guān)鍵詞列表)、基于規(guī)則的特征提取(從評論語料中提取模式并進行迭代)以及基于機器學習的特征提取(將特征挖掘問題轉(zhuǎn)化為機器學習問題)四大類方法。其中基于統(tǒng)計的特征提取是眾多特征提取方法中最簡單的一種,并且已發(fā)表的文章顯示結(jié)果也比較理想。因此,本文采用基于統(tǒng)計特征提取方法中最基本的Apriori關(guān)聯(lián)規(guī)則挖掘算法進行候選產(chǎn)品特征的挖掘。 Apriori算法Apriori算法是一種最有影響的關(guān)聯(lián)規(guī)則挖掘算法,該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。Apriori(先驗的,推測的)算法應用廣泛,可用于消費市場價格分析,猜測顧客的消費習慣;網(wǎng)絡安全領(lǐng)域中的入侵檢測技術(shù),根據(jù)用戶行為模式快速鎖定攻擊者等。而本文將其應用于候選產(chǎn)品特征的挖掘。下面將對該算法相關(guān)內(nèi)容進行詳細介紹。 頻繁項集頻繁項集是Apriori關(guān)聯(lián)規(guī)則挖掘算法中重要的一部分,設是一個項目集合,事務數(shù)據(jù)庫是由一系列具有唯一標識TID的事務組成,每個事務都對應I上的一個子集。支持度是模式為真的任務相關(guān)的元組(或事務)占所有元組的百分比。對于形如的關(guān)聯(lián)規(guī)則,支持度定義為:因此,支持度表示模式在事務數(shù)據(jù)庫中的出現(xiàn)頻率。此外,每個發(fā)現(xiàn)的模式都有一個表示其有效性或值得信賴性的度量。對于形如的關(guān)聯(lián)規(guī)則,其有效性度量為置信度,定義為:其中,A、B是項目的集合。 項的集合稱為項集,k項集指包含k個項的項集,如集合{puter, keyboard}是一個2項集。項集的頻率即包含項集的事務數(shù),也稱為項集的支持計數(shù)(support_count)。最小支持度Min_sup是設定的支持率閾值,如果項集滿足最小支持度Min_sup ,那么該項集則為頻繁項集,代表著頻繁出現(xiàn)在數(shù)據(jù)集中的項集,頻繁k項集通常記做:。頻繁項集的意義在于幫助我們挖掘出數(shù)據(jù)中隱含的規(guī)律,能夠深入反映數(shù)據(jù)的重要的性質(zhì)等。因此,本文采取Apriori算法挖掘出的頻繁項集作為研究初步得到的候選產(chǎn)品特征。 算法基本思想Apriori算法的基本原理是:首先,任何一個頻繁項集的子集必定是頻繁項集;例如,如果{a,b}是頻繁項集,那么如前所述,它的兩個子集{a}、都是頻繁項集。其次,任何非頻繁項集的超集都為非頻繁項集;例如,如果{a}、是非頻繁項集,則它們的超集{a,b}是非頻繁項集?;谝陨蟽蓚€基本原理,Apriori算法能夠有效控制項集無限大的指數(shù)增長。Apriori算法主要有兩個步驟:(1)頻繁項集的產(chǎn)生:挖掘出滿足最小支持度的項目集;(2)由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則。由于本文主要研究評論語料中產(chǎn)品特征的挖掘,因此我們只要進行算法中的第一步:挖掘出頻繁項集作為候選產(chǎn)品特征即可。Apriori算法利用逐層迭代來得到數(shù)據(jù)庫中的頻繁項集。第i次迭代得到所有頻繁i項集(包含i個元素的項集)。每次迭代要進行如下步驟:生成候選集;計算支持度并篩選候選集。在第一次迭代中,候選集包括所有的1項集,之后分別計算它們的支持度s,滿足s大于最小支持度的1項集即為頻繁1項集。第二次迭代時,根據(jù)算法基本原理所述,2項集的任何子集必定是頻繁項集,因此在頻繁1項集的基礎上計算*生成候選二項集。{*}運算通常定義為,其中表示X與Y的合取容量為k+1。同樣計算其支持度s,并將s與最小支持度閾值進行比較,篩選后生成頻繁2項集。以此類推,直到該算法無法繼續(xù)產(chǎn)生新的候選項集,則停止迭代過程。以下是Apriori算法的具體描述:(1) = {large 1itemsets}。 //所有1項目頻集(2) FOR (k=2。 1。 k++) DO BEGIN(3) =apriorigen(1)。 // 是k候選集(4) FOR all transactions 206。 DO BEGIN(5) =subset(,t)。 // 是所有t包含的候選集元素(6) FOR all candidates DO(7) ++。(8) END(9) ={ |}(10) END(11) 。其中D表示數(shù)據(jù)庫,kitemsets代表k項目頻集,表示滿足最小支持度閾值的最大kitemsets,為所有候選的kitemsets,而候選項集的生成主要由subset這一函數(shù)完成。候選項集的生成實際上分為兩步:第一步為自我連接Insert into 第二步為剪枝步對于中的所有項集c do對于C的所有(k1)子集 doif(s不在中)then從中刪除項集c 以上為對Apriori算法的基本介紹,下面本研究將采取Apriori算法為基礎算法對用戶評論中的產(chǎn)品特征進行挖掘。 基于關(guān)聯(lián)規(guī)則的產(chǎn)品特征挖掘 分詞及詞性標注與基于英文評論語料中的產(chǎn)品特征挖掘的研究不同,中文用戶評論中產(chǎn)品特征的第一步是要對評論語料進行分詞及詞性標注,原因為產(chǎn)品特征均為名詞或名詞短語,而漢語句子中的詞語并不像英文單詞一樣在句子中自然分隔,因此需要根據(jù)語義對漢語句子進行分詞,同時進行詞性標注,為后續(xù)產(chǎn)品特征的挖掘做好準備。本文采用張華平博士研發(fā)并最新發(fā)布的NLPIR/ICTCLAS 2015分詞系統(tǒng)對評論語料進行分詞及詞性標注,如圖21所示。該系統(tǒng)專注于對漢語進行分詞,以《人民日報》語料庫作為訓練的語料庫,全球用戶突破30萬,并且國際、國內(nèi)綜合評測獲第一名。故本文采用此軟件作為分詞工具,以達到降低實驗誤差的目的。在該軟件中,不僅可以選擇分詞粒度的大?。榱溯^細致的挖掘出產(chǎn)品特征,本文均選擇分詞粒度為小),而且較以往版本增加了新詞發(fā)現(xiàn)與自適應分詞功能:“能夠從較長的文本內(nèi)容中,基于信息交叉熵自動發(fā)現(xiàn)新的特征語言,并自適應測試語料的語言概率分布模型,實現(xiàn)自適應分詞?!弊赃m應分詞能夠?qū)υu論語料進行更準確更符合語言規(guī)則的分詞及詞性標注。同時,由于產(chǎn)品特征不全都是單獨的詞語,還可能包含不同的詞語組成的名詞短語,新詞發(fā)現(xiàn)這個功能有益于自動挖掘出在評論語料中出現(xiàn)頻率高的名詞短語(用/n_newword 表示),將它們單獨提取出來加入到軟件中的“用戶詞典”中,使這個短語在分詞時能夠被特殊標注,提高挖掘的準確率。經(jīng)過分詞、新詞提取以及詞性標注后的結(jié)果如下:“價位/n是/v驚喜/a,/w顯卡/n_newword 性能/n還/d真/d不/d錯/v,/w樣子/n也/d很/d酷/a?!睂⑺薪?jīng)過分詞及詞性標注后的評論語料保存為文本文件。圖21 NLPIR/ICTCLAS 2015分詞系統(tǒng) 關(guān)聯(lián)規(guī)則事務文件關(guān)聯(lián)規(guī)則事務文件的生成是頻繁項集提取之前的必備的步驟,本文以評論語句為單位,將每個語句中的名詞及名詞短語抽取出來列為一行,每行中的名詞及名詞短語即為項,每行即為一個事務,將所有的事務保存為一個文本文件,即形成關(guān)聯(lián)規(guī)則事務文件。例如:將上步中經(jīng)過分詞及詞性標注后的評論語句作為一個待生成關(guān)聯(lián)規(guī)則事務的對象,提取出其中的名詞及名詞短語列為一行。“價位/n顯卡/n_newword 性能/n樣子/n”以此作為關(guān)聯(lián)規(guī)則事務文件中的一行,亦即為一個事務。將所有的評論語料按照如上方法生成關(guān)聯(lián)規(guī)則事務文件,為下一步提取頻繁規(guī)則項做好準備。 提取頻繁規(guī)則項本文采用Apriori關(guān)聯(lián)規(guī)則挖掘算法提取頻繁規(guī)則項,借助開源軟件SPMF挖掘事務集中所有的頻繁項。,頻繁項集的生成包括頻繁一項集、二項集……在本文之后進行的實驗中,沿用Hu和Liu[89]等人對最小支持度的設定,仍將最小支持度設定為1%,相當于每100個事務中至少出現(xiàn)1次的項才稱為頻繁項,將生成的頻繁項集保存為文本文件,為下面對于頻繁項的剪枝做好準備。 非頻繁特征由于本文僅提取頻繁規(guī)則項作為候選產(chǎn)品特征,頻繁特征是多數(shù)用戶關(guān)心并感興趣的產(chǎn)品特征,但是也有一些只有少數(shù)用戶關(guān)注的特征,在英文文獻中,Hu和Liu[89]等人采取收集修飾頻繁特征項的形容詞詞語,以其作為中心詞,在包含頻繁特征項的句子之外的評論語句中挖掘出非頻繁特征;亦有學者李培[14]等根據(jù)已經(jīng)尋找到的高頻詞匯挖掘出語法模式,如“(/d/a/u)+特征詞”挖掘出“相當/d 好用/a的/u 輸入/v 法/n”。利用提取出的所有語法模式匹配評論語料中的句子,挖掘出新的非頻繁特征。然而,盡管采取這樣的方式提高了實驗的查全率,但是同時卻由于引入了許多不相關(guān)的非特征的名詞,降低了實驗的查準率??紤]到在評論語料中用戶廣泛關(guān)注的產(chǎn)品特征對于潛在用戶更具有參考價值,同時為了提高實驗的查準率,本文在實驗中不考慮非頻繁特征的提取,實驗目的更為明確,實驗的參考價值也相對最大化。 本章小結(jié)產(chǎn)品特征挖掘是觀點挖掘的第一步,亦是關(guān)鍵的一步,本章主要介紹了基于關(guān)聯(lián)規(guī)則的產(chǎn)品特征挖掘方法。首先,本章介紹了采用的Apriori關(guān)聯(lián)規(guī)則挖掘算法的基本思想以及相關(guān)概念。其次,提出了在應用關(guān)聯(lián)規(guī)則挖掘算法進行產(chǎn)品特征挖掘時需要注意的細節(jié)。包括由于中文語句中的詞語
點擊復制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1