freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

從評論語料庫中挖掘產(chǎn)品特征詞論文(編輯修改稿)

2025-07-15 12:50 本頁面
 

【文章內(nèi)容簡介】 身的推理方法進(jìn)行解釋,對未在訓(xùn)練樣本中出現(xiàn)過的新的詞匯不能給予正確切分;專家系統(tǒng)具有顯式的知識表達(dá)形式, 知識容易維護(hù),能對推理行為進(jìn)行解釋,并可利用深層知識來切分歧義字段;缺點是不能從經(jīng)驗中學(xué)習(xí),當(dāng)知識庫龐大時難以維護(hù),在進(jìn)行多歧義字段切分時耗時較長,同時在知識表示、知識獲取和知識驗證等方面存在一些問題。因而,把神經(jīng)網(wǎng)絡(luò)技術(shù)與專家系統(tǒng)結(jié)合起來用于漢語自動分詞與標(biāo)引系統(tǒng)將是該領(lǐng)域的發(fā)展趨向。 特征詞挖掘的相關(guān)算法 Hu 和 Liu 利用關(guān)聯(lián)規(guī)則挖掘的方法來抽取產(chǎn)品的特征,對于高頻特征詞首先使用關(guān)聯(lián)規(guī)則尋找頻繁項,裁剪低于支持度的頻繁項,然后利用與形容詞相鄰近的特性尋找低頻特征詞?;凇爸С侄取彼惴▽Ξa(chǎn)品特征詞進(jìn)行抽取時,分為三個步驟:對評論文本進(jìn)行詞性標(biāo)注;尋找頻繁特征詞;對抽取出來的頻繁特征詞進(jìn)行修剪。所謂“支持度”即關(guān)聯(lián)性規(guī)則的一個關(guān)鍵指標(biāo),它對頻繁項的形成有很大的影響,它是用于描述頻繁項出現(xiàn)頻度的指標(biāo),最低支持度(Minimum_Support)意為只對達(dá)到指定頻度的項集感興趣,如果指定最低支持度為小于1的值則關(guān)聯(lián)規(guī)則認(rèn)為研究者們只對頻度達(dá)到指定百分比的項集感興趣。最大支持度(Maximum_Support)則指定了項集出現(xiàn)頻度的上限,超過上限的項集也不是研究者們感興趣的。Hu 和 Liu 的用戶評論抽取算法最后利用極性詞與特征詞的共現(xiàn)抽取低頻特征詞。使用極性詞識別低頻特征詞語帶來這樣一個問題:它也能將與給定產(chǎn)品不相關(guān)的名詞或名詞短語找到。這是因為人們可以使用形容詞描述很多主體,既有我們感興趣的,也有不相關(guān)的。,介紹了使用tf/idf的方法來識別分詞或者分詞組合是否是真正的特征詞,如果分詞或者分詞的組合不是真正的詞語那么將在語料中很少或者幾乎不出現(xiàn)。,主要考慮的模式有:主語+模式、模式+賓語、模式+名詞或名詞短語,再通過這些模式去發(fā)現(xiàn)對應(yīng)的主語、賓語、名詞或名詞短語作為特征詞。 本系統(tǒng)是用C編寫,C是微軟公司發(fā)布的一種面向?qū)ο蟮摹?Framework之上的高級程序設(shè)計語言。并定于在微軟職業(yè)開發(fā)者論壇(PDC)上登臺亮相。C是微軟公司研究員Anders Hejlsberg的最新成果。C看起來與Java有著驚人的相似;它包括了諸如單一繼承、接口、與Java幾乎同樣的語法和編譯成中間代碼再運行的過程。但是C與Java有著明顯的不同,它借鑒了Delphi的一個特點,與COM(組件對象模型)是直接集成的, windows網(wǎng)絡(luò)框架的主角。C(讀做 C sharp,C sharp,現(xiàn)在很多非專業(yè)一般讀C井。C是一種安全的、穩(wěn)定的、簡單的、優(yōu)雅的,由C和C++衍生出來的面向?qū)ο蟮木幊陶Z言。它在繼承C和C++強大功能的同時去掉了一些它們的復(fù)雜特性(例如沒有宏和模版,不允許多重繼承)。C綜合了VB簡單的可視化操作和C++的高運行效率,以其強大的操作能力、優(yōu)雅的語法風(fēng)格、。并且C成為ECMA與ISO標(biāo)準(zhǔn)規(guī)范。C看似基于C++寫成,但又融入其它語言如Delphi、Java、VB等。微軟C語言定義主要是從C和C++繼承而來的,而且語言中的許多元素也反映了這一點。C在設(shè)計者從C++繼承的可選選項方面比Java要廣泛一些(比如說struts),它還增加了自己新的特點(比方說源代碼版本定義),但它還太不成熟,還需要進(jìn)化成一種開發(fā)者能夠接受和采用的語言。而微軟當(dāng)前為它的這種新語言大造聲勢也是值得注意的,目前大家的反應(yīng)是:這是對Java的反擊。C更像Java一些,雖然微軟在這個問題上保持沉默,這也是意料中的事情,我覺得,因為Java近來很成功而使用Java的公司都報告說它們在生產(chǎn)效率上比C++獲得了提高。Java所帶來的巨大影響和大家對它的廣泛接受已經(jīng)由工作于這種語言和平臺之上的程序員數(shù)量明顯的說明了(估計世界范圍內(nèi)共有兩百五十萬程序員使用Java)。由這種語言寫成的應(yīng)用程序的數(shù)量是令人驚訝的并已經(jīng)滲透了每一個級別的計算,包括無線計算和移動電話(比如日本發(fā)明的Java電話)。C能夠在用戶領(lǐng)域獲得這樣的禮遇嗎?我們必須等待并觀望,就像已經(jīng)由SSI公司的CEO和主席Kalpathi ,“我發(fā)現(xiàn)所有這些都是漸進(jìn)的。如果C不存在,我們總能回到Java或C和C++這些都不完全是新技術(shù),它們在更大的意義上來說只是大公司制造的市場噱頭,我們必須給他們時間安頓下來看看這些是不是真的對IT工業(yè)有什么影響”2 產(chǎn)品特征詞的挖掘自動識別產(chǎn)品評論中的產(chǎn)品特征對產(chǎn)品評論的挖掘是一個難點,因為相對普通的文本而言,產(chǎn)品評論是用戶隨意的表述,很少有完整的主謂賓結(jié)構(gòu),卻有不計其數(shù)的同音錯別字、簡略語、拼音、英語和中文混雜。目前對產(chǎn)品評論進(jìn)行挖掘的研究很多都是基于英文的,基于中文的產(chǎn)品評論挖掘僅僅是剛起步,還有很多關(guān)鍵性的問題需要研究。 在產(chǎn)品評論中,用戶為了能具體表達(dá)意見,可能會將產(chǎn)品的部件、功能、性能及服務(wù)分成多個考慮的對象來發(fā)表相應(yīng)的觀點,這些被評價的對象就是產(chǎn)品特征,因此產(chǎn)品特征與觀點在產(chǎn)品評論中是具有對應(yīng)關(guān)系的,特征觀點對(f,o)就是產(chǎn)品評論中產(chǎn)品特征(feature)與對應(yīng)的觀點(opinion)所組成的單位。近年來,產(chǎn)品特征和觀點的挖掘已經(jīng)有了一些研究,這些研究中對產(chǎn)品特征和觀點詞的提取分為人工定義和自動提取兩類。在人工定義方面,Kobayashi、Inui和 Matsumoto 等人工定義產(chǎn)品特征(cost, price, service, performance, function,support, design)和觀點(good, beautiful, bright, like/favorite, high),獲取同時出現(xiàn)特征和觀點的模式。姚天昉利用本體建立了汽車的產(chǎn)品特征,該系統(tǒng)可在電子公告板、門戶網(wǎng)站的各大論壇上挖掘并概括意見持有者對各種汽車品牌的不同性能指標(biāo)的評論和意見,同時判斷這些意見的褒貶性以及強度。Li Zhuang 人工定義電影的產(chǎn)品特征,將電影的產(chǎn)品特征分為兩類:電影的元素(screenplay, vision effect)和與電影相關(guān)的人員(director, screenwriter, actor),在得到評論中的產(chǎn)品特征詞和觀點詞后,通過依存句法圖來連接特征和觀點生成特征觀點對。人工定義產(chǎn)品特征和觀點需要每一個領(lǐng)域的產(chǎn)品都有該領(lǐng)域的專家參與,因此不具有移植性,不能應(yīng)對產(chǎn)品發(fā)生變化的情況。 從產(chǎn)品評論中自動抽取產(chǎn)品特征和觀點主要使用詞性標(biāo)注、句法分析、文本模式等自然語言技術(shù)對產(chǎn)品評論中的語句進(jìn)行分析,從中自動發(fā)現(xiàn)產(chǎn)品特征和觀點詞。Kim and Hovy 首先尋找句子中表達(dá)主觀性的詞匯,然后定義一個以主觀性詞匯為中心,大小固定的窗口,將窗口中的名詞或名詞短語作為特征。LunWeiKu 使用 GI(General Inquirer)、CNSD(Chinese Network Sentiment Dictionary)和NTUSD(National Taiwan University Sentiment Dictionary)詞典,并使用同義詞詞林及 WordNet 進(jìn)行擴充,以此抽取句子中的觀點詞。Soo Min Kim 則基于人工標(biāo)注的褒貶詞典找出評價詞,然后借助于 FrameNet 分析句子的語義結(jié)構(gòu)來找出評價對象。Hu and Liu 首先對評論中的主觀性語句進(jìn)行句法分析,找到句子中的名詞或名詞短語,然后使用關(guān)聯(lián)規(guī)則挖掘出頻繁項,將得到的頻繁項作為產(chǎn)品的特征,然后將離產(chǎn)品特征最近的形容詞作為評價詞。AnaMaria Popescu 采用人工定義的通用文本模板,根據(jù)在具體應(yīng)用領(lǐng)域?qū)嵗ㄓ梦谋灸0逡孕纬沙槿∫?guī)則,再利用抽取規(guī)則進(jìn)行產(chǎn)品特征和觀點的抽取。以上研究大多把特征和觀點分開來識別,而實際上在多數(shù)評論中,產(chǎn)品特征都是被上下文中的觀點詞所修飾,特征和觀點之間具有高度相關(guān)性,因此可以把特征識別和觀點識別結(jié)合在一起進(jìn)行。另現(xiàn)有的研究沒有處理多特征單觀點的問題,即在產(chǎn)品評論中,經(jīng)常會出現(xiàn)多個特征后面只接一個觀點詞的情況,如“打電話、播放 mp看圖片很方便”、“無論是從音場、低音效果,都非常令人咋舌”、“信號強度、按鍵、待機時間方面我都很滿意”,本文則通過自動獲得的產(chǎn)品特征詞和觀點詞對多特征單觀點的評價進(jìn)行處理?,F(xiàn)有的機器學(xué)習(xí)方法很多是利用標(biāo)注的訓(xùn)練樣本,這些大規(guī)模標(biāo)注過的訓(xùn)練數(shù)據(jù)可以提高學(xué)習(xí)算法結(jié)果的準(zhǔn)確率,但是標(biāo)注好的訓(xùn)練數(shù)據(jù)不容易獲得,并且網(wǎng)上信息的增長和變化都很快,因此只使用人工標(biāo)注訓(xùn)練數(shù)據(jù)的機器學(xué)習(xí)方法已經(jīng)不能滿足對網(wǎng)上信息進(jìn)行挖掘的需求,獲得的學(xué)習(xí)系統(tǒng)的泛化能力也不強。同時,網(wǎng)上存在大量容易獲得的未標(biāo)注的數(shù)據(jù),采用能結(jié)合標(biāo)注好的樣本和未標(biāo)注數(shù)據(jù)的半監(jiān)督學(xué)習(xí)方法既能獲得專家的標(biāo)注知識,又可以利用大量未標(biāo)注數(shù)據(jù)來改善學(xué)習(xí)性能。本文就是利用 Bootstrapping 半監(jiān)督學(xué)習(xí)算法,結(jié)合少量的標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù)來對產(chǎn)品評論進(jìn)行挖掘。 現(xiàn)有的評論挖掘?qū)Ξa(chǎn)品評論的選取沒有作深入的研究。David Bounie直接使用調(diào)查表方式獲得用戶對視頻游戲的評價;LunWei Ku使用 NTCIR和TREC的網(wǎng)絡(luò)新聞?wù)Z料,通過詞級、句子級和文檔級獲得對相關(guān)事件表達(dá)的情感極性和程度,提取用戶對事件的觀點;Minqing |,但沒有對提取到的評論內(nèi)容進(jìn)行優(yōu)劣評判;Eugene Agichtein使用了LDC的North American News Text Corpus,通過滾雪球的迭代方式從種子元素到模式生成,再根據(jù)模式中從語料庫提取新的元素加入種子集合獲取事件對應(yīng)的關(guān)系列表。這些研究所使用的評論內(nèi)容大多是由專家在網(wǎng)絡(luò)上收集挑選出來的,由于產(chǎn)品不斷更新,產(chǎn)品評論不斷增加,如果只能對專家挑選出的評論庫進(jìn)行挖掘,就會大大削弱研究的實用性。 弱監(jiān)督機器學(xué)習(xí)方法介紹 采用基于弱監(jiān)督機器學(xué)習(xí)方法,只需提供少量的產(chǎn)品特征作為種子集合,自動進(jìn)行文本模式的抽取,再用抽取得到的模式抽取新的產(chǎn)品特征。系統(tǒng)以人工提供的少量產(chǎn)品特征作為種子集合,發(fā)現(xiàn)產(chǎn)品評論語料庫中的產(chǎn)品特征出現(xiàn)語句,將這些語句按照給定的文本模式結(jié)構(gòu)進(jìn)行模式化表示,從中生成新的文本模式,再用這些自動獲取的文本模式來抽取新的產(chǎn)品特征,并將新的產(chǎn)品特征加入產(chǎn)品特征種子集合。對該過程不斷地迭代,直到系統(tǒng)不能產(chǎn)生新種子或新的文本模式和達(dá)到人工指定迭代次數(shù)停止迭代,將產(chǎn)品特征種子集合中的種子輸出作為結(jié)果,: 文本模式抽取系統(tǒng)流程(1)發(fā)現(xiàn)產(chǎn)品特征種子出現(xiàn)語句 將語料庫中的產(chǎn)品評論分解為語句,并對每一個句子進(jìn)行詞性標(biāo)注,提取句子中的名詞和名詞短語,如果它是產(chǎn)品特征種子集合的一個元素,那么將出現(xiàn)該名詞或名詞短語的語句加入產(chǎn)品特征出現(xiàn)語句集合|SO|。 (2)生成文本模式 從|SO|中自動發(fā)現(xiàn)可用于抽取新的產(chǎn)品特征的文本模式,該過程分解為三個子過程:1)模式化表示語句 通過對產(chǎn)品特征語料庫的觀察發(fā)現(xiàn),一個名詞所在的依存關(guān)系對該名詞是否是產(chǎn)品特征有極大的指示作用,因此,選用基于依存關(guān)系的文本模式的表示方法。 定義1 弱監(jiān)督產(chǎn)品特征抽
點擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1