freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

從評(píng)論語(yǔ)料庫(kù)中挖掘產(chǎn)品特征詞(編輯修改稿)

2025-07-15 12:45 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 身的推理方法進(jìn)行解釋,對(duì)未在訓(xùn)練樣本中出現(xiàn)過的新的詞匯不能給予正確切分;專家系統(tǒng)具有顯式的知識(shí)表達(dá)形式, 知識(shí)容易維護(hù),能對(duì)推理行為進(jìn)行解釋,并可利用深層知識(shí)來切分歧義字段;缺點(diǎn)是不能從經(jīng)驗(yàn)中學(xué)習(xí),當(dāng)知識(shí)庫(kù)龐大時(shí)難以維護(hù),在進(jìn)行多歧義字段切分時(shí)耗時(shí)較長(zhǎng),同時(shí)在知識(shí)表示、知識(shí)獲取和知識(shí)驗(yàn)證等方面存在一些問題。因而,把神經(jīng)網(wǎng)絡(luò)技術(shù)與專家系統(tǒng)結(jié)合起來用于漢語(yǔ)自動(dòng)分詞與標(biāo)引系統(tǒng)將是該領(lǐng)域的發(fā)展趨向。 特征詞挖掘的相關(guān)算法 Hu 和 Liu 利用關(guān)聯(lián)規(guī)則挖掘的方法來抽取產(chǎn)品的特征,對(duì)于高頻特征詞首先使用關(guān)聯(lián)規(guī)則尋找頻繁項(xiàng),裁剪低于支持度的頻繁項(xiàng),然后利用與形容詞相鄰近的特性尋找低頻特征詞?;凇爸С侄取彼惴▽?duì)產(chǎn)品特征詞進(jìn)行抽取時(shí),分為三個(gè)步驟:對(duì)評(píng)論文本進(jìn)行詞性標(biāo)注;尋找頻繁特征詞;對(duì)抽取出來的頻繁特征詞進(jìn)行修剪。所謂“支持度”即關(guān)聯(lián)性規(guī)則的一個(gè)關(guān)鍵指標(biāo),它對(duì)頻繁項(xiàng)的形成有很大的影響,它是用于描述頻繁項(xiàng)出現(xiàn)頻度的指標(biāo),最低支持度(Minimum_Support)意為只對(duì)達(dá)到指定頻度的項(xiàng)集感興趣,如果指定最低支持度為小于1的值則關(guān)聯(lián)規(guī)則認(rèn)為研究者們只對(duì)頻度達(dá)到指定百分比的項(xiàng)集感興趣。最大支持度(Maximum_Support)則指定了項(xiàng)集出現(xiàn)頻度的上限,超過上限的項(xiàng)集也不是研究者們感興趣的。Hu 和 Liu 的用戶評(píng)論抽取算法最后利用極性詞與特征詞的共現(xiàn)抽取低頻特征詞。使用極性詞識(shí)別低頻特征詞語(yǔ)帶來這樣一個(gè)問題:它也能將與給定產(chǎn)品不相關(guān)的名詞或名詞短語(yǔ)找到。這是因?yàn)槿藗兛梢允褂眯稳菰~描述很多主體,既有我們感興趣的,也有不相關(guān)的。,介紹了使用tf/idf的方法來識(shí)別分詞或者分詞組合是否是真正的特征詞,如果分詞或者分詞的組合不是真正的詞語(yǔ)那么將在語(yǔ)料中很少或者幾乎不出現(xiàn)。,主要考慮的模式有:主語(yǔ)+模式、模式+賓語(yǔ)、模式+名詞或名詞短語(yǔ),再通過這些模式去發(fā)現(xiàn)對(duì)應(yīng)的主語(yǔ)、賓語(yǔ)、名詞或名詞短語(yǔ)作為特征詞。 本系統(tǒng)是用C編寫,C是微軟公司發(fā)布的一種面向?qū)ο蟮摹?Framework之上的高級(jí)程序設(shè)計(jì)語(yǔ)言。并定于在微軟職業(yè)開發(fā)者論壇(PDC)上登臺(tái)亮相。C是微軟公司研究員Anders Hejlsberg的最新成果。C看起來與Java有著驚人的相似;它包括了諸如單一繼承、接口、與Java幾乎同樣的語(yǔ)法和編譯成中間代碼再運(yùn)行的過程。但是C與Java有著明顯的不同,它借鑒了Delphi的一個(gè)特點(diǎn),與COM(組件對(duì)象模型)是直接集成的, windows網(wǎng)絡(luò)框架的主角。C(讀做 C sharp,C sharp,現(xiàn)在很多非專業(yè)一般讀C井。C是一種安全的、穩(wěn)定的、簡(jiǎn)單的、優(yōu)雅的,由C和C++衍生出來的面向?qū)ο蟮木幊陶Z(yǔ)言。它在繼承C和C++強(qiáng)大功能的同時(shí)去掉了一些它們的復(fù)雜特性(例如沒有宏和模版,不允許多重繼承)。C綜合了VB簡(jiǎn)單的可視化操作和C++的高運(yùn)行效率,以其強(qiáng)大的操作能力、優(yōu)雅的語(yǔ)法風(fēng)格、。并且C成為ECMA與ISO標(biāo)準(zhǔn)規(guī)范。C看似基于C++寫成,但又融入其它語(yǔ)言如Delphi、Java、VB等。微軟C語(yǔ)言定義主要是從C和C++繼承而來的,而且語(yǔ)言中的許多元素也反映了這一點(diǎn)。C在設(shè)計(jì)者從C++繼承的可選選項(xiàng)方面比Java要廣泛一些(比如說struts),它還增加了自己新的特點(diǎn)(比方說源代碼版本定義),但它還太不成熟,還需要進(jìn)化成一種開發(fā)者能夠接受和采用的語(yǔ)言。而微軟當(dāng)前為它的這種新語(yǔ)言大造聲勢(shì)也是值得注意的,目前大家的反應(yīng)是:這是對(duì)Java的反擊。C更像Java一些,雖然微軟在這個(gè)問題上保持沉默,這也是意料中的事情,我覺得,因?yàn)镴ava近來很成功而使用Java的公司都報(bào)告說它們?cè)谏a(chǎn)效率上比C++獲得了提高。Java所帶來的巨大影響和大家對(duì)它的廣泛接受已經(jīng)由工作于這種語(yǔ)言和平臺(tái)之上的程序員數(shù)量明顯的說明了(估計(jì)世界范圍內(nèi)共有兩百五十萬(wàn)程序員使用Java)。由這種語(yǔ)言寫成的應(yīng)用程序的數(shù)量是令人驚訝的并已經(jīng)滲透了每一個(gè)級(jí)別的計(jì)算,包括無(wú)線計(jì)算和移動(dòng)電話(比如日本發(fā)明的Java電話)。C能夠在用戶領(lǐng)域獲得這樣的禮遇嗎?我們必須等待并觀望,就像已經(jīng)由SSI公司的CEO和主席Kalpathi ,“我發(fā)現(xiàn)所有這些都是漸進(jìn)的。如果C不存在,我們總能回到Java或C和C++這些都不完全是新技術(shù),它們?cè)诟蟮囊饬x上來說只是大公司制造的市場(chǎng)噱頭,我們必須給他們時(shí)間安頓下來看看這些是不是真的對(duì)IT工業(yè)有什么影響”2 產(chǎn)品特征詞的挖掘自動(dòng)識(shí)別產(chǎn)品評(píng)論中的產(chǎn)品特征對(duì)產(chǎn)品評(píng)論的挖掘是一個(gè)難點(diǎn),因?yàn)橄鄬?duì)普通的文本而言,產(chǎn)品評(píng)論是用戶隨意的表述,很少有完整的主謂賓結(jié)構(gòu),卻有不計(jì)其數(shù)的同音錯(cuò)別字、簡(jiǎn)略語(yǔ)、拼音、英語(yǔ)和中文混雜。目前對(duì)產(chǎn)品評(píng)論進(jìn)行挖掘的研究很多都是基于英文的,基于中文的產(chǎn)品評(píng)論挖掘僅僅是剛起步,還有很多關(guān)鍵性的問題需要研究。 在產(chǎn)品評(píng)論中,用戶為了能具體表達(dá)意見,可能會(huì)將產(chǎn)品的部件、功能、性能及服務(wù)分成多個(gè)考慮的對(duì)象來發(fā)表相應(yīng)的觀點(diǎn),這些被評(píng)價(jià)的對(duì)象就是產(chǎn)品特征,因此產(chǎn)品特征與觀點(diǎn)在產(chǎn)品評(píng)論中是具有對(duì)應(yīng)關(guān)系的,特征觀點(diǎn)對(duì)(f,o)就是產(chǎn)品評(píng)論中產(chǎn)品特征(feature)與對(duì)應(yīng)的觀點(diǎn)(opinion)所組成的單位。近年來,產(chǎn)品特征和觀點(diǎn)的挖掘已經(jīng)有了一些研究,這些研究中對(duì)產(chǎn)品特征和觀點(diǎn)詞的提取分為人工定義和自動(dòng)提取兩類。在人工定義方面,Kobayashi、Inui和 Matsumoto 等人工定義產(chǎn)品特征(cost, price, service, performance, function,support, design)和觀點(diǎn)(good, beautiful, bright, like/favorite, high),獲取同時(shí)出現(xiàn)特征和觀點(diǎn)的模式。姚天昉利用本體建立了汽車的產(chǎn)品特征,該系統(tǒng)可在電子公告板、門戶網(wǎng)站的各大論壇上挖掘并概括意見持有者對(duì)各種汽車品牌的不同性能指標(biāo)的評(píng)論和意見,同時(shí)判斷這些意見的褒貶性以及強(qiáng)度。Li Zhuang 人工定義電影的產(chǎn)品特征,將電影的產(chǎn)品特征分為兩類:電影的元素(screenplay, vision effect)和與電影相關(guān)的人員(director, screenwriter, actor),在得到評(píng)論中的產(chǎn)品特征詞和觀點(diǎn)詞后,通過依存句法圖來連接特征和觀點(diǎn)生成特征觀點(diǎn)對(duì)。人工定義產(chǎn)品特征和觀點(diǎn)需要每一個(gè)領(lǐng)域的產(chǎn)品都有該領(lǐng)域的專家參與,因此不具有移植性,不能應(yīng)對(duì)產(chǎn)品發(fā)生變化的情況。 從產(chǎn)品評(píng)論中自動(dòng)抽取產(chǎn)品特征和觀點(diǎn)主要使用詞性標(biāo)注、句法分析、文本模式等自然語(yǔ)言技術(shù)對(duì)產(chǎn)品評(píng)論中的語(yǔ)句進(jìn)行分析,從中自動(dòng)發(fā)現(xiàn)產(chǎn)品特征和觀點(diǎn)詞。Kim and Hovy 首先尋找句子中表達(dá)主觀性的詞匯,然后定義一個(gè)以主觀性詞匯為中心,大小固定的窗口,將窗口中的名詞或名詞短語(yǔ)作為特征。LunWeiKu 使用 GI(General Inquirer)、CNSD(Chinese Network Sentiment Dictionary)和NTUSD(National Taiwan University Sentiment Dictionary)詞典,并使用同義詞詞林及 WordNet 進(jìn)行擴(kuò)充,以此抽取句子中的觀點(diǎn)詞。Soo Min Kim 則基于人工標(biāo)注的褒貶詞典找出評(píng)價(jià)詞,然后借助于 FrameNet 分析句子的語(yǔ)義結(jié)構(gòu)來找出評(píng)價(jià)對(duì)象。Hu and Liu 首先對(duì)評(píng)論中的主觀性語(yǔ)句進(jìn)行句法分析,找到句子中的名詞或名詞短語(yǔ),然后使用關(guān)聯(lián)規(guī)則挖掘出頻繁項(xiàng),將得到的頻繁項(xiàng)作為產(chǎn)品的特征,然后將離產(chǎn)品特征最近的形容詞作為評(píng)價(jià)詞。AnaMaria Popescu 采用人工定義的通用文本模板,根據(jù)在具體應(yīng)用領(lǐng)域?qū)嵗ㄓ梦谋灸0逡孕纬沙槿∫?guī)則,再利用抽取規(guī)則進(jìn)行產(chǎn)品特征和觀點(diǎn)的抽取。以上研究大多把特征和觀點(diǎn)分開來識(shí)別,而實(shí)際上在多數(shù)評(píng)論中,產(chǎn)品特征都是被上下文中的觀點(diǎn)詞所修飾,特征和觀點(diǎn)之間具有高度相關(guān)性,因此可以把特征識(shí)別和觀點(diǎn)識(shí)別結(jié)合在一起進(jìn)行。另現(xiàn)有的研究沒有處理多特征單觀點(diǎn)的問題,即在產(chǎn)品評(píng)論中,經(jīng)常會(huì)出現(xiàn)多個(gè)特征后面只接一個(gè)觀點(diǎn)詞的情況,如“打電話、播放 mp看圖片很方便”、“無(wú)論是從音場(chǎng)、低音效果,都非常令人咋舌”、“信號(hào)強(qiáng)度、按鍵、待機(jī)時(shí)間方面我都很滿意”,本文則通過自動(dòng)獲得的產(chǎn)品特征詞和觀點(diǎn)詞對(duì)多特征單觀點(diǎn)的評(píng)價(jià)進(jìn)行處理。現(xiàn)有的機(jī)器學(xué)習(xí)方法很多是利用標(biāo)注的訓(xùn)練樣本,這些大規(guī)模標(biāo)注過的訓(xùn)練數(shù)據(jù)可以提高學(xué)習(xí)算法結(jié)果的準(zhǔn)確率,但是標(biāo)注好的訓(xùn)練數(shù)據(jù)不容易獲得,并且網(wǎng)上信息的增長(zhǎng)和變化都很快,因此只使用人工標(biāo)注訓(xùn)練數(shù)據(jù)的機(jī)器學(xué)習(xí)方法已經(jīng)不能滿足對(duì)網(wǎng)上信息進(jìn)行挖掘的需求,獲得的學(xué)習(xí)系統(tǒng)的泛化能力也不強(qiáng)。同時(shí),網(wǎng)上存在大量容易獲得的未標(biāo)注的數(shù)據(jù),采用能結(jié)合標(biāo)注好的樣本和未標(biāo)注數(shù)據(jù)的半監(jiān)督學(xué)習(xí)方法既能獲得專家的標(biāo)注知識(shí),又可以利用大量未標(biāo)注數(shù)據(jù)來改善學(xué)習(xí)性能。本文就是利用 Bootstrapping 半監(jiān)督學(xué)習(xí)算法,結(jié)合少量的標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù)來對(duì)產(chǎn)品評(píng)論進(jìn)行挖掘。 現(xiàn)有的評(píng)論挖掘?qū)Ξa(chǎn)品評(píng)論的選取沒有作深入的研究。David Bounie直接使用調(diào)查表方式獲得用戶對(duì)視頻游戲的評(píng)價(jià);LunWei Ku使用 NTCIR和TREC的網(wǎng)絡(luò)新聞?wù)Z料,通過詞級(jí)、句子級(jí)和文檔級(jí)獲得對(duì)相關(guān)事件表達(dá)的情感極性和程度,提取用戶對(duì)事件的觀點(diǎn);Minqing |,但沒有對(duì)提取到的評(píng)論內(nèi)容進(jìn)行優(yōu)劣評(píng)判;Eugene Agichtein使用了LDC的North American News Text Corpus,通過滾雪球的迭代方式從種子元素到模式生成,再根據(jù)模式中從語(yǔ)料庫(kù)提取新的元素加入種子集合獲取事件對(duì)應(yīng)的關(guān)系列表。這些研究所使用的評(píng)論內(nèi)容大多是由專家在網(wǎng)絡(luò)上收集挑選出來的,由于產(chǎn)品不斷更新,產(chǎn)品評(píng)論不斷增加,如果只能對(duì)專家挑選出的評(píng)論庫(kù)進(jìn)行挖掘,就會(huì)大大削弱研究的實(shí)用性。 弱監(jiān)督機(jī)器學(xué)習(xí)方法介紹 采用基于弱監(jiān)督機(jī)器學(xué)習(xí)方法,只需提供少量的產(chǎn)品特征作為種子集合,自動(dòng)進(jìn)行文本模式的抽取,再用抽取得到的模式抽取新的產(chǎn)品特征。系統(tǒng)以人工提供的少量產(chǎn)品特征作為種子集合,發(fā)現(xiàn)產(chǎn)品評(píng)論語(yǔ)料庫(kù)中的產(chǎn)品特征出現(xiàn)語(yǔ)句,將這些語(yǔ)句按照給定的文本模式結(jié)構(gòu)進(jìn)行模式化表示,從中生成新的文本模式,再用這些自動(dòng)獲取的文本模式來抽取新的產(chǎn)品特征,并將新的產(chǎn)品特征加入產(chǎn)品特征種子集合。對(duì)該過程不斷地迭代,直到系統(tǒng)不能產(chǎn)生新種子或新的文本模式和達(dá)到人工指定迭代次數(shù)停止迭代,將產(chǎn)品特征種子集合中的種子輸出作為結(jié)果,: 文本模式抽取系統(tǒng)流程(1)發(fā)現(xiàn)產(chǎn)品特征種子出現(xiàn)語(yǔ)句 將語(yǔ)料庫(kù)中的產(chǎn)品評(píng)論分解為語(yǔ)句,并對(duì)每一個(gè)句子進(jìn)行詞性標(biāo)注,提取句子中的名詞和名詞短語(yǔ),如果它是產(chǎn)品特征種子集合的一個(gè)元素,那么將出現(xiàn)該名詞或名詞短語(yǔ)的語(yǔ)句加入產(chǎn)品特征出現(xiàn)語(yǔ)句集合|SO|。 (2)生成文本模式 從|SO|中自動(dòng)發(fā)現(xiàn)可用于抽取新的產(chǎn)品特征的文本模式,該過程分解為三個(gè)子過程:1)模式化表示語(yǔ)句 通過對(duì)產(chǎn)品特征語(yǔ)料庫(kù)的觀察發(fā)現(xiàn),一個(gè)名詞所在的依存關(guān)系對(duì)該名詞是否是產(chǎn)品特征有極大的指示作用,因此,選用基于依存關(guān)系的文本模式的表示方法。 定義1 弱監(jiān)督產(chǎn)品特征抽
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1