freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

從評(píng)論語(yǔ)料庫(kù)中挖掘產(chǎn)品特征詞畢業(yè)論文-全文預(yù)覽

  

【正文】 關(guān)的鑒別信息就越多。因而我們使用χ2分布相似的特征項(xiàng)進(jìn)行選擇,在最大程度減少文本信息缺失的前提下,大幅度降低文本向量維數(shù)。該方法體現(xiàn)了詞與詞之間的相關(guān)信息、詞與文本類(lèi)別之間的相互關(guān)聯(lián)程度,反映了特征項(xiàng)對(duì)類(lèi)別判定信息含量的大小。特征選擇算法能夠刪除對(duì)分類(lèi)貢獻(xiàn)不大的詞條,選擇出能夠代表類(lèi)別特征的詞條。本文則根據(jù)中文評(píng)論內(nèi)容的情況選擇了詞、詞性、修飾關(guān)系等內(nèi)容作為模式特征集。在表達(dá)了用戶(hù)情感的語(yǔ)句中,絕大多數(shù)都使用了很簡(jiǎn)短的語(yǔ)句來(lái)進(jìn)行表達(dá)。前一句可能還在對(duì)屏幕進(jìn)行評(píng)價(jià),后一句可能就會(huì)說(shuō)到軟件如何,如“外形漂亮,滑蓋設(shè)計(jì)的也不錯(cuò),電池待機(jī)時(shí)間也還算滿(mǎn)意”。假設(shè)文本模式產(chǎn)生正確元組的概率相互獨(dú)立,從而采用定義 4 中的公式來(lái)度量候選產(chǎn)品特征的置信度。定義3 候選文本模式的置信度:ConfCi=CpositiveCpositive+Cnegative (3)其中,Cpositive表示候選文本模式;Ci抽取的產(chǎn)品特征在產(chǎn)品特征種子集合中出現(xiàn)的個(gè)數(shù);(Cpositive+Cnegative)表示候選文本模式Ci抽取到的產(chǎn)品特征的總數(shù)。為了對(duì)新發(fā)現(xiàn)的詞條進(jìn)行度量:如果產(chǎn)生該名詞短語(yǔ)的文本模式越多,則該名詞短語(yǔ)越可靠。目前采用弱監(jiān)督進(jìn)行自動(dòng)學(xué)習(xí)的方法中均需要對(duì)生成的候選文本模式的可靠性進(jìn)行度量。選用文本模式的4個(gè)元組中包含有非數(shù)值型的值(Rel, MPos)和數(shù)值型的值(D,L),因此,侯選文本模式的產(chǎn)生分成2步: 第 1步:將文本模式的(Rel, MPos)看作一個(gè)整體對(duì)模式化表示的語(yǔ)句進(jìn)行分類(lèi),統(tǒng)計(jì)每一類(lèi)中包含Ti的個(gè)數(shù),如果該類(lèi)中包含的文本模式數(shù)目大于設(shè)定的閾值,那么該類(lèi)作為一個(gè)可以產(chǎn)生文本候選模式的類(lèi)。對(duì)該過(guò)程不斷地迭代,直到系統(tǒng)不能產(chǎn)生新種子或新的文本模式和達(dá)到人工指定迭代次數(shù)停止迭代,將產(chǎn)品特征種子集合中的種子輸出作為結(jié)果,: 文本模式抽取系統(tǒng)流程(1)發(fā)現(xiàn)產(chǎn)品特征種子出現(xiàn)語(yǔ)句 將語(yǔ)料庫(kù)中的產(chǎn)品評(píng)論分解為語(yǔ)句,并對(duì)每一個(gè)句子進(jìn)行詞性標(biāo)注,提取句子中的名詞和名詞短語(yǔ),如果它是產(chǎn)品特征種子集合的一個(gè)元素,那么將出現(xiàn)該名詞或名詞短語(yǔ)的語(yǔ)句加入產(chǎn)品特征出現(xiàn)語(yǔ)句集合|SO|。David Bounie直接使用調(diào)查表方式獲得用戶(hù)對(duì)視頻游戲的評(píng)價(jià);LunWei Ku使用 NTCIR和TREC的網(wǎng)絡(luò)新聞?wù)Z料,通過(guò)詞級(jí)、句子級(jí)和文檔級(jí)獲得對(duì)相關(guān)事件表達(dá)的情感極性和程度,提取用戶(hù)對(duì)事件的觀點(diǎn);Minqing |,但沒(méi)有對(duì)提取到的評(píng)論內(nèi)容進(jìn)行優(yōu)劣評(píng)判;Eugene Agichtein使用了LDC的North American News Text Corpus,通過(guò)滾雪球的迭代方式從種子元素到模式生成,再根據(jù)模式中從語(yǔ)料庫(kù)提取新的元素加入種子集合獲取事件對(duì)應(yīng)的關(guān)系列表?,F(xiàn)有的機(jī)器學(xué)習(xí)方法很多是利用標(biāo)注的訓(xùn)練樣本,這些大規(guī)模標(biāo)注過(guò)的訓(xùn)練數(shù)據(jù)可以提高學(xué)習(xí)算法結(jié)果的準(zhǔn)確率,但是標(biāo)注好的訓(xùn)練數(shù)據(jù)不容易獲得,并且網(wǎng)上信息的增長(zhǎng)和變化都很快,因此只使用人工標(biāo)注訓(xùn)練數(shù)據(jù)的機(jī)器學(xué)習(xí)方法已經(jīng)不能滿(mǎn)足對(duì)網(wǎng)上信息進(jìn)行挖掘的需求,獲得的學(xué)習(xí)系統(tǒng)的泛化能力也不強(qiáng)。Hu and Liu 首先對(duì)評(píng)論中的主觀性語(yǔ)句進(jìn)行句法分析,找到句子中的名詞或名詞短語(yǔ),然后使用關(guān)聯(lián)規(guī)則挖掘出頻繁項(xiàng),將得到的頻繁項(xiàng)作為產(chǎn)品的特征,然后將離產(chǎn)品特征最近的形容詞作為評(píng)價(jià)詞。 從產(chǎn)品評(píng)論中自動(dòng)抽取產(chǎn)品特征和觀點(diǎn)主要使用詞性標(biāo)注、句法分析、文本模式等自然語(yǔ)言技術(shù)對(duì)產(chǎn)品評(píng)論中的語(yǔ)句進(jìn)行分析,從中自動(dòng)發(fā)現(xiàn)產(chǎn)品特征和觀點(diǎn)詞。在人工定義方面,Kobayashi、Inui和 Matsumoto 等人工定義產(chǎn)品特征(cost, price, service, performance, function,support, design)和觀點(diǎn)(good, beautiful, bright, like/favorite, high),獲取同時(shí)出現(xiàn)特征和觀點(diǎn)的模式。如果C不存在,我們總能回到Java或C和C++這些都不完全是新技術(shù),它們?cè)诟蟮囊饬x上來(lái)說(shuō)只是大公司制造的市場(chǎng)噱頭,我們必須給他們時(shí)間安頓下來(lái)看看這些是不是真的對(duì)IT工業(yè)有什么影響”重慶科技學(xué)院本科畢業(yè)生論文 2產(chǎn)品特征詞的挖掘2 產(chǎn)品特征詞的挖掘自動(dòng)識(shí)別產(chǎn)品評(píng)論中的產(chǎn)品特征對(duì)產(chǎn)品評(píng)論的挖掘是一個(gè)難點(diǎn),因?yàn)橄鄬?duì)普通的文本而言,產(chǎn)品評(píng)論是用戶(hù)隨意的表述,很少有完整的主謂賓結(jié)構(gòu),卻有不計(jì)其數(shù)的同音錯(cuò)別字、簡(jiǎn)略語(yǔ)、拼音、英語(yǔ)和中文混雜。C更像Java一些,雖然微軟在這個(gè)問(wèn)題上保持沉默,這也是意料中的事情,我覺(jué)得,因?yàn)镴ava近來(lái)很成功而使用Java的公司都報(bào)告說(shuō)它們?cè)谏a(chǎn)效率上比C++獲得了提高。C看似基于C++寫(xiě)成,但又融入其它語(yǔ)言如Delphi、Java、VB等。C是一種安全的、穩(wěn)定的、簡(jiǎn)單的、優(yōu)雅的,由C和C++衍生出來(lái)的面向?qū)ο蟮木幊陶Z(yǔ)言。C是微軟公司研究員Anders Hejlsberg的最新成果。介紹了使用tf/idf的方法來(lái)識(shí)別分詞或者分詞組合是否是真正的特征詞,如果分詞或者分詞的組合不是真正的詞語(yǔ)那么將在語(yǔ)料中很少或者幾乎不出現(xiàn)。最大支持度(Maximum_Support)則指定了項(xiàng)集出現(xiàn)頻度的上限,超過(guò)上限的項(xiàng)集也不是研究者們感興趣的。因而,把神經(jīng)網(wǎng)絡(luò)技術(shù)與專(zhuān)家系統(tǒng)結(jié)合起來(lái)用于漢語(yǔ)自動(dòng)分詞與標(biāo)引系統(tǒng)將是該領(lǐng)域的發(fā)展趨向。因此,今后應(yīng)注重漢語(yǔ)句法和語(yǔ)義的自動(dòng)分析研究,并將其應(yīng)用到漢語(yǔ)自動(dòng)分詞領(lǐng)域。目前,人工智能技術(shù)的重點(diǎn)研究領(lǐng)域主要是專(zhuān)家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)技術(shù)和生物芯片技術(shù)。因此,漢語(yǔ)自動(dòng)分詞研究的發(fā)展同時(shí)也寄希望于人工智能技術(shù)的突破。依賴(lài)于對(duì)語(yǔ)言與思維的本質(zhì)的揭示。漢語(yǔ)詞自動(dòng)切分應(yīng)用研究。此外,還可以人工干預(yù)分詞,人工分詞與計(jì)算機(jī)自動(dòng)分詞結(jié)合。統(tǒng)計(jì)表明,第一類(lèi)歧義字段只占整個(gè)歧義字段總數(shù)的1/30 以下,因此不必在分詞階段花費(fèi)巨大的開(kāi)銷(xiāo)來(lái)處理它們。由于自動(dòng)分詞中存在三種歧義類(lèi)型,不同類(lèi)型的歧義,其產(chǎn)生的根源和消除的方法各不相同。漢語(yǔ)詞自動(dòng)切分歧義處理。分詞算法研究是漢語(yǔ)自動(dòng)分詞的重點(diǎn)和難點(diǎn),每一次分詞算法上的突破都會(huì)使?jié)h語(yǔ)自動(dòng)分詞的速度和精度有較大提高。沒(méi)有統(tǒng)一和明確的漢語(yǔ)詞的定義,漢有規(guī)范的漢語(yǔ)分詞詞表,漢語(yǔ)自動(dòng)分詞就無(wú)從談起。 漢語(yǔ)分詞介紹目前, 漢語(yǔ)自動(dòng)分詞的研究重心主要集中在對(duì)傳統(tǒng)文本的有效切分上。而且人工定義的方法需要有人工標(biāo)注的語(yǔ)料作為訓(xùn)練集,不同種類(lèi)的產(chǎn)品就必須要標(biāo)注不同的語(yǔ)料,這就相當(dāng)耗費(fèi)時(shí)間,也無(wú)法適用所有種類(lèi)的產(chǎn)品。產(chǎn)品特征的提取分為人工定義和自動(dòng)提取兩類(lèi)。 從評(píng)論語(yǔ)料庫(kù)中挖掘產(chǎn)品特征詞的研究現(xiàn)狀產(chǎn)品評(píng)論挖掘需要了解用戶(hù)對(duì)產(chǎn)品的哪些功能、性能進(jìn)行了評(píng)價(jià),因此需要從產(chǎn)品評(píng)論語(yǔ)句中提取表達(dá)了用戶(hù)評(píng)價(jià)的對(duì)象——產(chǎn)品特征。產(chǎn)品特征提取目的是從眾多的用戶(hù)評(píng)論中挖掘出用戶(hù)所關(guān)心的產(chǎn)品特征(比如:相機(jī)的產(chǎn)品特征包括重量、大小、圖片的質(zhì)量、電池的使用時(shí)間、存儲(chǔ)容量等;手機(jī)的產(chǎn)品特征包括制式、重量、體積、屏幕大小、攝像頭像素等)。產(chǎn)品評(píng)論挖掘一般分為產(chǎn)品特征提取、主觀句定位和用戶(hù)詞性判斷和挖掘結(jié)果顯示等4個(gè)階段。重慶科技學(xué)院本科畢業(yè)生論文 目錄從評(píng)論語(yǔ)料庫(kù)中挖掘產(chǎn)品特征詞畢業(yè)論文目錄中文摘要 I英文摘要 II1 緒論 1 研究背景 1 選題意義 1 從評(píng)論語(yǔ)料庫(kù)中挖掘產(chǎn)品特征詞的研究現(xiàn)狀 2 產(chǎn)品特征詞挖掘的發(fā)展前景 3 漢語(yǔ)分詞介紹 3 特征詞挖掘的相關(guān)算法 6 開(kāi)發(fā)環(huán)境介紹 62 產(chǎn)品特征詞的挖掘 8 8 9 弱監(jiān)督機(jī)器學(xué)習(xí)方法介紹 9 產(chǎn)品評(píng)論內(nèi)容的分析 13 產(chǎn)品評(píng)論統(tǒng)計(jì)特征的提取 13 模式結(jié)構(gòu)與模式特征集 143系統(tǒng)設(shè)計(jì) 16 系統(tǒng)總體設(shè)計(jì) 16 系統(tǒng)界面設(shè)計(jì) 16 特征詞挖掘的系統(tǒng)設(shè)計(jì) 214 系統(tǒng)測(cè)試 23 系統(tǒng)功能測(cè)試 23 系統(tǒng)的不足 24 系統(tǒng)的后續(xù)工作 24總結(jié) 26致謝 27參考文獻(xiàn) 28重慶科技學(xué)院本科畢業(yè)生論文 1緒論1 緒論隨著Internet的廣泛應(yīng)用,用戶(hù)使用產(chǎn)品會(huì)通過(guò)Web 對(duì)產(chǎn)品進(jìn)行評(píng)論,這些評(píng)論中包含用戶(hù)對(duì)產(chǎn)品的各個(gè)方面的性能持有肯定還是否定的意見(jiàn)。產(chǎn)品評(píng)論大多用自然語(yǔ)言進(jìn)行描述,生產(chǎn)廠(chǎng)商和用戶(hù)只有采用人工閱讀的方式才能從中提取信息,而這是一個(gè)費(fèi)時(shí)、費(fèi)力且容易產(chǎn)生錯(cuò)誤的過(guò)程,因此,產(chǎn)生了自動(dòng)產(chǎn)品評(píng)論挖掘的需求。用戶(hù)購(gòu)買(mǎi)產(chǎn)品之前可以了解已經(jīng)購(gòu)買(mǎi)了該產(chǎn)品的用戶(hù)關(guān)于該產(chǎn)品的使用體驗(yàn),了解產(chǎn)品各個(gè)方面的性能,還可以對(duì)同類(lèi)型的產(chǎn)品按照性能進(jìn)行比較,從而合理的購(gòu)買(mǎi)產(chǎn)品。摩托羅拉A1890(MOTO A1890):圖 (MOTO A1890)天翼3G雙網(wǎng)雙待手機(jī)評(píng)論
點(diǎn)擊復(fù)制文檔內(nèi)容
外語(yǔ)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1