freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

淺析信息抽取技術(shù)及前景(更新版)

  

【正文】 常用詞的識(shí)別精度差,時(shí)空開(kāi)銷大。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過(guò)程。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。 采用首字索引的詞表,利用在同一首字下的詞條按升序排列這一條件,在找到某個(gè)字符串后,在其后面加上一個(gè)子得一新字串,如果新子串在詞典中出現(xiàn),那么新詞一定在原字串的后面,且相隔不會(huì)太原。現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。下面詳細(xì)介紹基于規(guī)則的信息抽取方法及其可以用到的中文信息處理技術(shù)。句法分析得到文檔的某種結(jié)構(gòu)表示,如完整的分析樹(shù)或分析樹(shù)片段集合。4. 使用上下文關(guān)聯(lián)、指代、引用等分析和推理,確定信息的最終模式。但一個(gè)信息抽取系統(tǒng)應(yīng)該包含以上模塊中描述的功能?!?過(guò)濾:過(guò)濾掉不相關(guān)的句子。知識(shí)工程方法的設(shè)計(jì)初始階段較容易,但是要實(shí)現(xiàn)較完善的規(guī)則庫(kù)的過(guò)程往往比較耗時(shí)耗力。根據(jù)抽取模式獲得的方式的不同,信息抽取系統(tǒng)的構(gòu)建主要有兩種方法,即知識(shí)工程方法(Knowledge Engineering Approach)和機(jī)器學(xué)習(xí)方法(Machine Learning Approach,也叫自動(dòng)訓(xùn)練方法automatically trainable system)。信息抽取技術(shù)在軍事、經(jīng)濟(jì)、醫(yī)學(xué)、科學(xué)研究等領(lǐng)域有著極大的應(yīng)用空間。據(jù)統(tǒng)計(jì),在這些海量信息中,有60%~70%是以電子文檔的形式存在。進(jìn)入21世紀(jì)后,全世界信息總量更是以每三年增加一倍的速度遞增。信息抽取技術(shù)的最終目的就是開(kāi)發(fā)實(shí)用的信息抽取系統(tǒng),從自由文本中抽取、分析信息,從而得到有用的、用戶感興趣的信息。在信息抽取系統(tǒng)的構(gòu)建過(guò)程中,最重要的是如何獲得抽取模式(Extraction Pattern)。這種方法構(gòu)建的系統(tǒng)具有的特點(diǎn)剛好與用KE方法的系統(tǒng)特點(diǎn)相反。☆ 預(yù)處理:將得到的文本塊轉(zhuǎn)換為句子序列,每個(gè)句子由詞匯項(xiàng)(lexical items,詞或特點(diǎn)類型短語(yǔ))及相關(guān)的屬性(如詞類)組成。當(dāng)然,不是所有的信息抽取系統(tǒng)都包含所有的模塊,并且也未必完全遵循以上的處理順序。3. 使用模式匹配方法識(shí)別指定的信息(找出信息模式的各個(gè)部分)。詞匯和詞法處理則是根據(jù)詞典和各種標(biāo)記來(lái)理解詞匯的意義,從而進(jìn)行實(shí)體的識(shí)別。一般有三種信息抽取方法:基于隱馬爾科夫模型的信息抽取(主要利用BaumWelch算法計(jì)算模型初始狀態(tài)概率、狀態(tài)轉(zhuǎn)移概率和釋放概率,解碼問(wèn)題采用Viterbi算法,學(xué)習(xí)問(wèn)題可以采用ML算法和BaumWelch算法),基于自然語(yǔ)言處理的信息抽取方法和基于規(guī)則的信息抽取。中文分詞技術(shù)屬于自然語(yǔ)言處理技術(shù)范疇,對(duì)于一句話,人可以通過(guò)自己的知識(shí)來(lái)明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解?其處理過(guò)程就是分詞算法。3) 鄰近匹配算法(neighborhood match)。一般說(shuō)來(lái),逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無(wú)詞典分詞法或統(tǒng)計(jì)取詞方法。在中文分詞過(guò)程中,有兩大難題一直沒(méi)有完全突破。例如:“乒乓球拍賣完了”,可以切分成“乒乓 球拍 賣 完 了”、也可切分成“乒乓球 拍賣 完 了”,如果沒(méi)有上下文其他的句子,恐怕誰(shuí)也不知道“拍賣”在這里算不算一個(gè)詞。也就是那些在字典中都沒(méi)有收錄過(guò),但又確實(shí)能稱為詞的那些詞。四、部分句法分析這部分可采用中文文本信息處理中的詞性自動(dòng)標(biāo)注來(lái)實(shí)現(xiàn)詞性的標(biāo)注。如下面模版: 公司描述:公司名 職位:公司名 ……五、場(chǎng)景模版匹配以上所以工作都是為場(chǎng)景模版匹配做準(zhǔn)備。而基于統(tǒng)計(jì)的方法,由于缺乏較大的成熟語(yǔ)料庫(kù)和標(biāo)注語(yǔ)料,目前較難開(kāi)展,尚不占主導(dǎo)地位。從它們的選擇任務(wù)上看,主要還是集中于中英文實(shí)體,關(guān)系識(shí)別僅有哈爾濱工業(yè)大學(xué)、中國(guó)科學(xué)院軟件所參與,北京大學(xué)則側(cè)重于時(shí)間和價(jià)值識(shí)別。此外,對(duì)于多媒體內(nèi)容的信息抽取雖然存在難度,但一些專家已經(jīng)通過(guò)引入貝葉斯網(wǎng)絡(luò)、增量抽取等算法優(yōu)化系統(tǒng),取得了較好的效果,并且已提出了跨媒體抽取的相關(guān)模型?;趏ntology的信息抽取(ontology-Based IE,OBIE)將ontology視為一種語(yǔ)義標(biāo)注語(yǔ)料,并將其作為系統(tǒng)輸入之一,同時(shí)系統(tǒng)輸出的格式也規(guī)定為ontology,從而實(shí)現(xiàn)非結(jié)構(gòu)化文本向規(guī)范化知識(shí)表達(dá)的轉(zhuǎn)換。參考文獻(xiàn):中文文本信息處理的原理與應(yīng)用(苗奪謙 衛(wèi)志華 編著 清華大學(xué)出版社) 網(wǎng)絡(luò)資源:《ACE測(cè)評(píng)會(huì)議》 網(wǎng)絡(luò)其他資源9 / 9
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1