freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

淺析信息抽取技術(shù)及前景(專業(yè)版)

  

【正文】 基于ontology的信息抽?。╫ntology-Based IE,OBIE)將ontology視為一種語(yǔ)義標(biāo)注語(yǔ)料,并將其作為系統(tǒng)輸入之一,同時(shí)系統(tǒng)輸出的格式也規(guī)定為ontology,從而實(shí)現(xiàn)非結(jié)構(gòu)化文本向規(guī)范化知識(shí)表達(dá)的轉(zhuǎn)換。從它們的選擇任務(wù)上看,主要還是集中于中英文實(shí)體,關(guān)系識(shí)別僅有哈爾濱工業(yè)大學(xué)、中國(guó)科學(xué)院軟件所參與,北京大學(xué)則側(cè)重于時(shí)間和價(jià)值識(shí)別。如下面模版: 公司描述:公司名 職位:公司名 ……五、場(chǎng)景模版匹配以上所以工作都是為場(chǎng)景模版匹配做準(zhǔn)備。也就是那些在字典中都沒(méi)有收錄過(guò),但又確實(shí)能稱為詞的那些詞。在中文分詞過(guò)程中,有兩大難題一直沒(méi)有完全突破。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。3) 鄰近匹配算法(neighborhood match)。一般有三種信息抽取方法:基于隱馬爾科夫模型的信息抽取(主要利用BaumWelch算法計(jì)算模型初始狀態(tài)概率、狀態(tài)轉(zhuǎn)移概率和釋放概率,解碼問(wèn)題采用Viterbi算法,學(xué)習(xí)問(wèn)題可以采用ML算法和BaumWelch算法),基于自然語(yǔ)言處理的信息抽取方法和基于規(guī)則的信息抽取。3. 使用模式匹配方法識(shí)別指定的信息(找出信息模式的各個(gè)部分)?!?預(yù)處理:將得到的文本塊轉(zhuǎn)換為句子序列,每個(gè)句子由詞匯項(xiàng)(lexical items,詞或特點(diǎn)類型短語(yǔ))及相關(guān)的屬性(如詞類)組成。在信息抽取系統(tǒng)的構(gòu)建過(guò)程中,最重要的是如何獲得抽取模式(Extraction Pattern)。進(jìn)入21世紀(jì)后,全世界信息總量更是以每三年增加一倍的速度遞增。信息抽取技術(shù)在軍事、經(jīng)濟(jì)、醫(yī)學(xué)、科學(xué)研究等領(lǐng)域有著極大的應(yīng)用空間。知識(shí)工程方法的設(shè)計(jì)初始階段較容易,但是要實(shí)現(xiàn)較完善的規(guī)則庫(kù)的過(guò)程往往比較耗時(shí)耗力。但一個(gè)信息抽取系統(tǒng)應(yīng)該包含以上模塊中描述的功能。句法分析得到文檔的某種結(jié)構(gòu)表示,如完整的分析樹(shù)或分析樹(shù)片段集合?,F(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。但這種方法也有一定的局限性,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對(duì)常用詞的識(shí)別精度差,時(shí)空開(kāi)銷大。歧義字段的發(fā)現(xiàn)有兩種方法:窮舉法和雙向掃描法。主要可建立馬爾科夫模型和隱馬爾科夫模型,構(gòu)建馬爾科夫模型標(biāo)注器或隱馬爾科夫模型標(biāo)注器。另外一個(gè)突出表現(xiàn)就是,在自動(dòng)內(nèi)容抽?。ˋCE)測(cè)評(píng)05年的測(cè)評(píng)中,由于阿拉伯語(yǔ)缺乏標(biāo)注語(yǔ)料,盡管有系統(tǒng)參與測(cè)試,卻沒(méi)有相匹配的參照庫(kù),因此無(wú)法進(jìn)行打分??梢?jiàn),對(duì)于多種信息內(nèi)容的抽取和整合,無(wú)疑將為信息抽取下一步的重要目標(biāo)和挑戰(zhàn)。未來(lái)的現(xiàn)代數(shù)字化圖書館建設(shè),應(yīng)當(dāng)充分利用信息抽取技術(shù),發(fā)揮其巨大的作用。Web頁(yè)面中存在著大量的HTML格式的無(wú)結(jié)構(gòu)數(shù)據(jù)和少量XMLL格式的半結(jié)構(gòu)數(shù)據(jù),而隱蔽網(wǎng)(Hide Web)也包含了網(wǎng)上數(shù)據(jù)庫(kù)系統(tǒng)生成的大容量倉(cāng)儲(chǔ)數(shù)據(jù),這些信息是十分重要的資源,相應(yīng)的信息抽取研究也已基于此開(kāi)展?;谝?guī)則的方法在機(jī)器學(xué)習(xí)自動(dòng)構(gòu)建規(guī)則庫(kù)等方面有一定難度,現(xiàn)有系統(tǒng)主要以基于規(guī)則的淺層分析方法為主。比如說(shuō)人名和機(jī)構(gòu)名的識(shí)別可以通過(guò)特定的中文姓名和機(jī)構(gòu)名的自動(dòng)識(shí)別算法和系統(tǒng)來(lái)識(shí)別。真歧義意思是給出一句話,由人去判斷也不知道哪個(gè)應(yīng)該是詞,哪個(gè)應(yīng)該不是詞。比如基于統(tǒng)計(jì)的最短路徑分詞方法等。由于漢語(yǔ)單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。詞切分正確與否是信息抽取的關(guān)鍵所在。 圖3 一個(gè)有“血肉”的信息抽取系統(tǒng)結(jié)構(gòu)其中,符號(hào)化的工作主要是進(jìn)行詞的分割,類似與Hobbs結(jié)構(gòu)的文本分塊?!?模板生成:由文本的語(yǔ)義結(jié)構(gòu)表示生成最終的模板。利用這些訓(xùn)練文本訓(xùn)練后,系統(tǒng)能夠處理沒(méi)有標(biāo)記的新的文本。后文如無(wú)說(shuō)明只涉及中文文本信息抽取。為了應(yīng)對(duì)信息爆炸帶來(lái)的挑戰(zhàn),迫切需要一些自動(dòng)化的技術(shù)幫助人們?cè)诤A啃畔⒅醒杆僬业阶约赫嬲枰男畔ⅰ?知識(shí)工程(KE)方法依靠人工編寫抽取模式,使系統(tǒng)能處理特定知識(shí)領(lǐng)域的信息抽取問(wèn)題?!?預(yù)分析:在詞匯項(xiàng)序列中識(shí)別確定的小型結(jié)構(gòu),如名詞短語(yǔ)、并列結(jié)構(gòu)等。5. 輸出結(jié)構(gòu)(例如生成一個(gè)關(guān)系數(shù)據(jù)庫(kù)或給出自然語(yǔ)言陳述等)?;谝?guī)則的信息抽取需要詞典和規(guī)則庫(kù)的支撐,這些規(guī)則一般不是通用的,而是針對(duì)某個(gè)特定領(lǐng)域的。這一匹配算法就叫鄰近匹配算法。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息。在句子的各個(gè)層次(字、詞、詞組、句、段、篇、章等)間轉(zhuǎn)換過(guò)程中都有可能產(chǎn)生歧義或多義的現(xiàn)象,包括切詞中的歧義、詞的歧義、結(jié)構(gòu)歧義、指代和省略中、的歧義以及各種更復(fù)雜的歧義現(xiàn)象?,F(xiàn)今未登錄詞的獲取主要是基于統(tǒng)計(jì)的獲取方法,
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1