freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

淺析信息抽取技術(shù)及前景-wenkub.com

2025-07-11 00:45 本頁面
   

【正文】 伴隨著互聯(lián)網(wǎng)及數(shù)字圖書館等相關(guān)技術(shù)的發(fā)展,信息抽取在互聯(lián)網(wǎng)及圖書館信息處理自動化中將具有深遠(yuǎn)的影響。另外,一些專家引入語法分析和字典術(shù)語機(jī)制作為判斷概念之間關(guān)系的方法,也取得了較好效果。其中有兩層意義:一是先要對某個領(lǐng)域進(jìn)行抽象、歸納,即把這一領(lǐng)域概 念化;二是再對這一概念化的結(jié)果用一種人、計算機(jī)、代理都可以理解的通用規(guī)范表達(dá)出來,表達(dá)出來后就形成了一個Ontology?! ≡贛UC(信息理解研討會)階段,信息抽取測評嚴(yán)格限制在特定場景、特定事件和特定語言中,系統(tǒng)移植成本較高。從近兩屆ACE的測試數(shù)據(jù)來看,數(shù)據(jù)來源已經(jīng)不再僅僅是專線新聞、ASR(自動語音識別)、OCR(光學(xué)字符識別)文集,還包括了Web信息,這也是目前信息抽取技術(shù)發(fā)展的一大趨勢。五、信息抽取的發(fā)展趨勢信息抽取技術(shù)的發(fā)展現(xiàn)狀對其未來的發(fā)展提出了需求,可以看到信息技術(shù)未來的發(fā)展趨勢主要集中在兩個相反發(fā)展方向上:一方面,使現(xiàn)有的信息技術(shù)嵌入在現(xiàn)有的應(yīng)用領(lǐng)域中,包括文本檢索、基于任務(wù)的自動摘要、基于任務(wù)的機(jī)器翻譯、跨文檔和多媒體的融合、趨勢分析等。國外有不少機(jī)構(gòu)已經(jīng)開發(fā)出針對中文實現(xiàn)的測試型的信息抽取系統(tǒng),在國內(nèi)也已經(jīng)有較多的單位或機(jī)構(gòu)投入了相當(dāng)大的精力。由此可見,豐富和充實語料種類及數(shù)量是一個亟待解決的問題。目前自然語言處理領(lǐng)域主要流行的是基于規(guī)則和基于統(tǒng)計兩種處理思路。如句子“李靜從著名的電器制造公司長虹電子集團(tuán)有限公司董事長的位置上退休了,趙剛將接替他”的場景模版可表示為: 人 從 位置 退休 人 接替 人六、共指分析解決如代詞和名詞表示同一內(nèi)容等的問題。這兩種規(guī)則庫由很多從現(xiàn)實預(yù)言中提煉的實例規(guī)則組成,一般都比較龐大。這其中涉及以下幾種算法:1. Viterbi算法;2. Volsunga算法;3. Claws算法,等。其實者也可以通過以上分詞算法中的未登錄詞的獲取算法來識別?,F(xiàn)今未登錄詞的獲取主要是基于統(tǒng)計的獲取方法,有:1) 基于頻率的方法;2) 基于均值和方差的方法;3) 基于假設(shè)檢驗的方法;4) 基于互信息的方法,等。2) 基于統(tǒng)計的分詞消歧這其中又有基于詞頻的分詞消歧方法,以及基于互信息和t測試差的歧義切分方法等。窮舉法是不現(xiàn)實的,可采用雙向掃描法,例如采用正向最小匹配和逆向最大匹配同時掃描句子以發(fā)現(xiàn)歧義字段。此外還有真歧義。在句子的各個層次(字、詞、詞組、句、段、篇、章等)間轉(zhuǎn)換過程中都有可能產(chǎn)生歧義或多義的現(xiàn)象,包括切詞中的歧義、詞的歧義、結(jié)構(gòu)歧義、指代和省略中、的歧義以及各種更復(fù)雜的歧義現(xiàn)象。有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實遠(yuǎn)非如此。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點??梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng)計,計算它們的各種統(tǒng)計信息,從而進(jìn)行分詞。這種分詞方法需要使用大量的語言知識和信息?;诶斫獾姆衷~方法這種分詞方法是通過讓計算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實際的需要。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。這一匹配算法就叫鄰近匹配算法。2) 逆向最大匹配法,逆向最小匹配法。基于字符串匹配的分詞方法即機(jī)械分詞方法。 圖4 基于規(guī)則的信息抽取系統(tǒng)結(jié)構(gòu)二、詞法分析進(jìn)行分詞(包括詞、詞組和短語的切分)?;谝?guī)則的信息抽取需要詞典和規(guī)則庫的支撐,這些規(guī)則一般不是通用的,而是針對某個特定領(lǐng)域的。因此,信息抽取技術(shù)的核心是從文本中提取信息,如果對于文本中的關(guān)鍵句(中心句)能夠使機(jī)器理解,則對于提高抽取的精度有很大的幫助。領(lǐng)域分析可以分為共指分析和片段結(jié)果(模版)的合并兩部分。如圖3所示,是一個添加了詞分割、部分語音標(biāo)記、詞組理解等內(nèi)容的完整的、有“血肉”的信息抽取系統(tǒng)。5. 輸出結(jié)構(gòu)(例如生成一個關(guān)系數(shù)據(jù)庫或給出自然語言陳述等)。這個過程通常包含識別特定的名詞短語(人名、機(jī)構(gòu)名等)和動詞短語(事件描述、事件陳述)。一個典型的信息抽取系統(tǒng)的工作過程主要包括:1. 用一組信息模式(info patterns)描述感興趣的信息?!?共指消解:也稱篇章處理,通過確定同一實體在文本不同部分中的不同描述將當(dāng)前句的語義結(jié)構(gòu)表示合并到先前的處理結(jié)果中?!?預(yù)分析:在詞匯項序列中識別確定的小型結(jié)構(gòu),如名詞短語、并列結(jié)構(gòu)等。其組成如圖1所示。自動學(xué)習(xí)方法抽取規(guī)則的獲取是通
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1