freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

淺析信息抽取技術(shù)及前景(已修改)

2025-07-26 00:45 本頁(yè)面
 

【正文】 信息抽取技術(shù)及前景淺析李榮國(guó) 072529關(guān)鍵詞:信息抽取 信息處理技術(shù) 分詞 句法及語(yǔ)義分析摘要: 面向?qū)嶋H應(yīng)用和潛在需求,建立自適應(yīng)的、可移植的系統(tǒng)是未來(lái)信息抽取的發(fā)展方向,立足于目前已有的研究成果,建立受測(cè)試集驅(qū)動(dòng)、通過(guò)機(jī)器學(xué)習(xí)構(gòu)建有監(jiān)督機(jī)制的規(guī)則庫(kù)并在此基礎(chǔ)上實(shí)現(xiàn)知識(shí)獲取將成為一條發(fā)展的思路。一、信息抽取概述隨著計(jì)算機(jī)在各個(gè)領(lǐng)域的廣泛普及和Internet的迅猛發(fā)展,社會(huì)的信息總量呈爆炸式的指數(shù)增長(zhǎng)。信息總量的量級(jí),從20世紀(jì)90年代初的MB(106)過(guò)渡到GB(109)再到現(xiàn)在的TB(1012)。進(jìn)入21世紀(jì)后,全世界信息總量更是以每三年增加一倍的速度遞增。據(jù)統(tǒng)計(jì),在這些海量信息中,有60%~70%是以電子文檔的形式存在。為了應(yīng)對(duì)信息爆炸帶來(lái)的挑戰(zhàn),迫切需要一些自動(dòng)化的技術(shù)幫助人們?cè)诤A啃畔⒅醒杆僬业阶约赫嬲枰男畔?。信息抽取(Information Extraction,IE)正是解決這個(gè)問(wèn)題的一種方法。信息抽取技術(shù)是指從一段自然語(yǔ)言文本中抽取指定的事件、事實(shí)信息,并以結(jié)構(gòu)化形式描述信息,供信息查詢、文本深層挖掘、自動(dòng)回答問(wèn)題等應(yīng)用,為人們提供有力的信息獲取工具。也就是從文本中抽取用戶感興趣的事件、實(shí)體和關(guān)系,被抽取出來(lái)的信息以結(jié)構(gòu)化的形式描述,然后存儲(chǔ)在數(shù)據(jù)庫(kù)中,為情報(bào)分析和檢測(cè)、比價(jià)購(gòu)物、自動(dòng)文摘、文本分類(lèi)等各種應(yīng)用提供服務(wù)。廣義上信息抽取技術(shù)的抽取對(duì)象并不局限于文本,其他形式存在的信息也可以作為信息抽取的對(duì)象,而抽取的結(jié)果則變?yōu)橄鄳?yīng)的結(jié)構(gòu)化數(shù)據(jù)。后文如無(wú)說(shuō)明只涉及中文文本信息抽取。信息抽取技術(shù)的最終目的就是開(kāi)發(fā)實(shí)用的信息抽取系統(tǒng),從自由文本中抽取、分析信息,從而得到有用的、用戶感興趣的信息。信息抽取技術(shù)在軍事、經(jīng)濟(jì)、醫(yī)學(xué)、科學(xué)研究等領(lǐng)域有著極大的應(yīng)用空間。  與信息抽取密切相關(guān)的一項(xiàng)研究是信息檢索(Information Retrieval,IR)技術(shù)。信息抽取并不同與信息檢索,兩種的功能、處理技術(shù)、適用領(lǐng)域均不相同,但它們倆是可以互補(bǔ)的。為了處理海量文本,信息抽取系統(tǒng)通常以信息檢索系統(tǒng)(如文本過(guò)濾)的輸出作為輸入;而信息抽取技術(shù)又可以用來(lái)提高信息檢索系統(tǒng)的性能。二者的結(jié)合能夠更好地服務(wù)與用戶的信息處理需求。另外,和信息抽取相關(guān)的技術(shù)還有自動(dòng)文摘、文本理解、自然語(yǔ)言生成、機(jī)器翻譯和數(shù)據(jù)挖掘等。二、信息抽取系統(tǒng)的構(gòu)建在信息抽取技術(shù)中,對(duì)自由文本進(jìn)行信息抽取需要運(yùn)用許多自然語(yǔ)言處理(NLP)知識(shí),所以自由文本信息抽取系統(tǒng)的構(gòu)建是比較復(fù)雜和困難的。在信息抽取系統(tǒng)的構(gòu)建過(guò)程中,最重要的是如何獲得抽取模式(Extraction Pattern)。根據(jù)抽取模式獲得的方式的不同,信息抽取系統(tǒng)的構(gòu)建主要有兩種方法,即知識(shí)工程方法(Knowledge Engineering Approach)和機(jī)器學(xué)習(xí)方法(Machine Learning Approach,也叫自動(dòng)訓(xùn)練方法automatically trainable system)。 知識(shí)工程(KE)方法依靠人工編寫(xiě)抽取模式,使系統(tǒng)能處理特定知識(shí)領(lǐng)域的信息抽取問(wèn)題。這種方法要求編寫(xiě)抽取模式的知識(shí)工程師對(duì)特定知識(shí)領(lǐng)域有深入的了解,具有性能好和易開(kāi)發(fā)等優(yōu)點(diǎn)。這種方法一般用于構(gòu)建具有以下特點(diǎn)的系統(tǒng):1. 已有相應(yīng)的資源,如詞典、表等;2. 已經(jīng)有了可用的規(guī)則;3. 數(shù)據(jù)訓(xùn)練代價(jià)大或者不容易實(shí)現(xiàn);4. 抽取的規(guī)格變化頻繁;5. 性能要求高。機(jī)器學(xué)習(xí)(ML)方法是利用機(jī)器學(xué)習(xí)技術(shù)讓信息抽取系統(tǒng)通過(guò)訓(xùn)練文本來(lái)獲得抽取模式,實(shí)現(xiàn)特定領(lǐng)域的信息抽取功能。任何對(duì)特定知識(shí)領(lǐng)域比較熟悉的人都可以根據(jù)事先約定的規(guī)則來(lái)標(biāo)記訓(xùn)練文本。利用這些訓(xùn)練文本訓(xùn)練后,系統(tǒng)能夠處理沒(méi)有標(biāo)記的新的文本。這種方法構(gòu)建的系統(tǒng)具有的特點(diǎn)剛好與用KE方法的系統(tǒng)特點(diǎn)相反。知識(shí)工程方法的設(shè)計(jì)初始階段較容易,但是要實(shí)現(xiàn)較完善的規(guī)則庫(kù)的過(guò)程往往比較耗時(shí)耗力。自動(dòng)學(xué)習(xí)方法抽取規(guī)則的獲取是通過(guò)學(xué)習(xí)自動(dòng)獲得的,但是該方法需要足夠數(shù)量的訓(xùn)練數(shù)據(jù),才能保證系統(tǒng)的抽取質(zhì)量。下面介紹以下兩種信息抽取結(jié)構(gòu):通用信息抽取結(jié)構(gòu)和Bare Bones結(jié)構(gòu)。通用信息抽取結(jié)構(gòu):Hobbs提出的,也叫Hobbs結(jié)構(gòu)。將信息抽取系統(tǒng)抽象為“級(jí)聯(lián)的轉(zhuǎn)換器或模塊集合,利用手工編制或自動(dòng)獲得的規(guī)則在每一步過(guò)濾掉不相關(guān)的信息,增加新的結(jié)構(gòu)信息”。其組成如圖1所示。圖1 信息抽取過(guò)程☆ 文本分塊:將輸入文本分割為不同的部分——塊?!?預(yù)處理:將得到的文本塊轉(zhuǎn)換為句子序列,每個(gè)句子由詞匯項(xiàng)(lexical items,詞或特點(diǎn)類(lèi)型短語(yǔ))及相關(guān)的屬性(如詞類(lèi))組成?!?過(guò)濾:過(guò)濾掉不相關(guān)的句子?!?預(yù)分析:在詞匯項(xiàng)序列中識(shí)別確定的小型結(jié)構(gòu),如名詞短語(yǔ)、并列結(jié)構(gòu)等。☆ 片段組合:如果上
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1