freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

淺析信息抽取技術(shù)及前景-資料下載頁(yè)

2025-07-14 00:45本頁(yè)面
  

【正文】 從ACE評(píng)測(cè)的系統(tǒng)表現(xiàn)可以看出,盡管目前參與中文信息抽取任務(wù)的隊(duì)伍在不斷增加,可是成績(jī)普遍偏低。國(guó)外有不少機(jī)構(gòu)已經(jīng)開(kāi)發(fā)出針對(duì)中文實(shí)現(xiàn)的測(cè)試型的信息抽取系統(tǒng),在國(guó)內(nèi)也已經(jīng)有較多的單位或機(jī)構(gòu)投入了相當(dāng)大的精力。在ACE 2005年測(cè)評(píng)中,哈爾濱工業(yè)大學(xué)、香港科技大學(xué)、北京大學(xué)和廈門(mén)大學(xué)參加了測(cè)評(píng),在ACE 2007年測(cè)評(píng)中,中國(guó)科學(xué)院自動(dòng)化所、中國(guó)科學(xué)院軟件所、復(fù)旦大學(xué)、東北大學(xué)也紛紛加入,這表明中文信息抽取的研究在國(guó)內(nèi)得到了較高的重視和發(fā)展,雖然有些隊(duì)伍的最終測(cè)評(píng)沒(méi)有完全完成,但已經(jīng)有比較好的表現(xiàn)。從它們的選擇任務(wù)上看,主要還是集中于中英文實(shí)體,關(guān)系識(shí)別僅有哈爾濱工業(yè)大學(xué)、中國(guó)科學(xué)院軟件所參與,北京大學(xué)則側(cè)重于時(shí)間和價(jià)值識(shí)別。但是主要問(wèn)題仍然集中于中文實(shí)體識(shí)別方面,完整的中文信息抽取系統(tǒng)的實(shí)現(xiàn)還處于探索階段。五、信息抽取的發(fā)展趨勢(shì)信息抽取技術(shù)的發(fā)展現(xiàn)狀對(duì)其未來(lái)的發(fā)展提出了需求,可以看到信息技術(shù)未來(lái)的發(fā)展趨勢(shì)主要集中在兩個(gè)相反發(fā)展方向上:一方面,使現(xiàn)有的信息技術(shù)嵌入在現(xiàn)有的應(yīng)用領(lǐng)域中,包括文本檢索、基于任務(wù)的自動(dòng)摘要、基于任務(wù)的機(jī)器翻譯、跨文檔和多媒體的融合、趨勢(shì)分析等?,F(xiàn)有的技術(shù)能夠很好地支持類似領(lǐng)域的研究,關(guān)鍵問(wèn)題是現(xiàn)有系統(tǒng)是否具備充分的抽取精度水平。另一方面,要使信息抽取技術(shù)實(shí)現(xiàn)革命性的技術(shù)進(jìn)步,仍需要對(duì)基礎(chǔ)研究加以關(guān)注?;A(chǔ)研究即包括更多更新更豐富的技術(shù),也包括與之相適應(yīng)的測(cè)評(píng)機(jī)制的研究。從近兩屆ACE的測(cè)試數(shù)據(jù)來(lái)看,數(shù)據(jù)來(lái)源已經(jīng)不再僅僅是專線新聞、ASR(自動(dòng)語(yǔ)音識(shí)別)、OCR(光學(xué)字符識(shí)別)文集,還包括了Web信息,這也是目前信息抽取技術(shù)發(fā)展的一大趨勢(shì)。Web頁(yè)面中存在著大量的HTML格式的無(wú)結(jié)構(gòu)數(shù)據(jù)和少量XMLL格式的半結(jié)構(gòu)數(shù)據(jù),而隱蔽網(wǎng)(Hide Web)也包含了網(wǎng)上數(shù)據(jù)庫(kù)系統(tǒng)生成的大容量倉(cāng)儲(chǔ)數(shù)據(jù),這些信息是十分重要的資源,相應(yīng)的信息抽取研究也已基于此開(kāi)展。此外,對(duì)于多媒體內(nèi)容的信息抽取雖然存在難度,但一些專家已經(jīng)通過(guò)引入貝葉斯網(wǎng)絡(luò)、增量抽取等算法優(yōu)化系統(tǒng),取得了較好的效果,并且已提出了跨媒體抽取的相關(guān)模型??梢?jiàn),對(duì)于多種信息內(nèi)容的抽取和整合,無(wú)疑將為信息抽取下一步的重要目標(biāo)和挑戰(zhàn)?! ≡贛UC(信息理解研討會(huì))階段,信息抽取測(cè)評(píng)嚴(yán)格限制在特定場(chǎng)景、特定事件和特定語(yǔ)言中,系統(tǒng)移植成本較高。在ACE中,已經(jīng)取消這種限制,改由用戶指定要檢測(cè)的內(nèi)容,由系統(tǒng)根據(jù)需求自動(dòng)適應(yīng)、自動(dòng)構(gòu)建抽取框架,即實(shí)現(xiàn)開(kāi)放域的信息抽取。目前通過(guò)模式發(fā)現(xiàn)、建立信息模型、詞類發(fā)現(xiàn)等方式,研究者已經(jīng)逐漸把抽取的重點(diǎn)從半結(jié)構(gòu)化的次語(yǔ)言等受控語(yǔ)料,轉(zhuǎn)向了具有更多非結(jié)構(gòu)化特征的原始文本語(yǔ)料,未來(lái)在這個(gè)領(lǐng)域的研究將是非常吸引人的。  Ontology可譯為“本體”、“本體論”或“知識(shí)本體”,可理解為對(duì)某種概念化體系的規(guī)范說(shuō)明。其中有兩層意義:一是先要對(duì)某個(gè)領(lǐng)域進(jìn)行抽象、歸納,即把這一領(lǐng)域概 念化;二是再對(duì)這一概念化的結(jié)果用一種人、計(jì)算機(jī)、代理都可以理解的通用規(guī)范表達(dá)出來(lái),表達(dá)出來(lái)后就形成了一個(gè)Ontology。它是描述概念及概念間關(guān)系的概念模型,通過(guò)概念之間的關(guān)系來(lái)描述概念的語(yǔ)義?;趏ntology的信息抽取(ontology-Based IE,OBIE)將ontology視為一種語(yǔ)義標(biāo)注語(yǔ)料,并將其作為系統(tǒng)輸入之一,同時(shí)系統(tǒng)輸出的格式也規(guī)定為ontology,從而實(shí)現(xiàn)非結(jié)構(gòu)化文本向規(guī)范化知識(shí)表達(dá)的轉(zhuǎn)換。現(xiàn)有基于ontology的信息抽取系統(tǒng)多從ontology中的概念出發(fā),將機(jī)器訓(xùn)練和人工調(diào)整的方法相結(jié)合確立規(guī)則,實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)。另外,一些專家引入語(yǔ)法分析和字典術(shù)語(yǔ)機(jī)制作為判斷概念之間關(guān)系的方法,也取得了較好效果。ACE測(cè)評(píng)會(huì)議充分借鑒了ontology的思想,規(guī)定了標(biāo)準(zhǔn)化的XML格式文檔APF作為輸入語(yǔ)料和輸出結(jié)果描述方法,并在任務(wù)的定義上采用類型、子類型和論元 作為基本結(jié)構(gòu),這也從一個(gè)側(cè)面體現(xiàn)了ontology對(duì)于信息抽取的推動(dòng)作用。目前,ontology在信息抽取研究中的作用尚未發(fā)揮充分,本體的自動(dòng)構(gòu)建等技術(shù)仍有待成熟,基于ontology的信息抽取技術(shù)具有很大的發(fā)展空間??傊嫦?qū)嶋H應(yīng)用和潛在需求,建立自適應(yīng)的、可移植的系統(tǒng)是未來(lái)信息抽取的發(fā)展方向,立足于目前已有的研究成果,建立受測(cè)試集驅(qū)動(dòng)、通過(guò)機(jī)器學(xué)習(xí)構(gòu)建有監(jiān)督機(jī)制的規(guī)則庫(kù)并在此基礎(chǔ)上實(shí)現(xiàn)知識(shí)獲取將成為一條發(fā)展的思路。伴隨著互聯(lián)網(wǎng)及數(shù)字圖書(shū)館等相關(guān)技術(shù)的發(fā)展,信息抽取在互聯(lián)網(wǎng)及圖書(shū)館信息處理自動(dòng)化中將具有深遠(yuǎn)的影響。未來(lái)的現(xiàn)代數(shù)字化圖書(shū)館建設(shè),應(yīng)當(dāng)充分利用信息抽取技術(shù),發(fā)揮其巨大的作用。參考文獻(xiàn):中文文本信息處理的原理與應(yīng)用(苗奪謙 衛(wèi)志華 編著 清華大學(xué)出版社) 網(wǎng)絡(luò)資源:《ACE測(cè)評(píng)會(huì)議》 網(wǎng)絡(luò)其他資源9 / 9
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1