freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

淺析信息抽取技術(shù)及前景(留存版)

  

【正文】 有:1) 基于頻率的方法;2) 基于均值和方差的方法;3) 基于假設(shè)檢驗(yàn)的方法;4) 基于互信息的方法,等。如句子“李靜從著名的電器制造公司長(zhǎng)虹電子集團(tuán)有限公司董事長(zhǎng)的位置上退休了,趙剛將接替他”的場(chǎng)景模版可表示為: 人 從 位置 退休 人 接替 人六、共指分析解決如代詞和名詞表示同一內(nèi)容等的問(wèn)題。五、信息抽取的發(fā)展趨勢(shì)信息抽取技術(shù)的發(fā)展現(xiàn)狀對(duì)其未來(lái)的發(fā)展提出了需求,可以看到信息技術(shù)未來(lái)的發(fā)展趨勢(shì)主要集中在兩個(gè)相反發(fā)展方向上:一方面,使現(xiàn)有的信息技術(shù)嵌入在現(xiàn)有的應(yīng)用領(lǐng)域中,包括文本檢索、基于任務(wù)的自動(dòng)摘要、基于任務(wù)的機(jī)器翻譯、跨文檔和多媒體的融合、趨勢(shì)分析等。另外,一些專家引入語(yǔ)法分析和字典術(shù)語(yǔ)機(jī)制作為判斷概念之間關(guān)系的方法,也取得了較好效果。其中有兩層意義:一是先要對(duì)某個(gè)領(lǐng)域進(jìn)行抽象、歸納,即把這一領(lǐng)域概 念化;二是再對(duì)這一概念化的結(jié)果用一種人、計(jì)算機(jī)、代理都可以理解的通用規(guī)范表達(dá)出來(lái),表達(dá)出來(lái)后就形成了一個(gè)Ontology。國(guó)外有不少機(jī)構(gòu)已經(jīng)開發(fā)出針對(duì)中文實(shí)現(xiàn)的測(cè)試型的信息抽取系統(tǒng),在國(guó)內(nèi)也已經(jīng)有較多的單位或機(jī)構(gòu)投入了相當(dāng)大的精力。這兩種規(guī)則庫(kù)由很多從現(xiàn)實(shí)預(yù)言中提煉的實(shí)例規(guī)則組成,一般都比較龐大。2) 基于統(tǒng)計(jì)的分詞消歧這其中又有基于詞頻的分詞消歧方法,以及基于互信息和t測(cè)試差的歧義切分方法等。有了成熟的分詞算法,是否就能容易的解決中文分詞的問(wèn)題呢?事實(shí)遠(yuǎn)非如此?;诶斫獾姆衷~方法這種分詞方法是通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。2) 逆向最大匹配法,逆向最小匹配法。因此,信息抽取技術(shù)的核心是從文本中提取信息,如果對(duì)于文本中的關(guān)鍵句(中心句)能夠使機(jī)器理解,則對(duì)于提高抽取的精度有很大的幫助。這個(gè)過(guò)程通常包含識(shí)別特定的名詞短語(yǔ)(人名、機(jī)構(gòu)名等)和動(dòng)詞短語(yǔ)(事件描述、事件陳述)。其組成如圖1所示。另外,和信息抽取相關(guān)的技術(shù)還有自動(dòng)文摘、文本理解、自然語(yǔ)言生成、機(jī)器翻譯和數(shù)據(jù)挖掘等。一、信息抽取概述隨著計(jì)算機(jī)在各個(gè)領(lǐng)域的廣泛普及和Internet的迅猛發(fā)展,社會(huì)的信息總量呈爆炸式的指數(shù)增長(zhǎng)。信息抽取并不同與信息檢索,兩種的功能、處理技術(shù)、適用領(lǐng)域均不相同,但它們倆是可以互補(bǔ)的。下面介紹以下兩種信息抽取結(jié)構(gòu):通用信息抽取結(jié)構(gòu)和Bare Bones結(jié)構(gòu)。信息模式一般可表示為一個(gè)簡(jiǎn)單的句子,如公司名“推出”產(chǎn)品名。三、中文信息處理技術(shù)在信息抽取中的應(yīng)用信息抽取主要的技術(shù)有:;;;d.知識(shí)獲取。它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過(guò)利用各種其它的語(yǔ)言信息來(lái)進(jìn)一步提高切分的準(zhǔn)確率。到底哪種分詞算法的準(zhǔn)確度更高,目前并無(wú)定論。分詞消歧的方法主要有以下兩種:1) 基于規(guī)則的分詞消歧預(yù)先構(gòu)建分詞預(yù)處理中的規(guī)則與分詞規(guī)則,其中分詞規(guī)則又可分為構(gòu)詞規(guī)則和排歧規(guī)則。當(dāng)然,在信息抽取系統(tǒng)中,不要求識(shí)別整個(gè)句子的結(jié)構(gòu)??v觀ACE 2007屆測(cè)評(píng)會(huì)議,其測(cè)評(píng)的水平還都局限在對(duì)獨(dú)立文本的處理上,并未實(shí)現(xiàn)其預(yù)定目標(biāo)中的跨文檔處理和數(shù)據(jù)庫(kù)處理。在ACE中,已經(jīng)取消這種限制,改由用戶指定要檢測(cè)的內(nèi)容,由系統(tǒng)根據(jù)需求自動(dòng)適應(yīng)、自動(dòng)構(gòu)建抽取框架,即實(shí)現(xiàn)開放域的信息抽取。總之,面向?qū)嶋H應(yīng)用和潛在需求,建立自適應(yīng)的、可移植的系統(tǒng)是未來(lái)信息抽取的發(fā)展方向,立足于目前已有的研究成果,建立受測(cè)試集驅(qū)動(dòng)、通過(guò)機(jī)器學(xué)習(xí)構(gòu)建有監(jiān)督機(jī)制的規(guī)則庫(kù)并在此基礎(chǔ)上實(shí)現(xiàn)知識(shí)獲取將成為一條發(fā)展的思路?;A(chǔ)研究即包括更多更新更豐富的技術(shù),也包括與之相適應(yīng)的測(cè)評(píng)機(jī)制的研究。四、信息抽取面臨的問(wèn)題雖然有中文信息處理技術(shù)的強(qiáng)力支撐,中文信息抽取還是不少問(wèn)題需要面對(duì)。三、命名實(shí)體識(shí)別主要通過(guò)已經(jīng)手工構(gòu)建的規(guī)則庫(kù)來(lái)識(shí)別。由于沒(méi)有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案正確。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。5) 最少切分(使每一句中切出的詞數(shù)最?。?,等等。這是根據(jù)Hobbs的通用結(jié)構(gòu)設(shè)計(jì)的。 圖2 Bare Bones結(jié)構(gòu)圖其實(shí)一個(gè)信息抽取系統(tǒng)只有圖上4個(gè)部分是不夠的,所以以上結(jié)構(gòu)稱為“空骨架”?!?詞匯消歧:消解上一模塊中存在的歧義得到唯一的語(yǔ)義結(jié)構(gòu)表示。機(jī)器學(xué)習(xí)(ML)方法是利用機(jī)器學(xué)習(xí)技術(shù)讓信息抽取系統(tǒng)通過(guò)訓(xùn)練文本來(lái)獲得抽取模式,實(shí)現(xiàn)特定領(lǐng)域的信息抽取功能。也就是從文本中抽取用戶感興趣的事件、實(shí)體和關(guān)
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1