freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

人工智能artificialintelligence第八章(編輯修改稿)

2024-11-17 12:29 本頁面
 

【文章內(nèi)容簡介】 然語言處理的新思想。 語料庫語言學 2020/11/17 史忠植 人工智能:自然語言處理 50 ? 基于語料庫的處理思想能夠在工程上、在寬廣的語言覆蓋面上解決大規(guī)模真實文本處理這一極其艱巨的課題,對傳統(tǒng)的處理方法的一個強有了的補充。 ? 新型的智能計算機和多媒體計算機均要求設計出更為友好的人機界面,使自然語言、文字、圖像和聲音等信號都能直接輸入計算機。要求計算機能以自然語言與人進行對話交流,就需要計算機具有自然語言能力,尤其是口語理解和生成能力。 語料庫語言學 2020/11/17 史忠植 人工智能:自然語言處理 51 ? 語料庫語言學及其特點 – 傳統(tǒng)的句法 語義分析技術,所采取的主要研究方法是基于規(guī)則的方法 – 由于自然語言理解的復雜性,各種知識的“數(shù)量”浩瀚無際,而且具有高度的不確定性和模糊性,利用規(guī)則不可能完全準確地表達理解自然語言所需的各種知識,而且,規(guī)則實際上面向語言的使用者人的,將它面向機器則分析結果始終不盡如人意。 – 研究語言知識所用的真實文本稱為語料,大量的真實文本即構成語料庫 語料庫語言學 2020/11/17 史忠植 人工智能:自然語言處理 52 WordNet ? WordNet是按一定結構組織起來的義類詞典 , 主要特征表現(xiàn)在 1. 整個名詞組成一個繼承關系 。 WordNet有著嚴格的層次關系 , 這樣一個單詞可以把它所有的前輩的一般性的上位詞的信息都繼承下來 , 可以提供全局性的語義關系 ,具有 ISA關系 2. 動詞是一個語義網(wǎng) 動詞大概是最難以研究的詞匯 , 在動詞詞典中 , 很少有真正的同義動詞 。 表達動詞的意義對任何詞匯語言學來說都是困難的 。 WordNet不做成分分析 , 而是進行關系分析 。 這一點是計算語言學界所熱衷的課題 , 與以往的語義分析方法不同 。 這種關系討論的是動詞間的縱向關系 , 即詞匯蘊涵關系 ? WordNet基于名詞和動詞以及其他詞性的關系進行詞類間的縱向分析, 在國際計算語言學界有很大的影響 。 但是 , 它也有不足之處 , 如對橫向關系還沒有考慮 。 2020/11/17 史忠植 人工智能:自然語言處理 53 WordNet ? WordNet是 1990由 Princeton大學的米勒 ( Miller G A) 等人設計和構造 的 。 一部 WordNet詞典將近 95600個詞形 (51500單詞和 44100搭配詞 ) 和 70100個詞義 , 分為五類:名詞 、 動詞 、 形容詞 、 副詞和虛詞 , 按語義而不是按詞性來組織詞匯信息 。 ? 在 WordNet詞典中 , 名詞有 57000個 , 含有 48800個同義詞集 , 分成 25類文件 , 平均深度 12層 。 最高層為根概念 , 不含有固有名詞 。 2020/11/17 史忠植 人工智能:自然語言處理 54 知網(wǎng) ? 知網(wǎng)( HowNet)是董振東研制的以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內(nèi)容的常識 知識庫。 公布的中文信息結構庫包含: ?信息結構 模式: 271個 ?句法 分布式: 49個 ?句法 結構式: 58個 ?實例 : 11,000詞語 ?總 字數(shù):中文 60,000字 2020/11/17 史忠植 人工智能:自然語言處理 55 ? 20世紀 90年代,使用統(tǒng)計的方法,使機器翻譯的正確率達到 60%,漢語切分的正確率達到 70%,漢語語音輸入的正確率達到 80%,這是對傳統(tǒng)語言學的嚴重挑戰(zhàn)。許多研究人員相信,基于語料庫的統(tǒng)計模型(如 ngram模型、 Markov模型、向量空間模型)不僅能勝任詞類的自動標注任務,而且也能夠應用到句法和語義等更高層次的分析上來。這種方法有希望在工程上、在寬廣的語言覆蓋面上解決大規(guī)模真實文本處理這一極其艱巨的課題,至少也能對基于規(guī)則的自然語言處理系統(tǒng)提供一種強有力的補充機制。 統(tǒng)計方法的 應用 2020/11/17 史忠植 人工智能:自然語言處理 56 統(tǒng)計方法的 應用 ?大規(guī)模真實文本處理的數(shù)學方法主要是統(tǒng)計方法 。 ?基于語料庫的統(tǒng)計模型(如 Markov模型、向量空間模型)不僅能勝任詞類的自動標注任務,而且也能夠應用到句法和語義等更高層次的分析上來。 2020/11/17 史忠植 人工智能:自然語言處理 57 ? 由于漢語句子的最小構成單位是字,有 意義的最小單位卻是詞,而漢語詞與詞 之間又沒有分割符號(英語詞和詞之間 是空格)。因此,漢語理解首先要進行 漢語自動分詞。 ? 可以概括為兩大類方法, – 無詞典分詞,它完全依靠整段文章中漢字之間的搭配的頻率算出成詞可能 – 有詞典分詞,是一種更有普遍意義的分詞方法。有詞典分詞主要有最大匹配法,逆向最大匹配法,逐詞遍歷匹配法,設立切分標志法,以及正向最佳匹配和逆向最佳匹配法,而這些方法的一個基本思想都是要依次分出待切分串的可能最長成詞 漢語自動分詞 2020/11/17 史忠植 人工智能:自然語言處理 58 ? 首先,根據(jù)漢語詞典 (有 56800條詞匯 )進 行統(tǒng)計,發(fā)現(xiàn):雖然詞典中的最長詞可 以達到為 20多個字節(jié)(十幾個漢字), 但是大多數(shù)漢語詞都可以由前兩字唯一 確定,這樣的詞占絕大多數(shù) (如在上述詞典中占總詞匯量的 85%以上 )。 基于統(tǒng)計結果的分詞 2020/11/17 史忠植 人工智能:自然語言處理 59 兩個首字相同的詞的個數(shù)的統(tǒng)計 ? 根據(jù)前兩字可確定的詞個數(shù) 詞總數(shù) 所占百分比 (% ) 1 48431 2 2801 2 3 514 3 4 118 4 5 46 5 6 30 6 7 16 7 8 6 8 9 8 9 10 5 10 14 2 14 15 3 15 18 1 18 漢語自動分詞 2020/11/17 史忠植 人工智能:自然語言處理 60 ? 主要是在字典索引的支持下進行的,索引結構可以分為兩級。 ? 一級索引就用漢字內(nèi)碼,查找算法用散 列方法。 ? 而二級索引采用整個詞長。 漢語機械分詞 2020/11/17 史忠植 人工智能:自然語言處理 61 ? 最大匹配法 。 最大匹配法簡稱 MM方法 。 其思想是:在計算機磁盤中存放一個分詞用詞典 , 從待切分的文本中按自左到右的順序截取一個定長的漢字串 , 通常為為詞典中的最大詞長 , 這個字符串的長度稱作最大詞長 。 將這個具有最大詞長的字符串與詞典中的詞進行匹配 , 若匹配成功 , 則可確定這個字符串為詞 , 計算機程序的指針向后移動與給定最大詞長相應個數(shù)的漢字 , 繼續(xù)進行匹配;否則 , 把該字符串從右邊逐次減去一個漢字 , 再與詞典中的詞進行匹配 , 直到成功為止 。 ? 逆向最大匹配法 。 逆向最大匹配法簡稱 RMM法 。 這種方法的基本原理與 MM法相同 , 所不同的是分詞時對待切分文本的掃描方向 。 MM方法從待切分文本中截取字符串的方向是從左到右 , 而 RMM方法則是從右向左 。 在與詞典匹配不成功時 , 將所截取的漢字串從左至右逐次減去一個漢字 , 再與詞典中的詞進行匹配 , 直到匹配成功為上 。 實驗表明 ,RMM法的切詞正確率要比 MM法高 匹配法分詞 2020/11/17 史忠植 人工智能:自然語言處理 62 ? 分詞過程中的歧義問題。歧義字段在中文文本中是普遍存在的,歧義切分是自動分詞中不可避免的現(xiàn)象,是自動分詞中的一個比較棘手的問題。對歧義字段的處理水平,直接影響著自動分詞系統(tǒng)的分詞準確率。 ? 未登錄詞的識別問題。未登錄詞是指沒有在詞典中出現(xiàn)、在漢語文本中又應該當作一個詞將其分開的那些字符串。包括中外人名、中外地名、機構組織名、事件名、縮略語、派生詞、各種專業(yè)術語以及在不斷發(fā)展和約定俗成的一些新詞語。未登錄詞種類繁多、規(guī)模宏大,對它們識別正確與否直接影響著分詞系統(tǒng)的正確率。然而,目前對于這些詞語的自動辨識盡管作了不少的研究,但要想達到實際應用的要求,仍還有不少的困難。 漢語分詞的難點 2020/11/17 史忠植 人工智能:自然語言處理 63 ? 除了由于未登錄詞而引起的歧義,切分歧義主要有三種類型: – 交集型歧義,即漢字串ABC既可切成AB/C,又可切成A/BC。 – 組合型歧義,即漢字串既可切分成AB,又可切分成A/B。 – 混合型歧義,是前兩種的自我嵌套或三者的交叉組合產(chǎn)生的。 ? 為了既能得到較高的準確率,又有較小的開銷,可以 著重解決相對數(shù)量較大又較容易解決的交集型歧義。 漢語分詞的難點 2020/11/17 史忠植 人工智能:自然語言處理 64 ? 詞類分析 漢語的發(fā)展是先有字后有詞,所以關于 詞的研究還存在一些問題,比較突出的 是漢語詞類的兼類問題。例如,大量的 雙字動詞兼作名詞。要進行漢語理解, 如果不把詞類先確定下來的話,那么下 一步的分析也難以進行。 漢語詞類的兼類處理方法 ? 兩種方法 – 根據(jù)規(guī)則消除兼類, – 根據(jù)預料庫統(tǒng)計消除兼類 漢語分詞的難點 2020/11/17 史忠植 人工智能:自然語言處理 65 2020/11/17 史忠植 人工智能:自然語言處理 66 內(nèi)容提要 概述 詞法分析 句法分析 語義分析 語用分析 語料庫 信息檢索 機器翻譯 問答系統(tǒng) 小結 ? 信息檢索 (information retrieval, IR)是指將信息按一定的方式組織和存儲起來,并根據(jù)用戶的需要找出有關信息的過程。 1950年 , 穆爾 (Moore C)根據(jù)圖書館的參考咨詢和文摘索引提出了信息檢索。信息檢索包括信息存儲和檢索。在檢索之前必須將信息收集起來,按科學方法進行整理,并按一定準則存儲起來,形成書本式檢索工具或者計算機可讀數(shù)據(jù)庫。在檢索時,用戶根據(jù)自身需求提交查詢給信息檢索系統(tǒng),系統(tǒng)利用存儲信息所依據(jù)的準則,在文檔集中找出與查詢條件相關的文檔子集,并按照它們與查詢條件的相關性進行排序,最后為用戶返回一個有序的文檔子集。 信息檢索 2020/11/17 史忠植 人工智能:自然語言處理 67 ? 從廣義上講,信息檢索包括兩個過程, ? 一是信息存儲 (information storage),即信息的標引、加工和存儲過程: ? 二是信息檢索 (information retrieval),即信息用戶的查找過程。 ? 從狹義上講,信息檢索僅指后一部分。 ? 信息檢索的本質是一個匹配的過程 – 即用戶的信息需求和信息存儲的信息集合進行比較和選擇的過程 信息檢索 2020/11/17 史忠植 人工智能:自然語言處理 68 信息檢索過程 2020/11/17 史忠植 人工智能:自然語言處理 69 信息檢索的類型 ? 按信息檢索的內(nèi)容劃分 ? 文獻檢索 ? 數(shù)據(jù)檢索 ? 事實檢索 ? 概念檢索 ? 按信息檢索的組織方式劃分 超文本檢索是對每個節(jié)點中儲存
點擊復制文檔內(nèi)容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1