freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

招生領域問答系統(tǒng)中問題理解的研究碩士學位論文(編輯修改稿)

2025-07-25 04:05 本頁面
 

【文章內(nèi)容簡介】 面的簡單問題。但Start的回答能力非常有限,系統(tǒng)的準確性和穩(wěn)定性都比較差。Kupiec等人開發(fā)的MURAX系統(tǒng)使用百科全書作為知識庫用來回答一般性問題,它采用了基于統(tǒng)計與語言學知識相結(jié)合的技術,通過布爾搜索引擎和句法分析器從百科全書中抽取問題的答案。AnswerBus是一個比較成熟的問答系統(tǒng),而且是個多語種的自動問答系統(tǒng),它不僅可以回答英語的問題,還可以回答法語、西班牙語、德語、意大利語和葡萄牙語的問題 [10][12]。AskJeeves系統(tǒng)是通過手工收集大量的自然語言問句以及相應的URL鏈接,盡管它比較實用,但它的準確率比較低,并且返回給用戶的還是網(wǎng)頁而不是準確的答案。相對英文問答系統(tǒng)來說,中文問答系統(tǒng)起步較晚,不夠成熟,這和中文的語法、語義復雜性等多種因素有關。國內(nèi)也有不少大學和研究所正在進行問答系統(tǒng)的研究,但是參與中文自動問答技術研究的科研機構比較少,而且基本沒第 1 章 緒論3 有成型的中文自動問答系統(tǒng)。復旦大學和中科院都參加了QA Track的競賽,哈工大也在這方面做了一些研究。中科院計算所正在進行的大規(guī)模知識處理科研項目National Knowledge Infrastructure(簡稱NKI)中的一個具體應用就是NKI知識問答系統(tǒng)——HKI。HKI以NKI知識庫為基礎,向用戶提供各個領域的知識服務,其特點是向用戶提供準確的信息,支持自由的提問方式。 問答系統(tǒng)的一般結(jié)構問答系統(tǒng)通常包含三個主要部分:問題分析、信息檢索和答案抽取 [13]。如下圖11所示:問題問題分類關鍵詞提取關鍵詞擴展信息檢索文檔庫問題分析答案抽取查找候選答案根據(jù)權重排序返回最佳答案答案相關文檔Q u e r y規(guī)則圖11 自動問答系統(tǒng)結(jié)構問題分析模塊主要對自然語言表達的問句進行處理,將其中的信息提取出來,供后續(xù)處理環(huán)節(jié)使用。通常需要提取兩種問句信息:答案類型和問句關鍵詞。(IR:information retrieval)IR的目的是縮小答案抽取需要處理的文檔范圍,它使用檢索詞組合從語料庫中查找候選集,這些檢索詞組合在問題分析模塊由問句轉(zhuǎn)化而來。問答系統(tǒng)第 1 章 緒論4 中的信息檢索可以有多種選擇,如果語料庫存放在本地,則可以使用開放的檢索系統(tǒng)如SMART [14]或者QUERY;如果語料庫是互聯(lián)網(wǎng)知識庫,那么調(diào)用商業(yè)搜索引擎如Google則是比較好的選擇。IR模塊返回的是候選句子集或文檔集,而問答系統(tǒng)則返回答案本身。所以還需要對答案進行抽取?;诓煌恼Z料庫的問答系統(tǒng),有著不同的答案抽取方法。如基于FAQ庫的問答系統(tǒng),該系統(tǒng)的FAQ庫存儲了用戶可能提出的問答對。系統(tǒng)根據(jù)用戶輸入的自然語言句子,通過一定的答案抽取方法來提取出與用戶問句最相關的問題答案對,將其中的答案返回給用戶。而如基于全文檢索的問答系統(tǒng),它的特點是知識庫不是現(xiàn)成的問題答案對,而是相關文本庫。先提取出與用戶問句相關度比較高的文檔,再從這些候選文檔集中進行答案抽取,提取出最相關的句子返回給用戶。 答案抽取簡介 答案抽取的定義答案抽取是一個復雜的研究領域,它涉及分類、統(tǒng)計、邏輯表示、模式識別等多個領域的內(nèi)容,并對語言處理技術有相當高的要求。不同學者從不同的研究方面出發(fā),可能會得到對此問題的不同理解,盡管如此,其根本目的都是獲得質(zhì)量較高的返回答案。對答案抽取的定義可能有多種,其中普遍認可的定義是:定義11 答案抽取 [15]是指根據(jù)用戶提出的問題從搜索引擎返回的相關網(wǎng)頁中抽取出能夠體現(xiàn)答案的詞、短語或是段落。在具體實現(xiàn)中,需要考慮用戶提問的問題類型。 答案抽取技術的分類按照自動問答系統(tǒng)依托的技術來劃分,答案抽取技術可以分為基于自然語言理解(NLP,Natural Language Processing)、基于問題模板(QP,Question patterns)和基于信息檢索(IR,Information Retrieval)三類。下面以這三類技第 1 章 緒論5 術為線索,對答案抽取技術的研究現(xiàn)狀和成果作簡要的回顧。1. 基于NLP的答案抽取技術 傳統(tǒng)計算機處理的數(shù)據(jù)是結(jié)構化的,而非結(jié)構化或半結(jié)構化的文本數(shù)據(jù), 如自然語言文本和網(wǎng)頁,轉(zhuǎn)化成特征向量后,特征數(shù)可能高達幾萬或幾十萬。所以,答案抽取面臨的首要任務是如何在計算機中合理的表示文本。 這種表示方法既要包含足夠的信息以反映文本的特征,又不至于過于復雜而不利于答案抽取。這就涉及到了NLP技術。 NLP是一種將自然語言映射為形式語言模型(Formal world model)的技術。形式語言模型可以是一階謂詞邏輯、語義網(wǎng)絡、概念依存圖或某種框架表示形式 [16]。在NLP應用初期,QA系統(tǒng)試圖模擬人的思維,形式語言模型扮演著“前置語言”(front end Natural language)的角色,對數(shù)據(jù)庫系統(tǒng)、對話系統(tǒng)或故事理解系統(tǒng)進行查詢。前置分析器首先將用戶輸入自然語言形式的問句轉(zhuǎn)化成中間邏輯查詢,然后再轉(zhuǎn)換成數(shù)據(jù)庫支持的查詢語言。而在另外一些應用中,形式語言模型普遍表示為本體論(Ontologies) [17],它對基于知識的概念做出了明確的規(guī)定。 隨著網(wǎng)絡技術的發(fā)展,在線文本迅速增加,信息抽取技術(IE,Information Extraction) [18]逐漸成為從大規(guī)模非結(jié)構化文本獲取信息的關鍵技術。為適應這種需要,淺層句法分析技術開始引入NLP中。基于淺層句法分析的NLP技術沒有進行文本語義分析,與傳統(tǒng)的文本理解不同,它側(cè)重文本組塊分析,以匹配事先準備的問題模式庫。比如在“who won the Nobel prize in 1998?”這個問題中, 疑問詞who對應于“Person Names”實體類型,通過查找與關鍵詞“won”,“1998” ,“Nobel”,“prize”有關聯(lián)的人名信息,即可得到正確答案。在文獻[19]的研究中,還引入機器學習方法進行模式抽取?;跍\層分析的NLP具有領域無關的性質(zhì),但要求文本中的答案和模式樣式相符。采用這種技術的問答系統(tǒng)有文獻[20]和[21]所描述的方法。2. 基于句模(QP)的答案抽取技術 基于模板的答案抽取技術是自然語言模式匹配技術的擴展,其智能性體現(xiàn)在人工創(chuàng)建的問題模板集上。 START[22]系統(tǒng)是采用模板技術的典型系統(tǒng)之一,自1993年以來,START回答第 1 章 緒論6 在線提問己達數(shù)百萬條。該系統(tǒng)運行時根據(jù)問題查詢預先處理過的“主、謂、賓”三元組數(shù)據(jù)庫,形成模式“subjectrelationshipobject,在匹配用戶問題的時候,通過詞匯層和結(jié)構層兩個層次進行。如果用戶問題匹配標注實體,系統(tǒng)追蹤并返回指針指向的信息片斷,作為提交用戶的答案。 START的成功離不開Ommibase [23]的支持。Ommibase是建立在START知識標注基礎上的虛擬數(shù)據(jù)庫系統(tǒng),內(nèi)部存放了大量的聯(lián)機半結(jié)構化數(shù)據(jù),比如CIA事實手冊、網(wǎng)絡電影數(shù)據(jù)庫等等。Ommibase的數(shù)據(jù)模型可以表示為“objectpropertyvalue,數(shù)據(jù)源包括對象,對象由屬性描述。憑借著Ommibase,START可以按照屬性描述把問題轉(zhuǎn)化成結(jié)構式查詢條件。 Sniders[24]介紹了一種類似START的數(shù)據(jù)庫查詢系統(tǒng),該系統(tǒng)通過操縱問題模板,建立與數(shù)據(jù)庫概念模型相互映射關系。問題模板由關鍵詞表達式構成,類似于正則表達式。每個問題模板都可以看成一個帶變元和固定參數(shù)的謂詞,形如: 1,2,:(1,var12,var)datdatnQfixedmn?? ? 在匹配過程中,固定的參數(shù)(varl,...,varn)表示用戶提問的詞。如果數(shù)據(jù)庫中有一組實例(datal,...,datan)恰好符合謂詞的變參,那么Q的值為真,表示這組實例可以構成問題的答案。 START和Ommibase的自然語言注釋和問題模板一樣,有一個共同的特點,它們都經(jīng)過了標注處理,且非常貼近答案信息,這使得運用自然語言查詢潛在的數(shù)據(jù)模型成為可能。答案形式可以是靜態(tài)文本、數(shù)據(jù)庫查詢結(jié)果,甚至是多媒體材料。目前,基于QP的答案抽取技術并不是只停留在學術界的研究中,其方法已經(jīng)在商業(yè)化產(chǎn)品中獲得了成功應用。較為著名的商業(yè)問答系統(tǒng)有ASKJEEVS [25]、Kivilogic[26]和QUICKASK [27]。3. 基于信息檢索(IR)的答案抽取技術 IR是處理信息的表示、存儲、組織和訪問。在問答系統(tǒng)中,IR對用戶提交的問題進行查詢,以獲得問題的答案。IR系統(tǒng)通常又稱為文本查詢系統(tǒng),因為它只返回嵌入答案的文本,而不是明確的答案。在目前大多數(shù)系統(tǒng)中,IR已成第 1 章 緒論7 為標準答案抽取組件,為進一步的答案分析和抽取提供相關文本。例如,SMART[23]就是采用IR技術的比較著名的問答系統(tǒng)之一。 在常問問題系統(tǒng)方面,IR是答案查找的主要方法,如FAQFinder [28]采用傳統(tǒng)的基于詞頻的統(tǒng)計方法,同時結(jié)合了英語語義知識庫Word進行相關問題檢索。 近年來,在國際性評估會議(如ANLPNAACL和TREC)的大力推動下,IR和NLP 相結(jié)合逐漸成為答案抽取技術發(fā)展的主流。Voohees對參加TREC QA Track的問答系統(tǒng)的執(zhí)行步驟做出了如下總結(jié) [29]:第一,根據(jù)用戶提問確定期望問題類型,如對出現(xiàn)的疑問詞“Who,判定期望的答案為人名類型“Person Names;第二,在不影響答案內(nèi)容的前提下,盡可能減少相關文本的詞條數(shù);第三,對含有答案的文本排序,從中抽取確切的答案。 Mulder[30]是第一個基于網(wǎng)絡的開放系統(tǒng),它和其它參加TREC的系統(tǒng)一樣,在答案抽取過程結(jié)合了IR和NLP技術。Mulder的答案抽取過程分為三個階段,首先,用句法分析器處理用戶提問,使提問詞劃歸到臨時目錄;然后,系統(tǒng)把句法分析結(jié)果轉(zhuǎn)換成一系列查詢詞,這些查詢詞最終提交到Google,作為檢索項進行信息查詢;最后,Mulder對Google返回的網(wǎng)頁進行加工,包括解析、抽取相關文本片斷(Snippets)、生成可能的候選答案隊列。 主要工作與本文的組織在受限域中文問答系統(tǒng)的研究中,答案抽取是最關鍵的環(huán)節(jié)之一,答案抽取的實時性和準確性直接影響到問答系統(tǒng)的效率。因此,答案抽取是一個非常值得研究的話題。本文所要研究的是招生咨詢領域的自動問答系統(tǒng)中答案抽取的部分。本文根據(jù)目前國內(nèi)問答系統(tǒng)中存在的主要問題,即基于FAQ庫的問答系統(tǒng)的答疑能力比較有限;而基于文本庫的問答系統(tǒng)的速度比較慢的情況,提出了一種利用兩者優(yōu)勢的更有效的方法:即把蘊涵豐富招生咨詢方面材料的文本庫與常問問題答案庫(FAQ)相結(jié)合的方法。該方案使得系統(tǒng)對常問問題能快速給出解答,提高了系統(tǒng)的效率和準確率;同時系統(tǒng)還能自動回答FAQ庫中沒有存儲的其他大部分第 1 章 緒論8 問題,大大增強了系統(tǒng)的答疑能力和實用性。本文主要對以下幾個方面開展研究:。FAQ庫的設計是系統(tǒng)設計的重點之一,F(xiàn)AQ庫結(jié)構設計的好壞直接關系到查詢的速度和準確度。答案提取是問答系統(tǒng)的主要模塊,答案提取有許多方式和方法,本文主要采取以下兩種方式相結(jié)合的答案抽取技術:一是通過FAQ庫中的問題答案對進行匹配,直接尋找需要回答的問題;二是對文本庫進行檢索,通過一定的答案抽取技術,獲取答案。將從文本庫中提取出來的答案,建立好與之匹配的問題答案對后,存入到FAQ庫,進行更新。本文設計了一個招生咨詢領域的問答系統(tǒng),完成了系統(tǒng)中答案抽取部分的架構和流程設計。本文的內(nèi)容組織如下:第 1 章 緒論。分析了本課題的背景和意義,介紹了目前問答系統(tǒng)的發(fā)展狀況,并詳細介紹了一些常用的答案抽取技術,最后給出本文的工作與結(jié)構安排。第 2 章 FAQ 庫中的答案抽取技術。介紹了 FAQ 庫的設計內(nèi)容,并詳細介紹了在 FAQ 庫中進行答案抽取的關鍵技術,即候選問題集的建立及句子相似度的計算。提出了采用基于關鍵詞信息和基于語義詞典相結(jié)合的相似度計算方法,來提高相似度計算的準確性。最后給出一定的實驗分析。第 3 章 文本庫中的答案抽取技術。介紹了文本庫的建立及預處理的過程,重點研究了文本庫的相似度計算方法,并選擇基于向量空間模型的 TFIDF 方法來計算問句與文本之間的相似度。最后也給出了一定的實驗及分析。第 4 章 系統(tǒng)設計與實現(xiàn)。給出了系統(tǒng)的總體設計框架和各模塊的實現(xiàn)過程。重點描述了招生咨詢領域問答系統(tǒng)中的答案抽取部分的設計與實現(xiàn)。第 5 章 系統(tǒng)總體測試與評價。給出系統(tǒng)的評價機制,并進行了系統(tǒng)的測試,結(jié)果證明該系統(tǒng)能有效提高準確度,具有一定的實用價值。第 6 章 總結(jié)與展望。給出本文的結(jié)論并對今后需要改進的地方做出分析和展望。第 1 章 緒論9 第 2 章 FAQ 庫中的答案抽取技術10 第 2 章 FAQ 庫中的答案抽取技術 引言自動問答系統(tǒng)通常包含三個主要部分:問題分析、信息檢索和答案抽取。其中的關鍵部分是答案抽取。本章主要介紹在 FAQ 庫中的答案抽取技術。FAQ(Frequently Answer Question)庫即常問問題答案庫,FAQ 庫中保存了用戶常問的問題和對應的答案。在進行答案抽取時,我們采取先到 FAQ 庫中去查找答案的策略。如果在 FAQ 庫中,我們能夠找到最相似的問題,就直接將FAQ 庫中問題所對應的答案返回給用戶,從而避免進行一系列復雜的檢索和答案提取的過程。因此,常問問題庫的引進,將大大
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1