freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

招生領(lǐng)域問答系統(tǒng)中問題理解的研究碩士學(xué)位論文-資料下載頁

2025-06-28 04:05本頁面
  

【正文】 義原一方面作為描述概念的最基本的單位,另一方面,義原之間也反映了概念之間和概念屬性之間的各種關(guān)系。知網(wǎng)總結(jié)描述了下列 16 種關(guān)系:上下位關(guān)系、同義關(guān)系、反義關(guān)系、對義關(guān)系、部件整體關(guān)系、屬性宿主關(guān)系、材料成品關(guān)系、施事/經(jīng)驗者/關(guān)系主體事件關(guān)系、受事/內(nèi)容/領(lǐng)屬物等事件關(guān)第 2 章 FAQ 庫中的答案抽取技術(shù)18 系、工具事件關(guān)系、場所事件關(guān)系、時間事件關(guān)系、值屬性關(guān)系、實體值關(guān)系、事件角色關(guān)系、相關(guān)關(guān)系。這些關(guān)系在知網(wǎng)中用義原前附加一些符號來對概念的語義進行描述,如表 24 所示:表 24 知網(wǎng)中的符號及其含義符號 語義描述 例子, 多個屬性之間,表示“和”的關(guān)系 qValue|數(shù)量值,amount|多少 表示“與其相關(guān)” fund|資金% 表示“是其部分” %GoInto|進入$ 表示可以被該‘V’處置,或是該‘V’的受事,對象,領(lǐng)有物,或者內(nèi)容 $copy|抄寫* 表示“會‘V’”或主要用于‘V’,即施事或工具 *LaughAt|笑話+ 對 V 類,它表示它所標記的角色是一種隱性的,幾乎在實際語言中不會出現(xiàn) +diagnose|診察amp。 表示指向 amp。shiver|顫動~ 表示多半是,多半有,很可能的 ~清@ 表示可以做“V”的空間或時間 @record|記錄? 表示可以是“N”的材料 ?material|材料{}(1) 對于 V 類,置于{}中的是該類 V所有的“必備角色”(2) 表示動態(tài)角色,如介詞的定義{ment|評論}() 置于其中的應(yīng)該是一個詞表記 (China|中國)^ 表示不存在,或沒有,或不能 ^Vable|能力! 表示某一屬性為一種敏感的屬性 !odorl 氣味[] 標識概念的共性屬性 []我們把這些符號又分為三類:一類是用來表示語義描述式之間的邏輯關(guān)系,包括以下幾個符號:,~^,另一類用來表示概念之間的關(guān)系,包括以下幾個符號:%$*+amp。@?!,第三類包括幾個無法歸入以上兩類的特殊符號:{}()[]。從以上知網(wǎng)的結(jié)構(gòu)可以看出,義原之間組成的是一個復(fù)雜的網(wǎng)狀結(jié)構(gòu),而第 2 章 FAQ 庫中的答案抽取技術(shù)19 不是一個單純的樹狀結(jié)構(gòu)。不過,義原關(guān)系中最重要的還是的上下位關(guān)系。根據(jù)義原的上下位關(guān)系,所有的“基本義原”組成了一個義原層次體系。這個義原層次體系是一個樹狀結(jié)構(gòu),我們稱之為義原分類樹,義原分類樹把各個義原及它們之間的聯(lián)系以樹的形式組織在一起,樹中父節(jié)點和子節(jié)點的義原具有上下位的關(guān)系。可以利用義原分類樹計算兩個詞之間的語義距離。知網(wǎng)中存在Entity、Event、Attribute 等 11 棵義原樹。但有些義原樹,例如Converse、Antonym 等,里面的義原沒有父子關(guān)系,并不體現(xiàn)上述的詞與詞之間的上下位特征,因此無法使用。在 11 棵義原樹中總共選取了以下 6 棵義原樹用來計算詞的語義距離:Entity、Event、Attribute、Attribute Value、Quantity、Quantity Value。這些是我們進行語義相似度計算的基礎(chǔ)。 知網(wǎng)的知識詞典 知網(wǎng)的全部的主要文件構(gòu)成了一個有機結(jié)合的知識系統(tǒng),例如,主要特征文件、次要特征文件、同義、反義以及對義組的形成,以及事件關(guān)系和角色轉(zhuǎn)換等都是系統(tǒng)的重要組成部分。被我們稱為知識詞典的常識性知識庫是知網(wǎng)的最基本的數(shù)據(jù)庫。在知識詞典的描述語言(Knowledge Dictionary Markup Language,KDML)中每一個詞語的概念及其描述用一個記錄來表示,我們稱這個記錄為語義表達式。每個語義表達式都主要包含 4 項內(nèi)容,其中每一項都由兩部分組成,中間以“=”分隔,每一個“=”的左側(cè)是數(shù)據(jù)的域名,右側(cè)是數(shù)據(jù)的值。每一個記錄都有唯一的一個記錄號 ,它們排列如下:NO. = 詞或短語編號W_X = 詞語E_X = 詞語例子G_X = 詞語詞性DEF = 概念定義其中的 W_X,E_X,G_X 構(gòu)成每種語言的記錄,X 用以描述記錄所代表語種,X為 C 則為漢語,為 E 則為英語。每個詞語由 DEF 來描述其概念定義,DEF 的值由若干個義原及它們與主干詞之間的語義關(guān)系描述組成,它是知網(wǎng)的核心,必第 2 章 FAQ 庫中的答案抽取技術(shù)20 須填寫,不得為空,DEF 項中的第一位置所標注的必須是知網(wǎng)所規(guī)定的主要特征。下面是動詞“打”作“打球”解的義項在詞典中的定義:NO. = 017144W_C = 打 G_C = VE_C = ~網(wǎng)球,~牌,~秋千,~太極,球~得很棒W_E = playG_E = VE_E =DEF = exercise|鍛煉,sport|體育上例中 E_C 項的“~”,代表 W_C 項的詞。通過 DEF 的定義我們可以知道在“打球”中“打”與“體育”和“鍛煉”有關(guān)。在知網(wǎng)中便是通過使用上述結(jié)構(gòu),并用自己的描述語言來定義知識詞典中收入的詞語。 各種句子相似度計算方法的優(yōu)劣勢比較句子相似度計算的各個方法都有不同的優(yōu)勢和劣勢,概括如下:(1)基于關(guān)鍵詞信息的傳統(tǒng)方法的主要優(yōu)點是計算簡單,主要缺點是沒有考慮任何語義信息和句法結(jié)構(gòu)信息,不能區(qū)別在語義或句法結(jié)構(gòu)上相似的句子。實際應(yīng)用于中文自動問答系統(tǒng),則需要考慮更多的其他有用信息,例如,關(guān)鍵詞的順序,關(guān)鍵詞之間的距離以及句子的長度等信息。這些信息對于獲取正確的答案同樣有著非常重要的影響?;陉P(guān)鍵詞信息的常見方法即 TFIDF 方法,它比基于關(guān)鍵詞信息的傳統(tǒng)方法正確率要高。該方法屬于統(tǒng)計方法,它基于關(guān)鍵詞在語料庫中的出現(xiàn)頻率,建立在大量真實文本語料基礎(chǔ)之上。由于該方法是一種基于詞頻信息的統(tǒng)計方法,在非受限的大規(guī)模的文本庫中會產(chǎn)生較好的效果,而對于一般面向特定應(yīng)用領(lǐng)域的文本庫檢索,比如 FAQ 庫檢索,則不足以體現(xiàn)這種方法的效果。另外,該方法只考慮了詞在上下文中的詞形統(tǒng)計特性,仍然沒有考慮詞本身的詞義信第 2 章 FAQ 庫中的答案抽取技術(shù)21 息以及句法結(jié)構(gòu)信息。(2)基于依存樹的方法利用句子之間句法依存關(guān)系進行相似度計算。將基于依存分析的相似度計算方法應(yīng)用到自動問答系統(tǒng)中,可以使對句子的理解更加充分,算法的準確率也會得到一定程度的提高。但目前的中文自動問答系統(tǒng)較少采用這類方法,一方面是因為依存分析的工作量很大,會大大降低系統(tǒng)的及時交互性;另一方面由于對漢語句子進行依存分析時不能考慮相關(guān)的語義信息,會嚴重影響系統(tǒng)的準確率。(3)使用語義詞典的方法,考慮了詞本身的詞義信息以及相應(yīng)的權(quán)重,這種方法在處理兩個句子中相同詞很少但兩句意思非常接近的情況下比 TFIDF 方法優(yōu)越。但是該方法單純的使用語義詞典,并沒有考慮到句子內(nèi)部的結(jié)構(gòu)和詞語之間的相互作用關(guān)系。(4)基于多重信息的方法,通過利用不同的特征信息,較好地保留了基于關(guān)鍵詞信息的方法所具有的簡單、高效、以及基于語義或句法結(jié)構(gòu)信息的方法所具有的準確性較高的優(yōu)點,同時,也在一定程度上避免了上述 3 類方法的缺點。將該方法應(yīng)用到中文自動問答系統(tǒng),需要根據(jù)漢語的特點和特定應(yīng)用領(lǐng)域的要求,在關(guān)鍵詞信息、語義信息以及句法結(jié)構(gòu)信息之間尋找一個合理的、恰當?shù)慕Y(jié)合點,或者說尋找一個最佳的權(quán)重組合,這是關(guān)系到系統(tǒng)質(zhì)量的關(guān)鍵,也是該領(lǐng)域目前研究的一個重點和熱點。 FAQ 庫中相似度計算新方法由以上分析可知,基于多重信息的方法是目前比較實用和流行的方法。本文根據(jù)招生咨詢領(lǐng)域的信息相對集中和單一的特點,將采用基于關(guān)鍵詞信息和基于語義詞典相結(jié)合的方法來計算用戶問句和 FAQ 庫中問句的相似度。而其中基于關(guān)鍵詞信息的方法,將充分利用句子的各種信息,如關(guān)鍵詞的順序,關(guān)鍵詞之間的距離以及句子的長度等信息,來改進單純的依靠字符串匹配的計算方法。 改進的基于關(guān)鍵詞信息的方法基于關(guān)鍵詞類型的一種傳統(tǒng)方法是根據(jù)字符串匹配的原理,計算兩個句子第 2 章 FAQ 庫中的答案抽取技術(shù)22 中相同關(guān)鍵詞的個數(shù)與總關(guān)鍵詞的個數(shù)的比例,即 2c/m+n,其中 m、n 分別表示兩個句子的關(guān)鍵詞個數(shù),而 c 是兩個句子中相同關(guān)鍵詞的個數(shù)。實際應(yīng)用于中文自動問答系統(tǒng),則需要考慮更多的其他有用信息,例如,關(guān)鍵詞的順序,關(guān)鍵詞之間的距離以及句子的長度等信息。這些信息對于獲取正確的答案同樣有著非常重要的影響。因此本文所用的改進的基于關(guān)鍵詞信息的方法,就是不僅考慮了詞形相似度,還考慮了句子長度,句子中關(guān)鍵詞的順序,關(guān)鍵詞之間的距離等因素,通過加入權(quán)重的方式,綜合考慮了各個因素。具體的定義與計算方法如下:定義 1 詞形相似度 (,)WordSimAB從句子形態(tài)以及詞形上來標注句子的相似性,反映句子形態(tài)上的相似性。表示句子 與 中相同關(guān)鍵詞的個數(shù)。則詞形相似度可以根據(jù)(,)WordSimABJaccard 系數(shù)來計算。其計算方法如下: (21)(,)(,)()(,)SameWordABriordAr???其中, 表示 與 相同關(guān)鍵詞的個數(shù),如果同一關(guān)鍵詞出現(xiàn),odSimB多次則只算一次,其中的關(guān)鍵詞不包含句子中的疑問詞及停用詞表中的詞,如:怎么樣、如何、的、地、得等。其中 和 分別表示句子 、()ordA()rBA中的關(guān)鍵詞個數(shù)。B在實踐過程中發(fā)現(xiàn)名詞和動詞在句子中起著非常重要的作用,并且名詞比動詞承載著更多的信息量。一個句子的中心信息基本上都是圍繞著動詞和名詞來展開的,所以在進行計算的時候也特意加大了名詞和動詞的重要程度,將句子的重心落在名詞和動詞上面。這樣,在此處計算相同關(guān)鍵詞的個數(shù)時,若兩個詞相同并且都是名詞,相同個數(shù)以 5 計,若兩個詞相同并且都是動詞,相同個數(shù)以 3 計,在計算句子 A、B 中的關(guān)鍵詞個數(shù)時,名詞的個數(shù)也按 5 計,動詞個數(shù)以 3 計,即一個名詞實際出現(xiàn)一次計算為 5 次,一個動詞實際出現(xiàn)一次計算為 3 次。編程時,對每個句子分詞后,然后要進行詞性標記從而區(qū)分是否為名詞和動詞。第 2 章 FAQ 庫中的答案抽取技術(shù)23 定義 2 句長相似度 (,)LenSimAB從句子長度上來標注句子的相似性,在一定程度上也反映句子形態(tài)上的相似性。其計算方法如下: (22)()()(,)1LenABLenSiB???其中 和 分別表示句子 、 中(關(guān)鍵)詞的個數(shù)。()eA定義 3 詞序相似性 (,)OrdSimA從關(guān)鍵詞的順序上來標注句子的相似性,反映兩個句子中所含相同詞或同義詞在位置關(guān)系上的相似程度,以兩個句子中所含相同詞或同義詞的相鄰順序逆向的個數(shù)來衡量。其計算方法如下: (23)Re(,)(,)1vABOrdSimABMax??其中, :表示 與 相同關(guān)鍵詞的個數(shù)的自然數(shù)序列的最大Re,Maxv逆序數(shù),例:若 與 相同關(guān)鍵詞的個數(shù)為 4,則自然數(shù)序列為{4,3,2,1},它的逆序數(shù)為 6。 :表示 中關(guān)鍵詞在 中的位置構(gòu)成的自然數(shù)序列(,)ABB的逆序數(shù)。反映兩個句子中所含相同詞或同義詞在位置關(guān)系上的相似程度,以兩個句子中所含相同詞或同義詞的相鄰順序逆向的個數(shù)來衡量。設(shè) 、 為兩個句子,AB 為 、 中所含相同詞或同義詞的集合,重復(fù)出現(xiàn)的詞僅計一(,)OnceWordAB次, 為 中的詞在 中出現(xiàn)關(guān)鍵詞的先后順序所構(gòu)成的,firstP(,)nceordAB向量(為一自然數(shù)順序序列,重復(fù)出現(xiàn)的關(guān)鍵詞計第一次出現(xiàn)), 為 中的分量按對應(yīng)詞在 中的次序排序生成的向量,sec(,)ondAB(,)first為序列 的逆序數(shù)。R,vsec,ondPAB定義 4 距離相似性 (,)DiSm從相同關(guān)鍵詞的距離上來標注句子的相似性。其計算方法如下:第 2 章 FAQ 庫中的答案抽取技術(shù)24 (24)()()(,)1SameDisASaeisBDisSAB????其中 和 分別表示 , 中的相同的關(guān)鍵詞分別在 ,)amei(eis A中的距離。若關(guān)鍵詞重復(fù)出現(xiàn)多次,以產(chǎn)生最大距離為準。B :表示 中非重復(fù)關(guān)鍵詞中最左及最右關(guān)鍵詞之間的距離。若關(guān)鍵詞()DisA出現(xiàn)多次,以產(chǎn)生最小距離值為準。 的表示與之類似。()DisB 定義 5 句子相似度 反映兩個句子之間的相似程度。通常為一個 0~1 之間的數(shù)值,0 表示不相似,1 表示完全相似,數(shù)值越大表示兩句越相似。 記兩個要比較的句子為 、 , 、 的相似度記為 ,則:AB1()SimAB11234(,)(,)(,),(,)SimABWordSimLenSiOrdDis????????(25)其中: 且 。12341????? 基于知網(wǎng)的語義相似度計算具體步驟本文利用董振東和董強先生創(chuàng)建的知網(wǎng)(HowNet)作為系統(tǒng)的語義知識資源。使用知網(wǎng)進行問句語義相似度計算的主要步驟為:首先使用知網(wǎng)的義原樹計算兩個詞語間的語義距離;其次,根據(jù)詞語間的語義距離,計算兩個詞語間的語義相似度;最后,在對問句進行分析的基礎(chǔ)上,計算用戶問句與候選問題集中問句的語義相似度。(1)詞語間的語義距離我們將詞語間的語義距離定義為兩個詞語對應(yīng)的義原在義原樹中的最短距離。設(shè)有兩個詞語 和 ,記其語義距離為 ,則1w2 12(,)Disw21),(TDis???? (26)式中 Tl、T2 分別為 和 兩個詞語所在義原樹從樹根到該節(jié)點語義元素12第 2 章 FAQ 庫中的答案抽取技術(shù)25 集合, 表示義原樹中從樹根到 、
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1