freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)庫智能查詢接口的實(shí)現(xiàn)-在線瀏覽

2025-02-09 08:53本頁面
  

【正文】 形式查詢語言對(duì)一般用戶來說學(xué)習(xí)負(fù)擔(dān)太重,不僅要熟悉大量的語法結(jié)構(gòu),而且要具備數(shù)據(jù)庫的基本知識(shí),如關(guān)系模式和關(guān)系運(yùn)算等,這對(duì)非專業(yè)用戶是很不適應(yīng)的。 GUI 有其直觀性的一面,但用戶同樣需要了解所要查詢 的對(duì)象。換句話說,用戶可以直接以應(yīng)用領(lǐng)域的概念而不是數(shù)據(jù)庫的概念模式來訪問,這意味著用戶無需了解數(shù)據(jù)庫內(nèi)的表名、列名,而可以直接以用戶熟悉的對(duì)象名稱提問,從而大大減輕了用戶的學(xué)習(xí)負(fù)擔(dān)。 國外早在 70 或 80 年代就開始了這方面的研究工作,并研制了若干數(shù)據(jù)庫自然語言界面系統(tǒng),典 型的有 Intellect、 Planes、 Ladder、Team、 Datatalker、 Teli等。因此,目前缺乏適合我國用戶的數(shù)據(jù)庫界面產(chǎn)品。到那時(shí),人機(jī)可以直接對(duì)話,相互交換信息將十分自然和方便。 70 年代和 80 年代在這方面進(jìn)行了大量的研究工作,并研制了若干數(shù)據(jù)庫自然語言界面原型系統(tǒng)和商用系統(tǒng)。 早期系統(tǒng)( 60~ 70 年代) 在 60 年代,自然語言處理技術(shù)有了初步發(fā)展,機(jī)器翻譯成為這一時(shí)期 NLP 的主要應(yīng)用結(jié)果。該系統(tǒng)功能十分有限,用戶只能輸入一個(gè)簡單句,不支持與、或、非和比較操作。由于技術(shù)上的進(jìn)步,在這個(gè)時(shí)期研制出了一些很有名的系統(tǒng)。 Lunar 系統(tǒng)是這一時(shí)期的典型代表,它對(duì)以后的自然語言界面的研制產(chǎn)生了許多影響 。其主要目標(biāo)是使決策者可以直接使用大型數(shù)據(jù)庫,而且可以使界面方便地配置到不同的 DBMS 之上。它在技術(shù)上沒有什么特別之處,其語法分析采用 ATN,語義處理采用上下文寄存器( ContextRegisters)與概念格框架( ConceptCaseFrame)。 比如,在輸入方面,系統(tǒng)應(yīng)可以接受語法成分很復(fù)雜的輸入,以及處理代 詞指代和語句省略問題,并能接受一些不合英語語法的請(qǐng)求;在輸出方面,應(yīng)給用戶更自然、更直觀的顯示;系統(tǒng)應(yīng)具有容錯(cuò)能力,并給出更改建議;同時(shí)還提到了系統(tǒng)的可擴(kuò)展性,即向新的數(shù)據(jù)庫和應(yīng)用領(lǐng)域擴(kuò)展的能力。 通用系統(tǒng)( 80~ 90 年代) 80 年代是 NLIDB 研究最為活躍的時(shí)期,其研究重點(diǎn)放在了系統(tǒng)的可移植性上,即通用系統(tǒng)的研究。 Team 是這方面 的典型代表。 Team 解決可移植性的方法是將與領(lǐng)域有關(guān)的知識(shí)作為可分離的部分從外部獲取,通過方便的菜單系統(tǒng)從數(shù)據(jù)庫專業(yè)人員那里獲取領(lǐng)域內(nèi)的知識(shí),在自然語言處理過程中使用這些知識(shí),從而理解一般用戶提出的有關(guān)該領(lǐng)域的查詢。該系統(tǒng)允許用戶向系統(tǒng)提供新的詞匯和新的概念。商業(yè)系統(tǒng)在這一時(shí)期 大量涌現(xiàn)。 在轟轟烈烈的研究中,一些學(xué)者過分樂觀地認(rèn)為數(shù)據(jù)庫自然語言界面的應(yīng)用會(huì)持續(xù)增加,廣泛應(yīng)用的時(shí)代即將到來。從這些年來有關(guān) NLIDB 方面的論文數(shù)量急劇減少中就可以明顯看到這一點(diǎn)。一方面,人們力圖將前期的一些系統(tǒng)引入更為實(shí)用的階段,如由 BBN 公司推出的基于 RUS 和 IRUS 的Parlance、 SRI 公司的 Clare、微軟公司在 的 EnglishQuery、 IBM的 LanguageAccess、加拿大 SimonFraser 大學(xué)開發(fā)的 SystemX;另一方面,人們不斷探索新的理論和方法,如引入多模式界面、人工神經(jīng)網(wǎng)絡(luò)等技術(shù)。在 70 年代和 80 年代,我國人工智能方面的學(xué)者開始研究漢語人-機(jī)對(duì)話系統(tǒng),這些系統(tǒng)與數(shù)據(jù)庫的 結(jié)合尚不緊密。最近幾年,越來越多的學(xué)者重新認(rèn)識(shí)到漢語查詢界面研究的理論意義和應(yīng)用價(jià)值。 NLIDB 的發(fā)展趨勢(shì)可以用下圖表示。 數(shù)據(jù)庫自然語言界面的關(guān)鍵技術(shù)研究 領(lǐng)域知識(shí)提取處理 讓系統(tǒng)自動(dòng)或半自動(dòng)地實(shí)現(xiàn)領(lǐng)域知識(shí)的提取,從而建立起專用詞典,這是實(shí)現(xiàn)系統(tǒng)可移植性的重要步驟。 領(lǐng)域知識(shí)提取處理的好壞不僅影響到系統(tǒng)的可移植性,由于它的生成結(jié)果是詞典,因此也將影響到系統(tǒng)的可用 性。 自然語言查詢處理 大部分?jǐn)?shù)據(jù)庫的自然語言界面,其處理過程大致可分為五個(gè)階段:自然語言分析階段、查詢生成階段、查詢執(zhí)行階段、結(jié)果加工階段和語言轉(zhuǎn)述階段。對(duì)此,自然語言處理有不同的策略,有面向特定應(yīng)用領(lǐng)域的分析方法、面向通用領(lǐng)域的分析方法、面向數(shù)據(jù)庫應(yīng)用領(lǐng)域的分析方法。首 先它以數(shù)據(jù)庫查詢?yōu)榫唧w的語言對(duì)象提出相應(yīng)的處理方法,采用語法語義合一的思想,簡化通用方法的累贅。它的最大好處在于具有比較好的可移植性。其實(shí)查詢生成和查詢處理模塊若是基于數(shù)據(jù)庫標(biāo)準(zhǔn)SQL 和 ODBC,則基本可以做到無代價(jià)移植。因此,自 然語言查詢的問題不單單是從數(shù)據(jù)庫中找出現(xiàn)成的數(shù)據(jù),而且要查出非現(xiàn)成的數(shù)據(jù),即知識(shí)。要想正確理解間接性查詢,必須借助領(lǐng)域知識(shí)才能完成。知識(shí)在自然語言查詢處理中的作用遠(yuǎn)不限于此,概括起來有以下三方面內(nèi)容:領(lǐng)域知識(shí)在解釋查詢中的重要性、領(lǐng)域知識(shí)在回答查詢中的重要性、用戶模型的重要性。其困難在于,更新操作要改變數(shù)據(jù)庫的內(nèi)容, 而如何改變是與數(shù)據(jù)庫的具體結(jié)構(gòu)有關(guān)的。這一矛盾會(huì)導(dǎo)致更新操作出現(xiàn)一種歧義性現(xiàn)象,這種歧義不是來自用戶的表述,而是來自數(shù)據(jù)庫底層對(duì)一個(gè)請(qǐng)求有幾種不同的更新方式。 受限自然語言的處理 目前, NLIDB 都只能處理自然語言的一個(gè)很小的子集,因此,用戶在使用自然語言查詢時(shí)要受到很多限制 (即受限自然語言),而這些限制對(duì)用戶來講是不明確的。顯然后一種方法簡單易行,而且系統(tǒng)實(shí)現(xiàn)也可因此大大簡化,但它不是解決問題的積極方法。 其實(shí)這三方面內(nèi)容的解決是緊密纏繞在一起的。就目前技術(shù)來看,對(duì)可移植性問題的解決比較充分,如體系結(jié)構(gòu)、詞典組織、領(lǐng)域知識(shí)提取都在一定程度上解決了領(lǐng)域的獨(dú)立性;基于中間語言的分析框架解決了 DBMS 的獨(dú)立性。我們認(rèn)為在系統(tǒng)中增加知識(shí)的運(yùn)用是解決后兩類問題的關(guān)鍵。傳統(tǒng)的研究方法在走兩個(gè)極端,從事自然語言處理的人認(rèn)定 NLIDB 的核心技術(shù)是 “ 自然語言理解 ” ,而搞數(shù)據(jù)庫的人則總是不能跳出原有數(shù)據(jù)庫查詢的圈子,只能給出其實(shí)不需語言處理的菜單構(gòu)造界面。 NLIDB 處理的是數(shù)據(jù)庫這一特定領(lǐng)域的語言問題,它的直接處理目標(biāo)是將自然語言表述的查詢轉(zhuǎn)換為數(shù)據(jù)庫查詢?;诖?,我們提出了基于數(shù)據(jù)庫語義的一整套語言處理邏輯來解 決 NLIDB 的一些關(guān)鍵問題,如基于數(shù)據(jù)庫語義的自動(dòng)分詞、句法分析及數(shù)據(jù)庫查詢轉(zhuǎn)換,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)自然語言查詢系統(tǒng) NChiql,對(duì)可移植性體系結(jié)構(gòu)、領(lǐng)域知識(shí)的自動(dòng)提取、中文自然語言查詢分析處理、受限中文查詢語言的設(shè)計(jì)實(shí)現(xiàn)與評(píng)估、智能界面管理等方面進(jìn)行了多方位全面、系統(tǒng)的深入探索。 計(jì)算機(jī)處理自然語言的能力遠(yuǎn)未達(dá)到人們的想像和期望,自然語言界面的可用性也遠(yuǎn)不及圖形界面等其他類 型的界面。而新一代界面應(yīng)該是 MTM( MindToMachine)型,即將腦中所想的直接提交給機(jī)器來完成,人們只需關(guān)心 What,而無需關(guān)心 How。人們不斷追尋著這一夢(mèng)想,但這需要計(jì)算機(jī)科學(xué)、語言學(xué)、思維科學(xué)等各學(xué)科的共同努力,相互 促進(jìn),不斷地將各學(xué)科的成果融合起來。例如,英文句子 I am a student,用中文則為: “ 我是一個(gè)學(xué)生 ” 。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。 中文切詞 技術(shù)特點(diǎn) 中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對(duì)于一句話,人可以通過自己的知識(shí)來明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解?其處理過程就是分詞算法。 基于字符串匹配的分詞方法 這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)「充分大的」機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。常用的幾種機(jī)械分詞方法如下: 1. 正向最大匹配法(由左到右的方向); 2. 逆向最大匹配法(由右到左的方向); 3. 最少切分(使每一句中切出的詞數(shù)最?。?。由于漢語單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少 使用。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為 1/169,單純使用逆向最大匹配的錯(cuò)誤率為 1/245。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。另一種方法是 將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對(duì)分詞決策提供幫助,并且在標(biāo)注過程中又反過來對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。 基于理解的分詞方法 這種分詞方法是通過讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。這種分詞方法需要使用大量的語言知識(shí)和信息。 基于統(tǒng)計(jì)的分詞方法 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞??梢詫?duì)語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。這種方法只需對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計(jì)取詞方法。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將 串頻統(tǒng)計(jì)和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。對(duì)于任何一個(gè)成熟的分詞系統(tǒng)來說,不可能單獨(dú)依靠某一種算法來實(shí)現(xiàn),都需要綜合不同的算法。 中文切詞 技術(shù)難點(diǎn) 有了成熟的分詞算法,是否就能容易的解決中文 分詞的問題呢?事實(shí)遠(yuǎn)非如此。在中文分詞過程中,有兩大難題一直沒有完全突破。 歧義是指同樣的一句話,可能有兩種或者更多的切分方法。這種稱為交叉歧義?!富瘖y和服裝」可以分成「化妝 和服裝」或者「化妝 和服 裝」。 交叉歧義相對(duì)組合歧義來說是還算比較容易處理,組合歧義就必需根據(jù)整個(gè)句子來判斷了。這些詞計(jì)算機(jī)又如何去識(shí)別 ? 如果交叉歧義和組合歧義計(jì)算機(jī)都能解決的話,在歧義中還有一個(gè)難題,是真歧義。例如:「乒乓球拍賣完了」,可以切分成「乒乓 球拍 賣 完 了」、也可切分成「乒乓球 拍賣 完了」,如果沒有上下文其他的句子,恐怕誰也不知道「拍賣」在這里算不算一個(gè)詞。 新詞,專業(yè)術(shù)語稱為未登錄詞。最典型的是人名,人可以很容易理解句子「王軍虎去廣州了」中,「王軍虎」是個(gè)詞,因?yàn)槭且粋€(gè)人的名字,但要是讓計(jì)算機(jī)去識(shí)別就困難了。即使這項(xiàng)工作可以完成,還是會(huì)存在問題,例如:在句子「王軍虎頭虎腦的」中,「王軍虎」還能不能算詞? 新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來說,分詞系統(tǒng)中的新詞識(shí)別十分重要。 第二章 數(shù)據(jù)庫理論基礎(chǔ) 數(shù)據(jù)庫系統(tǒng)設(shè)計(jì) 一個(gè)成功的信息管理系統(tǒng),是建立在許多條件之上的,而數(shù)據(jù)庫是其中一個(gè)非常重要的條件和關(guān)鍵技術(shù)。 ( 1) 數(shù)據(jù)庫需求分析的任務(wù)是將業(yè)務(wù)管理單證流化為數(shù)據(jù)流,劃分主題之間的邊界,繪制出 DFD 圖,并完成相應(yīng)的數(shù)據(jù)字典。 ( 3) 邏輯設(shè)計(jì)的任務(wù)是從 ER 圖與對(duì)應(yīng)的綱要表出發(fā),確定各個(gè)實(shí)體及關(guān)系的表名屬性。 ( 5) 加載測(cè)試工作貫穿于程序測(cè)試工作的全過程,整個(gè)錄入、修改、查詢、處理工作均可視為對(duì)數(shù)據(jù)庫的加載測(cè)試工作。數(shù)據(jù)庫設(shè)計(jì)時(shí)需要綜合企業(yè)各個(gè)部門的存檔數(shù)據(jù)和數(shù)據(jù)需求,分析各個(gè)數(shù)據(jù)之間的關(guān)系,按照 DBMS 提供的功能和描述工具,設(shè)計(jì)出規(guī)模適當(dāng)、正確反映數(shù)據(jù)關(guān)系、數(shù)據(jù)冗余少、存取效率高、能滿足多種查詢要求的數(shù)據(jù)模型。針對(duì)選擇的 DBMS,進(jìn)行數(shù)據(jù)庫結(jié)構(gòu)定義。關(guān)系型數(shù)據(jù)庫要盡量按關(guān)系規(guī)范化要求進(jìn)行數(shù)據(jù)庫設(shè)計(jì),但為使效 率高,規(guī)范化程度應(yīng)根據(jù)應(yīng)用環(huán)境和條件來決定。 ( 3) 存儲(chǔ)設(shè)備和存儲(chǔ)空間組織:確定數(shù)據(jù)的存放地點(diǎn)、存儲(chǔ)路徑、存儲(chǔ)設(shè)備等,備份方案,對(duì)多版本如何保證一致性和數(shù)據(jù)的完整性。 ( 5) 數(shù)據(jù)字典設(shè)計(jì):用數(shù)據(jù)字典描述數(shù)據(jù)庫的設(shè)計(jì),便于維護(hù)和修改。 SQL 通常使用于數(shù)據(jù)庫的通訊。 SQL 語句通常用于完成一些數(shù)據(jù)庫的操作任務(wù),比如在數(shù)據(jù)庫中更新數(shù)據(jù),或者從數(shù)據(jù)庫中檢索數(shù)據(jù)。雖然絕大多數(shù)的數(shù)據(jù)庫系統(tǒng)使用 SQL,但是它們同樣有它們自立另外的專有擴(kuò)展功能用于它們的系統(tǒng)。 SQL 語言的突出優(yōu)點(diǎn)就是它的非過程化、統(tǒng)一,而且還是所有關(guān)系數(shù)據(jù)庫的公共語言。SQL的集合特性允許一條 SQL語句的結(jié)果作為另一條 SQL語句的輸入。 作為統(tǒng)一的語言, SQL 可用于所有用戶的 DB 活動(dòng)模型,包括系統(tǒng)管理員、數(shù)據(jù)庫管理員、 應(yīng)用程序員、決策支持系統(tǒng)人員及許多其它類型的終端用戶。主要用到的數(shù)據(jù)操作語言主要是: SELECT:用于數(shù)據(jù)檢索; INSERT:用于增加數(shù)據(jù)到數(shù)據(jù)庫; UPDATE:用于從數(shù)據(jù)庫中修改現(xiàn)存的數(shù)據(jù); DELETE:用于從數(shù)據(jù)庫中刪除數(shù)據(jù)。 語義字典信息,包括所有的原義字典和同義字典基本信息,食品的基本信息。 語義理解 包括分詞 ,詞義理解 ,句意理解以及段意理解 語義抽取 從語義中抽取所需要的查詢要求 語義輸出 根據(jù)語義從數(shù)據(jù)庫查詢并輸出信息 系統(tǒng)需求 硬件環(huán)境: CPU PⅢ 550 ,內(nèi)存 256M ,硬盤 20G 軟件環(huán)境使用 WindowsXP 操作系統(tǒng),用 visual c++ 為開發(fā)平臺(tái),數(shù)據(jù)庫使用 SQL Server 2021,在
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1