freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)庫(kù)智能查詢接口的實(shí)現(xiàn)—(編輯修改稿)

2025-01-12 09:18 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 我們認(rèn)為,目前首先要解決的是研究方法問題。傳統(tǒng)的研究方法在走兩個(gè)極端,從事自然語(yǔ)言處理的人認(rèn)定 NLIDB 的核心技術(shù)是 “ 自然語(yǔ)言理解 ” ,而搞數(shù)據(jù)庫(kù)的人則總是不能跳出原有數(shù)據(jù)庫(kù)查詢的圈子,只能給出其實(shí)不需語(yǔ)言處理的菜單構(gòu)造界面。我們認(rèn)為,在研究方法上應(yīng)定位于以數(shù)據(jù)庫(kù)語(yǔ)義為中心的思想。 NLIDB 處理的是數(shù)據(jù)庫(kù)這一特定領(lǐng)域的語(yǔ)言問題,它的直接處理目標(biāo)是將自然語(yǔ)言表述的查詢轉(zhuǎn)換為數(shù)據(jù)庫(kù)查詢。如何將自然語(yǔ)言查詢與現(xiàn)存的數(shù)據(jù)庫(kù)語(yǔ)義信息結(jié)合,是解決這一處理目標(biāo)的關(guān)鍵?;诖耍覀兲岢隽嘶跀?shù)據(jù)庫(kù)語(yǔ)義的一整套語(yǔ)言處理邏輯來解 決 NLIDB 的一些關(guān)鍵問題,如基于數(shù)據(jù)庫(kù)語(yǔ)義的自動(dòng)分詞、句法分析及數(shù)據(jù)庫(kù)查詢轉(zhuǎn)換,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)自然語(yǔ)言查詢系統(tǒng) NChiql,對(duì)可移植性體系結(jié)構(gòu)、領(lǐng)域知識(shí)的自動(dòng)提取、中文自然語(yǔ)言查詢分析處理、受限中文查詢語(yǔ)言的設(shè)計(jì)實(shí)現(xiàn)與評(píng)估、智能界面管理等方面進(jìn)行了多方位全面、系統(tǒng)的深入探索。NChiql 原型系統(tǒng)具有良好的可移植性、可用性、可適應(yīng)性、魯棒性和智能性,它采用三層結(jié)構(gòu),可以直接嫁接在不同廠家的 DBMS 引擎上。 計(jì)算機(jī)處理自然語(yǔ)言的能力遠(yuǎn)未達(dá)到人們的想像和期望,自然語(yǔ)言界面的可用性也遠(yuǎn)不及圖形界面等其他類 型的界面。人們不得不問,為什么還要研究自然語(yǔ)言界面?目前,圖形界面雖然在直觀友好方面比原先的字符界面大大改進(jìn)了,但使用者仍需要將腦中所想的( What)轉(zhuǎn)化成如何操作( How)來完成任務(wù)的執(zhí)行步驟。而新一代界面應(yīng)該是 MTM( MindToMachine)型,即將腦中所想的直接提交給機(jī)器來完成,人們只需關(guān)心 What,而無需關(guān)心 How。具體的有語(yǔ)音、手勢(shì)、虛擬空間等操作計(jì)算機(jī)的方式,而語(yǔ)音、手寫等交互方式都是以自然語(yǔ)言理解為基礎(chǔ)的。人們不斷追尋著這一夢(mèng)想,但這需要計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、思維科學(xué)等各學(xué)科的共同努力,相互 促進(jìn),不斷地將各學(xué)科的成果融合起來。 中文分詞技術(shù) 中文切詞 基本介紹 眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個(gè)意思。例如,英文句子 I am a student,用中文則為: “ 我是一個(gè)學(xué)生 ” 。計(jì)算機(jī)可以很簡(jiǎn)單通過空格知道 student 是一個(gè)單詞,但是不能很容易明白「學(xué)」、「生」兩個(gè)字合起來才表示一個(gè)詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。我是一個(gè)學(xué)生,分詞的結(jié)果是:我 是 一個(gè) 學(xué)生。 中文切詞 技術(shù)特點(diǎn) 中文分詞技術(shù)屬于自然語(yǔ)言處理技術(shù)范疇,對(duì)于一句話,人可以通過自己的知識(shí)來明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解?其處理過程就是分詞算法。 現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。 基于字符串匹配的分詞方法 這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)「充分大的」機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分 為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下: 1. 正向最大匹配法(由左到右的方向); 2. 逆向最大匹配法(由右到左的方向); 3. 最少切分(使每一句中切出的詞數(shù)最?。?。 還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語(yǔ)單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少 使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為 1/169,單純使用逆向最大匹配的錯(cuò)誤率為 1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過利用各種其它的語(yǔ)言信息來進(jìn)一步提高切分的準(zhǔn)確率。 一種方法是改進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率。另一種方法是 將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對(duì)分詞決策提供幫助,并且在標(biāo)注過程中又反過來對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。 對(duì)于機(jī)械分詞方法,可以建立一個(gè)一般的模型,在這方面有專業(yè)的學(xué)術(shù)論文,這里不做詳細(xì)論述。 基于理解的分詞方法 這種分詞方法是通過讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來處理歧義現(xiàn)象。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句 子等的句法和語(yǔ)義信息來對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過程。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。 基于統(tǒng)計(jì)的分詞方法 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度??梢詫?duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息,計(jì)算 兩個(gè)漢字 X、 Y 的相鄰共現(xiàn)概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計(jì)取詞方法。但這種方法也有一定的局限性,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如「這一」、「之一」、「有的」、「我的」、「許多的」等,并且對(duì)常用詞的識(shí)別精度差,時(shí)空開銷大。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將 串頻統(tǒng)計(jì)和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。 到底哪種分詞算法的準(zhǔn)確度更高,目前并無定論。對(duì)于任何一個(gè)成熟的分詞系統(tǒng)來說,不可能單獨(dú)依靠某一種算法來實(shí)現(xiàn),都需要綜合不同的算法。筆者了解,海量科技的分詞算法就采用「復(fù)方分詞法」,所謂復(fù)方,相當(dāng)于用中藥中的復(fù)方概念,即用不同的藥才綜合起來去醫(yī)治疾病,同樣,對(duì)于中文詞的識(shí)別,需要多種算法來處理不同的問題。 中文切詞 技術(shù)難點(diǎn) 有了成熟的分詞算法,是否就能容易的解決中文 分詞的問題呢?事實(shí)遠(yuǎn)非如此。中文是一種十分復(fù)雜的語(yǔ)言,讓計(jì)算機(jī)理解中文語(yǔ)言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破。 * 歧義識(shí)別。 歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:表面的,因?yàn)椤副砻妗购汀该娴摹苟际窃~,那么這個(gè)短語(yǔ)就可以分成「表面 的」和「表面的」。這種稱為交叉歧義。像這種交叉歧義十分常見,前面舉的「和服」的例子,其實(shí)就是因?yàn)榻徊嫫缌x引起的錯(cuò)誤?!富瘖y和服裝」可以分成「化妝 和服裝」或者「化妝 和服 裝」。由于沒有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案 正確。 交叉歧義相對(duì)組合歧義來說是還算比較容易處理,組合歧義就必需根據(jù)整個(gè)句子來判斷了。例如,在句子「這個(gè)門把手壞了」中,「把手」是個(gè)詞,但在句子「請(qǐng)把手拿開」中,「把手」就不是一個(gè)詞;在句子「將軍任命了一名中將」中,「中將」是個(gè)詞,但在句子「產(chǎn)量三年中將增長(zhǎng)兩倍」中,「中將」就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別 ? 如果交叉歧義和組合歧義計(jì)算機(jī)都能解決的話,在歧義中還有一個(gè)難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個(gè)應(yīng)該是詞,哪個(gè)應(yīng)該不是詞。例如:「乒乓球拍賣完了」,可以切分成「乒乓 球拍 賣 完 了」、也可切分成「乒乓球 拍賣 完了」,如果沒有上下文其他的句子,恐怕誰(shuí)也不知道「拍賣」在這里算不算一個(gè)詞。 * 新詞識(shí)別。 新詞,專業(yè)術(shù)語(yǔ)稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實(shí)能稱為詞的那些詞。最典型的是人名,人可以很容易理解句子「王軍虎去廣州了」中,「王軍虎」是個(gè)詞,因?yàn)槭且粋€(gè)人的名字,但要是讓計(jì)算機(jī)去識(shí)別就困難了。如果把「王軍虎」做為一個(gè)詞收錄到字典中去,全世界有那么多名字,而且每時(shí)每刻都有新增的人名,收錄這些人名本身就是一項(xiàng)巨大的工程。即使這項(xiàng)工作可以完成,還是會(huì)存在問題,例如:在句子「王軍虎頭虎腦的」中,「王軍虎」還能不能算詞? 新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱、省略語(yǔ)等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來說,分詞系統(tǒng)中的新詞識(shí)別十分重要。目前新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。 第二章 數(shù)據(jù)庫(kù)理論基礎(chǔ) 數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì) 一個(gè)成功的信息管理系統(tǒng),是建立在許多條件之上的,而數(shù)據(jù)庫(kù)是其中一個(gè)非常重要的條件和關(guān)鍵技術(shù)。信息管理系統(tǒng)所涉及的數(shù)據(jù)庫(kù)設(shè)計(jì)分五個(gè)步驟:數(shù)據(jù)庫(kù)需求分 析、概念設(shè)計(jì)、邏輯設(shè)計(jì)、物理設(shè)計(jì)與加載測(cè)試。 ( 1) 數(shù)據(jù)庫(kù)需求分析的任務(wù)是將業(yè)務(wù)管理單證流化為數(shù)據(jù)流,劃分主題之間的邊界,繪制出 DFD 圖,并完成相應(yīng)的數(shù)據(jù)字典。 ( 2) 概念設(shè)計(jì)的任務(wù)是從 DFD 出發(fā),繪制出本主題的實(shí)體-關(guān)系圖,并列出各個(gè)實(shí)體與關(guān)系的綱要表。 ( 3) 邏輯設(shè)計(jì)的任務(wù)是從 ER 圖與對(duì)應(yīng)的綱要表出發(fā),確定各個(gè)實(shí)體及關(guān)系的表名屬性。 ( 4) 物理設(shè)計(jì)的任務(wù)是確定所有屬性的類型、寬度與取值范圍,設(shè)計(jì)出基本表的主鍵,將所有的表名與字段名英文化(現(xiàn)在很多軟件能支持中文字段,如 Access 2021), 實(shí)現(xiàn)物理建庫(kù),完成數(shù)據(jù)庫(kù)物理設(shè)計(jì)字典。 ( 5) 加載測(cè)試工作貫穿于程序測(cè)試工作的全過程,整個(gè)錄入、修改、查詢、處理工作均可視為對(duì)數(shù)據(jù)庫(kù)的加載測(cè)試工作。 數(shù)據(jù)庫(kù)設(shè)計(jì)主要是進(jìn)行數(shù)據(jù)庫(kù)的邏輯設(shè)計(jì),即將數(shù)據(jù)按一定的分類、分組系統(tǒng)和邏輯層次組織起來,是面向用戶的。數(shù)據(jù)庫(kù)設(shè)計(jì)時(shí)需要綜合企業(yè)各個(gè)部門的存檔數(shù)據(jù)和數(shù)據(jù)需求,分析各個(gè)數(shù)據(jù)之間的關(guān)系,按照 DBMS 提供的功能和描述工具,設(shè)計(jì)出規(guī)模適當(dāng)、正確反映數(shù)據(jù)關(guān)系、數(shù)據(jù)冗余少、存取效率高、能滿足多種查詢要求的數(shù)據(jù)模型。 數(shù)據(jù)庫(kù)設(shè)計(jì)的步驟主要是: ( 1) 數(shù)據(jù)庫(kù)結(jié)構(gòu)定義:目前的 數(shù)據(jù)庫(kù)管理系統(tǒng)( DBMS)有的是支持聯(lián)機(jī)事務(wù)處理 CLTP(負(fù)責(zé)對(duì)事務(wù)數(shù)據(jù)進(jìn)行采集、處理、存儲(chǔ))的操作型 DBMS,有的可支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)、有聯(lián)機(jī)分析處理 CLAP(指為支持決策的制定對(duì)數(shù)據(jù)的一種加工操作)功能的大型 DBMS,有的數(shù)據(jù)庫(kù)是關(guān)系型的、有的可支持面向?qū)ο髷?shù)據(jù)庫(kù)。針對(duì)選擇的 DBMS,進(jìn)行數(shù)據(jù)庫(kù)結(jié)構(gòu)定義。 ( 2) 數(shù)據(jù)表定義:數(shù)據(jù)表定義指定義數(shù)據(jù)庫(kù)中數(shù)據(jù)表的結(jié)構(gòu),數(shù)據(jù)表的邏輯結(jié)構(gòu)包括:屬性名稱、類型、表示形式、缺省值、校驗(yàn)規(guī)則、是否關(guān)鍵字、可否為空等。關(guān)系型數(shù)據(jù)庫(kù)要盡量按關(guān)系規(guī)范化要求進(jìn)行數(shù)據(jù)庫(kù)設(shè)計(jì),但為使效 率高,規(guī)范化程度應(yīng)根據(jù)應(yīng)用環(huán)境和條件來決定。數(shù)據(jù)表設(shè)計(jì)不僅要滿足數(shù)據(jù)存儲(chǔ)的要求,還要增加一些如反映有關(guān)信息、操作責(zé)任、中間數(shù)據(jù)的字段或臨時(shí)數(shù)據(jù)表。 ( 3) 存儲(chǔ)設(shè)備和存儲(chǔ)空間組織:確定數(shù)據(jù)的存放地點(diǎn)、存儲(chǔ)路徑、存儲(chǔ)設(shè)備等,備份方案,對(duì)多版本如何保證一致性和數(shù)據(jù)的完整性。 ( 4) 數(shù)據(jù)使用權(quán)限設(shè)置:針對(duì)用戶的不同使用要求,確定數(shù)據(jù)的用戶使用權(quán)限,確保數(shù)據(jù)安全。 ( 5) 數(shù)據(jù)字典設(shè)計(jì):用數(shù)據(jù)字典描述數(shù)據(jù)庫(kù)的設(shè)計(jì),便于維護(hù)和修改。 SQL 語(yǔ)言介紹 SQL 基礎(chǔ) SQL(Structured Query Language,結(jié)構(gòu)查詢語(yǔ)言 )是一個(gè)功能強(qiáng)大的數(shù)據(jù)庫(kù)語(yǔ)言。 SQL 通常使用于數(shù)據(jù)庫(kù)的通訊。 ANSI(美國(guó)國(guó)家標(biāo)準(zhǔn)學(xué)會(huì))聲稱, SQL 是關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)的標(biāo)準(zhǔn)語(yǔ)言。 SQL 語(yǔ)句通常用于完成一些數(shù)據(jù)庫(kù)的操作任務(wù),比如在數(shù)據(jù)庫(kù)中更新數(shù)據(jù),或者從數(shù)據(jù)庫(kù)中檢索數(shù)據(jù)。使用 SQL 的常見關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)有: Oracle、 Sybase、 Microsoft SQL Server、 Access、 Ingres 等等。雖然絕大多數(shù)的數(shù)據(jù)庫(kù)系統(tǒng)使用 SQL,但是它們同樣有它們自立另外的專有擴(kuò)展功能用于它們的系統(tǒng)。但是,標(biāo)準(zhǔn) 的 SQL 命令,比如 Select、 Insert、 Update、 Delete、 Create和 Drop常常被用于完成絕大多數(shù)數(shù)據(jù)庫(kù)的操作。 SQL 語(yǔ)言的突出優(yōu)點(diǎn)就是它的非過程化、統(tǒng)一,而且還是所有關(guān)系數(shù)據(jù)庫(kù)的公共語(yǔ)言。 SQL 語(yǔ)言一次處理一個(gè)記錄,對(duì)數(shù)據(jù)提供自動(dòng)導(dǎo)航,它允許用戶在高層的數(shù)據(jù)結(jié)構(gòu)上工作,而部隊(duì)單個(gè)記錄進(jìn)行操作,可操作記錄集,所有 SQL 語(yǔ)句接受集合作為輸入,返回集合作為輸出。SQL的集合特性允許一條 SQL語(yǔ)句的結(jié)果作為另一條 SQL語(yǔ)句的輸入。同時(shí),它不要求用戶指定對(duì)數(shù)據(jù) 的存放方法, 這種特性使用戶更易集中精力于要得到的結(jié)果;所有 SQL 語(yǔ)句使用查詢優(yōu)化器,它是 RDBMS的一部分,由它決
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1