freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與知識發(fā)現(xiàn)-文庫吧資料

2025-06-28 14:40本頁面
  

【正文】 數(shù)據(jù)庫的知識發(fā)現(xiàn)類型。(1)按數(shù)據(jù)庫類型分類知識發(fā)現(xiàn)主要是在關(guān)系數(shù)據(jù)庫中挖掘知識。機器學(xué)習(xí)的大部分方法和技術(shù)已演變?yōu)閿?shù)據(jù)挖掘方法和技術(shù)。機器學(xué)習(xí)是人工智能的重要分支。統(tǒng)計學(xué)是一門古老學(xué)科,現(xiàn)已逐漸走向社會。數(shù)據(jù)庫的應(yīng)用從一般查詢到模糊查詢和智能查詢,數(shù)據(jù)庫計算已趨向并行計算。 知識發(fā)現(xiàn)的分類知識發(fā)現(xiàn)涉及多個學(xué)科,主要包括數(shù)據(jù)庫、統(tǒng)計學(xué)和機器學(xué)習(xí)等三大主要技術(shù)。如,XML是一種半結(jié)構(gòu)化的數(shù)據(jù)模型,容易實現(xiàn)Web中的信息共享與交換。雖然每個站點上的數(shù)據(jù)是結(jié)構(gòu)化的,但各自的設(shè)計對整個網(wǎng)絡(luò)而言是一個非完全結(jié)構(gòu)化的數(shù)據(jù),稱為半結(jié)構(gòu)化數(shù)據(jù)。將這些站點的異構(gòu)數(shù)據(jù)進行集成,給用戶提供一個統(tǒng)一的視圖,才能在Web上進行數(shù)據(jù)挖掘。Web數(shù)據(jù)庫隨著Internet的發(fā)展和普及,網(wǎng)站數(shù)目的迅速增長及上網(wǎng)人數(shù)的劇烈增多,使網(wǎng)絡(luò)數(shù)據(jù)量呈指數(shù)增長,Web數(shù)據(jù)挖掘已成為新課題。經(jīng)過編輯的鏡頭,按某種需要重新組織,將形成特定需求的新視頻節(jié)目。③ 視頻鏡頭的編輯與組織鏡頭代表一段連續(xù)動作(視頻數(shù)據(jù)流)。② 基于內(nèi)容的相似檢索根據(jù)圖像、視頻特征的分布、比例等進行基于內(nèi)容的相似檢索,可以將圖像和視頻數(shù)據(jù)進行聚類以及分類,也能完成對新圖像或視頻的識別。這些特征提取是用基于內(nèi)容的相似檢索。圖像與視頻的數(shù)據(jù)挖掘包括:圖像與視頻特征提?。换趦?nèi)容的相似檢索;視頻鏡頭的編輯與組織等。圖像與視頻數(shù)據(jù)庫圖像與視頻數(shù)據(jù)庫是典型的多媒體數(shù)據(jù)庫。定義關(guān)鍵詞的相似度,將便于文本的簡單聚類,類中文本滿足關(guān)鍵詞的相似度,類間文本的關(guān)鍵詞超過相似度。如,“專家系統(tǒng)”與“人工智能”兩個關(guān)鍵詞是有一定聯(lián)系的,研究專家系統(tǒng)的文本,一定屬于人工智能的研究領(lǐng)域。文本中的特征如人名、地名、組織名等是某些文本中的重要信息,特征提取對掌握該文本的內(nèi)容很重要。標(biāo)題中的關(guān)鍵詞是標(biāo)題的核心內(nèi)容。文本中的特征如人名、地名、組織名等是某些文本中的重要信息,特征提取對掌握該文本的內(nèi)容很重要。文本數(shù)據(jù)庫文本是以文字串形式表示的數(shù)據(jù)文件。⑥ 海量數(shù)據(jù)數(shù)據(jù)庫中的數(shù)據(jù)在不斷增長,已出現(xiàn)很多海量數(shù)據(jù)庫。為了避免這種情況發(fā)生,數(shù)據(jù)挖掘時,需要知道數(shù)據(jù)庫中有哪些固有的依賴關(guān)系。函數(shù)依賴是一個通常的冗余形式。含噪聲的數(shù)據(jù)挖掘會影響抽取模式的準(zhǔn)確性,并增加了數(shù)據(jù)挖掘的困難度。為此,必須對數(shù)據(jù)進行預(yù)處理,填補該數(shù)據(jù)域的可能值。② 數(shù)據(jù)不完整性數(shù)據(jù)不完整性主要反映在數(shù)據(jù)庫中記錄的域值丟失或不存在(空值)。由于數(shù)據(jù)的存取和修改,使數(shù)據(jù)的內(nèi)容經(jīng)常發(fā)生變化,這就要求數(shù)據(jù)挖掘方法能適應(yīng)這種變化。由于關(guān)系數(shù)據(jù)庫的特點,促使了數(shù)據(jù)挖掘方法的改善。目前,隨著技術(shù)的發(fā)展,數(shù)據(jù)挖掘?qū)ο笠阎鸩綌U大到半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),如Web數(shù)據(jù)、圖像和視頻數(shù)據(jù)以及文本數(shù)據(jù)等。數(shù)據(jù)集類型有:關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)庫源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及萬維網(wǎng)(Web)數(shù)據(jù)庫等。相對來講,數(shù)據(jù)挖掘主要流行于統(tǒng)計界、數(shù)據(jù)分析、數(shù)據(jù)庫和管理信息系統(tǒng)界;而知識發(fā)現(xiàn)主要流行于人工智能和機器學(xué)習(xí)界。從此“數(shù)據(jù)挖掘”一詞很快流傳開來。1995年在加拿大召開了第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘(Data Ming, DM)國際學(xué)術(shù)會議。除KDD外,主要還有:“數(shù)據(jù)挖掘”、知識抽?。╧nowledge extraction)、信息發(fā)現(xiàn)、智能數(shù)據(jù)分析、探索式數(shù)據(jù)分析、信息收獲、數(shù)據(jù)考古學(xué)(data archaeology)、數(shù)據(jù)捕撈(data dredging)等等。在該技術(shù)中,用兩維來進行坐標(biāo)顯示,而剩下的維則被映射成條狀圖標(biāo)的角度或條狀圖標(biāo)的長度;(4) 層次技術(shù):是對多維空間進行細(xì)分,然后以一種層次的形式表示這些子空間。該技術(shù)通過使用相互平行而且等距的坐標(biāo)軸將多維空間映射成兩維顯示。(2) 數(shù)據(jù)結(jié)果的可視化: 、解釋和評價的可視化有助于理解所獲得的知識并檢驗知識的真?zhèn)魏蛯嵱眯裕?3) 數(shù)據(jù)挖掘過程的可視化:用可視化形式描述各種挖掘過程,用戶通過可視化方式可以了解挖掘數(shù)據(jù)的來源、數(shù)據(jù)的抽取過程、具體的挖掘計算和推理過程等。特別是在數(shù)據(jù)準(zhǔn)備階段,用戶可能要使用散點圖、直方圖等統(tǒng)計可視化技術(shù)來顯示有關(guān)數(shù)據(jù),以期對數(shù)據(jù)有一個初步的了解,從而為更好地選取數(shù)據(jù)打下基礎(chǔ);在挖掘階段,用戶則要使用與領(lǐng)域問題有關(guān)的可視化工具;在表示結(jié)果階段,則可能要用到可視化技術(shù)以使得發(fā)現(xiàn)的知識更易于理解。這時,用戶需要重復(fù)先前的過程,甚至從頭重新開始。整個挖掘過程是一個不斷反饋的過程。挖掘質(zhì)量的好壞有兩個影響要素:(1) 是所采用的數(shù)據(jù)挖掘技術(shù)的有效性;(2) 是采用的數(shù)據(jù)質(zhì)量和數(shù)量(數(shù)據(jù)量的大小)。因為 ?。┩诰虺鰜淼哪J娇赡艽嬖谌哂嗷驘o關(guān)的模式,此時需將其剔除; ⅱ)挖掘出來的模式可能不滿足用戶要求,這時應(yīng)退回到發(fā)現(xiàn)階段之前,如重選數(shù)據(jù)、采取新的變換方法和新的開采算法等 ⅲ)KDD最終是要面向人類用戶,因此,應(yīng)對挖掘發(fā)現(xiàn)的模式進行可視化(如散點圖、直方圖等),或把結(jié)果轉(zhuǎn)換為用戶易懂的另一種表示,如把分類決策樹轉(zhuǎn)換為“if…then…”規(guī)則。選擇了挖掘算法后,就可以實施數(shù)據(jù)挖掘操作,獲取有用的模式。② 數(shù)據(jù)挖掘階段:?。┐_定開采的任務(wù)或目的,如數(shù)據(jù)總結(jié)、分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等;ⅱ)確定使用的開采算法。它是根據(jù)用戶的需求從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù)。① 數(shù)據(jù)準(zhǔn)備又可分為:數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理和數(shù)據(jù)變換三個子步驟。即:KDD=數(shù)據(jù)準(zhǔn)備+DM+解釋評價。KDD的研究內(nèi)容是:如何自動地去處理數(shù)據(jù)庫中大量的原始數(shù)據(jù),從中挖掘搜索出具有規(guī)則、富有意義的模式。過程:通常在KDD中指多階段的處理,涉及數(shù)據(jù)準(zhǔn)備、模式搜索、知識評價以及反復(fù)的修改求精;該過程要求是非平凡的,意思是要有一定程度的智能性、自動性;有效性:是指發(fā)現(xiàn)的模式對于新的數(shù)據(jù)仍保持一定的可信度;新穎性:要求發(fā)現(xiàn)的模式應(yīng)該是新的;潛在有用性:是指發(fā)現(xiàn)的知識將來有實際效用,如,用于決策支持系統(tǒng)里可提高經(jīng)濟效益;最終可理解性:要求發(fā)現(xiàn)的模式能被用戶理解,目前它主要體現(xiàn)在簡潔性上。按功能可以分為預(yù)測型模式和描述型模式。涉及幾個概念:“數(shù)據(jù)集”、“模式”、“過程”、“有效性”、“新穎性”、“潛在有用性”和“最終可理解性”。研究的問題主要有:① 定性知識和定量知識的發(fā)現(xiàn);② 知識發(fā)現(xiàn)方法;③ 知識發(fā)現(xiàn)的應(yīng)用等。它是人工智能,數(shù)據(jù)庫技術(shù),數(shù)理邏輯,認(rèn)知科學(xué),心理學(xué)等學(xué)科交叉發(fā)展的結(jié)果??傊还懿捎梅绞?,知識獲取都是目前專家系統(tǒng)研究中的一個重要問題。通常,不同的專家系統(tǒng),知識獲取功能和實現(xiàn)方法差別較大。(5)知識獲取機構(gòu)知識獲取是專家系統(tǒng)的一種輔助功能,它可為修改知識庫中的原有知識和擴充新知識提供相應(yīng)手段。推理機中包含如何從知識庫中選擇規(guī)則的策略和當(dāng)有多個可用規(guī)則時如何消解規(guī)則沖突的策略。(3)推理機推理機是一組用來控制、協(xié)調(diào)整個專家系統(tǒng)的程序。如,在醫(yī)療專家系統(tǒng)中,數(shù)據(jù)庫中存放的僅是當(dāng)前患者的情況,如姓名、年齡、癥狀等及推理過程中得到的一些中間結(jié)果、病情等;在氣象專家系統(tǒng)中,數(shù)據(jù)庫中存放的是當(dāng)前氣象要素,如云量、溫度、氣壓以及推理得到的中間結(jié)果等。(2)數(shù)據(jù)庫也稱全局?jǐn)?shù)據(jù)庫或綜合數(shù)據(jù)庫。知識表示要解決的問題是如何使用計算機能夠理解的形式來表示和存儲知識的問題。所以,專家?guī)斓慕ⅲ紫纫鉀Q知識獲取與知識表示的問題。圖1 專家系統(tǒng)的基本結(jié)構(gòu)其主要功能描述如下: (1)知識庫(Knowledge Base)知識庫是指以某種存儲結(jié)構(gòu)存儲領(lǐng)域?qū)<业闹R,包括事實和可行的操作與規(guī)則等。在建立專家系統(tǒng)時,首先由知識工程師把領(lǐng)域?qū)<业膶iT知識總結(jié)出來,以適當(dāng)?shù)男问酱嫒胗嬎銠C,建立起知識庫(KB),根據(jù)這些專門知識,系統(tǒng)可以進行推理,做出判斷和決策,能夠解決一些只有人
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1