freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(完整版)

  

【正文】 換為連續(xù)值型數(shù)據(jù),以便神經(jīng)網(wǎng)絡(luò)歸納)等;l 數(shù)據(jù)變換的主要目的是消減數(shù)據(jù)的維數(shù)或降維,即從初始特征中找出真正有用的特征,以減少數(shù)據(jù)開采時(shí)要考慮的特征或變量個(gè)數(shù)。其中,“有效性”、“新穎性”、“潛在有用性”和“最終可理解性”綜合在一起稱為興趣性。KDD(Knowledge Discovery in Database)一詞是于1989年8月在美國(guó)底特律市召開的第一屆KDD國(guó)際學(xué)術(shù)會(huì)議上正式形成的。(4)解釋機(jī)構(gòu)用于向用戶解釋專家系統(tǒng)的行為,包括解釋“系統(tǒng)是怎樣得出這一結(jié)論的”、“系統(tǒng)為什么要提出這樣的問題來(lái)詢問用戶”等用戶需要解釋的問題。通常,知識(shí)庫(kù)中的知識(shí)分為兩大類型:一類是領(lǐng)域中的事實(shí),稱為事實(shí)性知識(shí),這是一種廣泛公用的知識(shí),也即寫在書本上的知識(shí)及常識(shí);另一類是啟發(fā)性知識(shí),它是領(lǐng)域?qū)<以陂L(zhǎng)期工作實(shí)踐中積累起來(lái)的經(jīng)驗(yàn)總結(jié)。專家系統(tǒng)的開發(fā)有三個(gè)基本的要素:領(lǐng)域?qū)<摇⒅R(shí)工程師、大量實(shí)例。其中,基礎(chǔ)理論研究包括:知識(shí)的本質(zhì)、知識(shí)的表示、推理、獲取和學(xué)習(xí)方法等;實(shí)用技術(shù)主要研究解決建立知識(shí)系統(tǒng)過(guò)程中遇到的問題,包括:實(shí)用知識(shí)表示方法、實(shí)用知識(shí)獲取技術(shù)、實(shí)用知識(shí)推理方法、知識(shí)庫(kù)結(jié)構(gòu)系統(tǒng)、知識(shí)系統(tǒng)體系結(jié)構(gòu)、知識(shí)庫(kù)管理技術(shù)、知識(shí)型系統(tǒng)的調(diào)試與評(píng)估技術(shù)、實(shí)用解釋技術(shù)、實(shí)用接口技術(shù)等;知識(shí)型系統(tǒng)工具研究,主要是為了給系統(tǒng)的開發(fā)提供良好的環(huán)境工具,以提高系統(tǒng)研制的質(zhì)量和縮短系統(tǒng)研制周期等。因此,也可把有關(guān)信息關(guān)聯(lián)在一起所形成的信息結(jié)構(gòu)稱為知識(shí)。如“建國(guó)80歲”,就是一條信息。它的出現(xiàn)為自動(dòng)和智能地把海量數(shù)據(jù)轉(zhuǎn)化成有用的信息和知識(shí)提供了手段。難怪有人把人工智能同原子能技術(shù)、空間技術(shù)一起稱為20世紀(jì)的三大尖端科技成就。如何用人造的智能去模仿和擴(kuò)展人類的自然智能,實(shí)現(xiàn)信息的智能化處理,是信息社會(huì)和知識(shí)經(jīng)濟(jì)所面臨的一個(gè)重大課題。此外,在數(shù)據(jù)操縱方面:信息的提取及其相關(guān)處理技術(shù)卻遠(yuǎn)遠(yuǎn)落后?!钆c知識(shí)相關(guān)聯(lián)的兩個(gè)概念是數(shù)據(jù)和信息所謂數(shù)據(jù)是指人們?yōu)榱嗣枋隹陀^世界中的具體事物而引入的一些數(shù)字、字符、文字等符號(hào)或符號(hào)的組合。只有經(jīng)過(guò)對(duì)其進(jìn)行加工、整理、解釋、挑選和改造,形成對(duì)客觀世界規(guī)律性認(rèn)識(shí)后才能稱為知識(shí)。所以,知識(shí)工程的核心則是專家系統(tǒng)。它的根本目的是在研究知識(shí)的基礎(chǔ)上,開發(fā)人工智能系統(tǒng),補(bǔ)充和擴(kuò)大大腦的功能,開創(chuàng)人機(jī)共同思考的時(shí)代。所以,專家?guī)斓慕ⅲ紫纫鉀Q知識(shí)獲取與知識(shí)表示的問題。(3)推理機(jī)推理機(jī)是一組用來(lái)控制、協(xié)調(diào)整個(gè)專家系統(tǒng)的程序??傊?,不管采用方式,知識(shí)獲取都是目前專家系統(tǒng)研究中的一個(gè)重要問題。按功能可以分為預(yù)測(cè)型模式和描述型模式。① 數(shù)據(jù)準(zhǔn)備又可分為:數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理和數(shù)據(jù)變換三個(gè)子步驟。因?yàn)? ?。┩诰虺鰜?lái)的模式可能存在冗余或無(wú)關(guān)的模式,此時(shí)需將其剔除; ⅱ)挖掘出來(lái)的模式可能不滿足用戶要求,這時(shí)應(yīng)退回到發(fā)現(xiàn)階段之前,如重選數(shù)據(jù)、采取新的變換方法和新的開采算法等 ⅲ)KDD最終是要面向人類用戶,因此,應(yīng)對(duì)挖掘發(fā)現(xiàn)的模式進(jìn)行可視化(如散點(diǎn)圖、直方圖等),或把結(jié)果轉(zhuǎn)換為用戶易懂的另一種表示,如把分類決策樹轉(zhuǎn)換為“if…then…”規(guī)則。特別是在數(shù)據(jù)準(zhǔn)備階段,用戶可能要使用散點(diǎn)圖、直方圖等統(tǒng)計(jì)可視化技術(shù)來(lái)顯示有關(guān)數(shù)據(jù),以期對(duì)數(shù)據(jù)有一個(gè)初步的了解,從而為更好地選取數(shù)據(jù)打下基礎(chǔ);在挖掘階段,用戶則要使用與領(lǐng)域問題有關(guān)的可視化工具;在表示結(jié)果階段,則可能要用到可視化技術(shù)以使得發(fā)現(xiàn)的知識(shí)更易于理解。除KDD外,主要還有:“數(shù)據(jù)挖掘”、知識(shí)抽取(knowledge extraction)、信息發(fā)現(xiàn)、智能數(shù)據(jù)分析、探索式數(shù)據(jù)分析、信息收獲、數(shù)據(jù)考古學(xué)(data archaeology)、數(shù)據(jù)捕撈(data dredging)等等。數(shù)據(jù)集類型有:關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)源、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)以及萬(wàn)維網(wǎng)(Web)數(shù)據(jù)庫(kù)等。② 數(shù)據(jù)不完整性數(shù)據(jù)不完整性主要反映在數(shù)據(jù)庫(kù)中記錄的域值丟失或不存在(空值)。為了避免這種情況發(fā)生,數(shù)據(jù)挖掘時(shí),需要知道數(shù)據(jù)庫(kù)中有哪些固有的依賴關(guān)系。標(biāo)題中的關(guān)鍵詞是標(biāo)題的核心內(nèi)容。圖像與視頻數(shù)據(jù)庫(kù)圖像與視頻數(shù)據(jù)庫(kù)是典型的多媒體數(shù)據(jù)庫(kù)。③ 視頻鏡頭的編輯與組織鏡頭代表一段連續(xù)動(dòng)作(視頻數(shù)據(jù)流)。雖然每個(gè)站點(diǎn)上的數(shù)據(jù)是結(jié)構(gòu)化的,但各自的設(shè)計(jì)對(duì)整個(gè)網(wǎng)絡(luò)而言是一個(gè)非完全結(jié)構(gòu)化的數(shù)據(jù),稱為半結(jié)構(gòu)化數(shù)據(jù)。統(tǒng)計(jì)學(xué)是一門古老學(xué)科,現(xiàn)已逐漸走向社會(huì)?,F(xiàn)有:關(guān)系數(shù)據(jù)的知識(shí)發(fā)現(xiàn)、模糊數(shù)據(jù)的知識(shí)發(fā)現(xiàn)、歷史數(shù)據(jù)的知識(shí)發(fā)現(xiàn)和空間數(shù)據(jù)的知識(shí)發(fā)現(xiàn)等多種不同數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)類型。對(duì)可視化方法主要是把數(shù)據(jù)、信息和知識(shí)轉(zhuǎn)化為可視的表示形式的過(guò)程。現(xiàn)在,關(guān)聯(lián)規(guī)則的挖掘已經(jīng)從單一概念層次關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)發(fā)展到多概念層次的關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),并把研究的重點(diǎn)放在提高算法的效率和規(guī)??墒湛s性上。分類分析已經(jīng)成功地用于顧客分類、疾病分類、商業(yè)建模和信用卡分析等。聚類分析的核心是將某些定性的相近程度測(cè)量方法轉(zhuǎn)換成定量測(cè)試方法。偏差檢測(cè)的基本方法是尋找觀察結(jié)果與參照之間的差別。捕捉用戶的存取模式或發(fā)現(xiàn)一個(gè)Web網(wǎng)站最頻繁的訪問路徑稱為Web使用模式挖掘或Web路徑挖掘。(2)決策樹如ID3方法的決策樹,是由信息量最大的字段(屬性)作為根結(jié)點(diǎn),它的各個(gè)取值為分枝,對(duì)各個(gè)分枝所劃分的數(shù)據(jù)元組(記錄)子集,重復(fù)建樹過(guò)程,擴(kuò)展決策樹,最后得到相同類別的子集,以該類別作為葉結(jié)點(diǎn)。它們中蘊(yùn)涵著一定的規(guī)律性,通過(guò)公式發(fā)現(xiàn)算法,可以找出各種變量間的相互關(guān)系,用公式表示。 數(shù)據(jù)挖掘及知識(shí)發(fā)現(xiàn)的實(shí)際應(yīng)用DM(KDD)工具和軟件已在各個(gè)部門得到很好的應(yīng)用,并收到明顯的效益。在網(wǎng)絡(luò)容量利用方面,DM能提供對(duì)客戶組類服務(wù)使用的結(jié)構(gòu)和模式的了解,從而指導(dǎo)容量計(jì)劃人員對(duì)網(wǎng)絡(luò)設(shè)施作出最佳投資決策。實(shí)質(zhì)上,數(shù)據(jù)倉(cāng)庫(kù)就是將異構(gòu)的數(shù)據(jù)集成起來(lái),經(jīng)過(guò)加工整理變成一個(gè)可用的數(shù)據(jù)資源。Internet上數(shù)據(jù)的最大特點(diǎn)是半結(jié)構(gòu)化的。此外,還需一項(xiàng)技術(shù)能夠自動(dòng)地從現(xiàn)有數(shù)據(jù)中將這個(gè)模型抽取出來(lái),這就是所謂的模型抽取技術(shù)。除了創(chuàng)新知識(shí)之外,還有工程技術(shù)類的學(xué)科,這只不過(guò)是在運(yùn)用規(guī)律和知識(shí),對(duì)這些學(xué)科來(lái)說(shuō),最高水平的創(chuàng)新不是新知識(shí)的產(chǎn)生。兩個(gè)人知識(shí)空間的碰撞叫交流。本課程面向計(jì)算機(jī)、信息技術(shù)以及相關(guān)專業(yè)博士生、碩士生。作為研究生必須擁有一小塊與人類知識(shí)空間共同的邊界,必須在前沿工作。一個(gè)大學(xué)要受人尊重,不在大學(xué)的規(guī)模,不在大學(xué)的速度,而在這個(gè)大學(xué)有一代代受人尊敬的大師?!皠?chuàng)新是一個(gè)民族的靈魂”,發(fā)現(xiàn)與發(fā)明統(tǒng)稱為創(chuàng)新。如傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)結(jié)構(gòu)性很強(qiáng),稱之為完全結(jié)構(gòu)化的數(shù)據(jù),而同時(shí)還存在諸如一本書、一張圖片等完全無(wú)結(jié)構(gòu)的數(shù)據(jù)。它們的最本質(zhì)區(qū)別在于,數(shù)據(jù)挖掘是一種挖掘性分析工具,它主要是利用各種分析方法(算法)主動(dòng)地去挖掘大量數(shù)據(jù)中蘊(yùn)含的規(guī)律;而OLAP則是一種求證性的分析工具,即已有一個(gè)假設(shè),通過(guò)OLAP來(lái)得到驗(yàn)證。在遙感領(lǐng)域針對(duì)每天從衛(wèi)星上及其它方面來(lái)的巨額數(shù)據(jù),對(duì)氣象預(yù)報(bào),臭氧層監(jiān)測(cè)等能起很大作用。[2] 在客戶關(guān)系管理方面:DM能找出產(chǎn)品使用模式或協(xié)助了解客戶行為,從而可以改進(jìn)通道管理(如銀行分支和ATM等)。當(dāng)人們要解決一個(gè)新問題時(shí),總是先回顧自己以前處理過(guò)的類似事件(案例),利用以前案例中解決問題的方法或者處理的結(jié)果,作為參考并進(jìn)行適當(dāng)?shù)男薷模越鉀Q當(dāng)前新問題。這樣,通過(guò)可大大壓縮數(shù)據(jù)庫(kù)中的元組和字段項(xiàng),最后得到濃縮數(shù)據(jù),稱為知識(shí)基。Web內(nèi)容挖掘:是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對(duì)象之間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息篩選,從而獲得指定內(nèi)容的信息。參照是給定模型的預(yù)測(cè)、外界提供的標(biāo)準(zhǔn)或另一觀察。聚類分析的常用方法:? 隨機(jī)搜索聚類法? 特征聚類? CF樹⑤序列(Sequence)分析:序列分析主要用于分析數(shù)據(jù)倉(cāng)庫(kù)中的某類與時(shí)間相關(guān)的數(shù)據(jù),搜索類似的序列或子序列,并挖掘時(shí)序模式、周期性、趨勢(shì)和偏
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1