freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘概念與技術(shù)引言-文庫(kù)吧在線文庫(kù)

  

【正文】 生命的基本特征包括生長(zhǎng)、繁殖、新陳代謝和遺傳與變異。 ? 遺傳算法可起到產(chǎn)生優(yōu)良后代的作用。然后對(duì)決策樹進(jìn)行剪枝處理,即可得到規(guī)則。 49 集合論方法-約略集 ? 國(guó)際上關(guān)于約略集理論和知識(shí)發(fā)現(xiàn)的會(huì)議: ? 1993年在 Banff, Alberta, Canada舉行的 The Int’l Workshop on Rough Sets and Knowledge Discovery ? 1996年在 University of Tokyo舉行的 The Fourth Int’l Workshop on Rough Sets, Fuzzy Sets, and Machine Discovery ? 研究集中在約略集理論的數(shù)學(xué)性質(zhì)、拓廣、與其他不確定方法的關(guān)系和互補(bǔ),以及有效算法等方面。其基本思想是建立樣本數(shù)據(jù)內(nèi)部的等價(jià)類,而這些等價(jià)類是按照下近似和上近似“ 約略地 ” 定義的。 55 統(tǒng)計(jì)學(xué)分析方法 ? 在數(shù)據(jù)挖掘中,統(tǒng)計(jì)學(xué)可應(yīng)用于預(yù)測(cè)、聚類規(guī)則挖掘和時(shí)序數(shù)據(jù)的趨勢(shì)分析等。概念聚類的大多數(shù)方法采用了統(tǒng)計(jì)學(xué)的途徑,在決定概念或聚類時(shí)使用概率度量,用概率描述導(dǎo)出的概念。 ? 如果搞家電維修服務(wù)的公司向在商店中剛剛購(gòu)買家電的消費(fèi)者郵寄維修服務(wù)廣告,賣特效藥品的廠商向醫(yī)院特定門診就醫(yī)的病人郵寄廣告,肯定會(huì)比漫無目的的營(yíng)銷效果要好得多。 ? 1996年,加拿大的 IDC公司調(diào)查了 62家實(shí)現(xiàn)了數(shù)據(jù)倉(cāng)庫(kù)的歐美企業(yè),結(jié)果表明:數(shù)據(jù)倉(cāng)庫(kù)為企業(yè)提供了巨大的收益。 ? Sybase: 提供了專門的 OLAP服務(wù)器 Sybase IQ,并將其與數(shù)據(jù)倉(cāng)庫(kù)相關(guān)工具打包成 Warehouse Studio 。 ? 自 80年代后期以來,聯(lián)機(jī)分析處理( OLAP)和數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。 集成性 ? 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從原有分散的源數(shù)據(jù)庫(kù)中提取出來的,其每一個(gè)主題所對(duì)應(yīng)的源數(shù)據(jù)在原有的數(shù)據(jù)庫(kù)中有許多冗余和不一致,且與不同的應(yīng)用邏輯相關(guān)。 支持管理決策 ? 數(shù)據(jù)倉(cāng)庫(kù)支持 OLAP(聯(lián)機(jī)分析處理)、數(shù)據(jù)挖掘和決策分析。 操作數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別 ? 操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理 OLTP ? 數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)分析和決策方面為用戶提供服務(wù) ,這種系統(tǒng)稱為聯(lián)機(jī)分析處理OLAP 事務(wù)型處理與分析型處理 ? 事務(wù)型處理:即操作型處理,是指對(duì)數(shù)據(jù)庫(kù)的聯(lián)機(jī)操作處理。在分析型處理中,并不是對(duì)從事務(wù)型處理環(huán)境 中得到的細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。 ? 預(yù)防性維護(hù):預(yù)防性維護(hù)則是指為了改進(jìn)系統(tǒng)未來的性能和功能打下基礎(chǔ)而進(jìn)行的修改工作。 ? 數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的日常管理工作: ? 清除過時(shí)的、不再使用的數(shù)據(jù); ? 定期從源數(shù)據(jù)中提取數(shù)據(jù),刷新數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù); ? 管理元數(shù)據(jù)等。在事務(wù)型處理環(huán)境中,數(shù)據(jù)庫(kù)要求能支持日常事務(wù)中的大量事務(wù),用戶對(duì)數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短。 數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)要求 ? 大量數(shù)據(jù)的組織和管理:包含了大量的歷史數(shù)據(jù),它是從數(shù)據(jù)庫(kù)中提取得來的,不必關(guān)心它的數(shù)據(jù)安全性和數(shù)據(jù)完整性。 穩(wěn)定性 ? 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)反映的是一段時(shí)間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時(shí)點(diǎn)的數(shù)據(jù)庫(kù)快照的集合,以及基于撰寫快照進(jìn)行統(tǒng)計(jì)、綜合和重組的導(dǎo)出數(shù)據(jù),而不是聯(lián)機(jī)處理的數(shù)據(jù)。 ? :數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合,用以支持管理決策的過程。 數(shù)據(jù)倉(cāng)庫(kù)的我國(guó)的發(fā)展 ? 前景:隨著計(jì)算機(jī)技術(shù)的發(fā)展,尤其是分布式技術(shù)的發(fā)展, 數(shù)據(jù)倉(cāng)庫(kù)在我國(guó)有著廣闊的發(fā)展空間和良好的發(fā)展前景。 ? 其他數(shù)據(jù)庫(kù)廠商在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域也紛紛提出了各自的解決方案。 ? 每一場(chǎng)比賽的事件都被統(tǒng)計(jì)分類,按得分、助攻、失誤等等。 ? 解決的典型商業(yè)問題包括:數(shù)據(jù)庫(kù)營(yíng)銷( Database Marketing)、客戶群體劃分( Customer Segmentation amp。 56 統(tǒng)計(jì)學(xué)分析方法- 預(yù)測(cè) ? 在數(shù)據(jù)屬性之間存在兩種關(guān)系: ? 函數(shù)關(guān)系:能用函數(shù)公式表示的確定性關(guān)系,可以采用回歸分析的方法; ? 相關(guān)關(guān)系:不能用函數(shù)公式表示,但仍是相關(guān)確定的關(guān)系,可以采用相關(guān)分析和主成分分析等方法。 54 集合論方法- 模糊集方法 ? 模糊性是客觀存在的,系統(tǒng)的復(fù)雜性越高,精確化能力就越低,也就意味著模糊性越強(qiáng)。信息系統(tǒng) S =( U, T, V, ?)的不可區(qū)分集合 RB(x)(在約略集理論中即等價(jià)類[x]?B)是用來近似任何子集 X?U的基石。 48 集合論方法-約略集 ? 約略集理論是 1982年在 《 計(jì)算機(jī)與信息科學(xué) 》 國(guó)際雜志上發(fā)表的論文 “ Rough Sets”中首先提出的一個(gè)分析數(shù)據(jù)的數(shù)學(xué)理論。其研究?jī)?nèi)容主要包括:以編碼理論為中心的所謂狹義信息論,它研究信息的測(cè)度、信息的容量、信源特性、信源編碼、信道和信息系統(tǒng)模型等;信號(hào)處理技術(shù),它研究信號(hào)和噪音分析、信號(hào)的過濾與檢測(cè),以及有關(guān)理論;以計(jì)算機(jī)為中心的信息處理技術(shù)與理論,例如模式識(shí)別、自學(xué)習(xí)理論、自動(dòng)機(jī)器翻譯等。 43 生物學(xué)方法-遺傳算法 ? 遺傳算法的基本思想:從代表問題的可能潛在解集的一個(gè)種群開始,一個(gè)種群是由經(jīng)過基因編碼的一定數(shù)量的個(gè)體組成,每個(gè)個(gè)體是染色體帶有特征的實(shí)體,染色體是多個(gè)基因的集合,它決定了個(gè)體的形狀和外部表現(xiàn);通過模擬基因編碼形成初代種群,然后按照適者生存和優(yōu)勝劣汰的原則逐代演化產(chǎn)生出越來越好的近似解;在每一代,根據(jù)問題域中個(gè)體的適應(yīng)度大小進(jìn)行選擇,并借助遺傳算子進(jìn)行組合交叉和變異,從而產(chǎn)生出代表新的解集的種群;以上過程將導(dǎo)致種群象自然進(jìn)化一樣的后代種群比前代種群更加適用于環(huán)境,末代種群中的最優(yōu)個(gè)體經(jīng)過解碼可以作為問題的最優(yōu)近似解。 ? 遺傳算法的研究歷史比較短,是從 20世紀(jì) 60年代末期到 70年代初才開始的,當(dāng)時(shí)的一些學(xué)者從試圖解釋自然界中生物的復(fù)雜適應(yīng)過程入手,模擬生物進(jìn)化的機(jī)制來建立人工系統(tǒng)的模型。完成某項(xiàng)工作的正確動(dòng)作,使得神經(jīng)網(wǎng)絡(luò)的某些連接或模式得到強(qiáng)化;而錯(cuò)誤的動(dòng)作則使神經(jīng)網(wǎng)絡(luò)的相應(yīng)連接或模式不被強(qiáng)化。在知識(shí)庫(kù)中存放領(lǐng)域知識(shí),用于搜索和對(duì)模式進(jìn)行評(píng)價(jià)。 ? Web內(nèi)容挖掘:是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對(duì)象之間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息篩選,從而獲得指定內(nèi)容的信息。序列模式可以看成是一種特定的關(guān)聯(lián)模型,它在關(guān)聯(lián)模型中增加了時(shí)間屬性。 ? 聚類分析是按照某種相近程度度量方法將數(shù)據(jù)分成互不相同的一些分組。另外,對(duì)于大規(guī)模、分布在不同站點(diǎn)上的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),關(guān)聯(lián)規(guī)則的挖掘可以使用并行算法,如: Count分布算法、 Data分布算法、Candidate 分布算法、智能 Data分布算法( IDD)和 DMA分布算法等。 26 數(shù)據(jù)挖掘的類型 ? 數(shù)據(jù)挖掘的任務(wù) : 是從大量的數(shù)據(jù)中發(fā)現(xiàn)模式。數(shù)據(jù)準(zhǔn)備是否做得充分將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。 ? 數(shù)據(jù)挖掘是一門交叉性學(xué)科,它涉及到機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、智能數(shù)據(jù)庫(kù)、知識(shí)獲取、數(shù)據(jù)可視化、高性能計(jì)算、專家系統(tǒng)等多個(gè)領(lǐng)域。 15 數(shù)據(jù)挖掘 ? 數(shù)據(jù)挖掘(D ata Mining) :又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是基于AI、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析原有的數(shù)據(jù),進(jìn)行歸納性推理,從數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)庫(kù)中提取可信的、新穎的、有效的、人們感興趣的、能別人理解的知識(shí)的高級(jí)處理過程。 ? 如何有效使用數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù)? 13 如何有效使用數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù)? ? 數(shù)據(jù)挖掘就是從大量的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又可能有用的信息和知識(shí)的過程。 ? OLAP從數(shù)據(jù)倉(cāng)庫(kù)中的綜合數(shù)據(jù)出發(fā),提供面向分析的多維模型,并使用多維分析的方法從多個(gè)角度、多個(gè)層次對(duì)多維數(shù)據(jù)進(jìn)行分析,使決策者能夠以更加自然的方式來分析數(shù)據(jù)。 6 數(shù)據(jù)倉(cāng)庫(kù)的我國(guó)的發(fā)展 ? 現(xiàn)狀:數(shù)據(jù)倉(cāng)庫(kù)的概念已經(jīng)被國(guó)內(nèi)用戶接受多年,但在應(yīng)用方面的收效不理想 ? 原因: ? 現(xiàn)有的數(shù)據(jù)庫(kù)系統(tǒng)不健全,數(shù)據(jù)積累還不夠,無法提出決策支持需求; ? 缺乏能夠擔(dān)負(fù)規(guī)劃、設(shè)計(jì)、構(gòu)建和維護(hù)數(shù)據(jù)倉(cāng)庫(kù)的重任的復(fù)合型人才; ? 沒很好使用數(shù)據(jù)倉(cāng)庫(kù)前端工具(如 OLAP工具、數(shù)據(jù)挖掘工具等)。 ? 其他數(shù)據(jù)庫(kù)廠商在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域也紛紛提出了各自的解決方案。 ? 早期的數(shù)據(jù)倉(cāng)庫(kù):大都 客戶 /服務(wù)器結(jié)構(gòu)。 ? PLATINUM: 提出了由 InfoPump(數(shù)據(jù)倉(cāng)庫(kù)建模與數(shù)據(jù)加載工具)和 Forestamp。 ? 數(shù)據(jù)倉(cāng)庫(kù)是與操作型系統(tǒng)相分離的、基于標(biāo)準(zhǔn)企業(yè)模型集成的、帶有時(shí)間屬性的、面向主題及不可更新的數(shù)據(jù)集合。 ? 對(duì)提取出來的數(shù)據(jù)進(jìn)行集成:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從多個(gè)應(yīng)用領(lǐng)域中提取出來的,在不同的應(yīng)用領(lǐng)域和不同的數(shù)據(jù)庫(kù)系統(tǒng)中都有不同的結(jié)構(gòu)和形式,所以如何對(duì)數(shù)據(jù)進(jìn)行集成也是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)重要方面。 ? 分析人員認(rèn)為這并非偶然,經(jīng)過深入分析得知,通常周末購(gòu)買尿布的是男士,他們?cè)谕瓿闪颂唤o的任務(wù)后,經(jīng)常會(huì)順便買一些啤酒。 16 數(shù)據(jù)挖掘 ? 數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)是作為兩種獨(dú)立的信息技術(shù)出現(xiàn)的。 ? 第一本關(guān)于數(shù)據(jù)挖掘的國(guó)際學(xué)術(shù)雜志 《 Data Mining and Knowledge Discovery》 于 1997年3月創(chuàng)刊。 25 數(shù)據(jù)挖掘的過程 ? 鞏固和運(yùn)用階段:用戶理解的、并被認(rèn)為是符合實(shí)際和有價(jià)值的模式形成了知識(shí)?,F(xiàn)在,已經(jīng)從單一概念層次關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)發(fā)展到多概念層次的關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),并把研究的重點(diǎn)放在提高算法的效率和規(guī)??墒湛s性上。分類分析已經(jīng)成功地用于顧客分類、疾病分類、商業(yè)建模和信用卡分析等。 ? 聚類分析的常用方法: ? 隨機(jī)搜索聚類法 ? 特征聚類 ? CF樹 31 序列分析 ? 序列( Sequence)分析:序列分析主要用于分析數(shù)據(jù)倉(cāng)庫(kù)中的某類與時(shí)間相關(guān)的數(shù)據(jù),搜索類似的序列或子序列,并挖掘時(shí)序模式、周期性、趨勢(shì)和偏離等。 ? Web使用模式挖掘:在 Web環(huán)境中,文檔和對(duì)象一般都是通過鏈接來便于用戶訪問。 36 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)- 數(shù)據(jù)挖掘引擎 ? 數(shù)據(jù)挖掘引擎是數(shù)據(jù)挖掘系統(tǒng)最基本、最重要的部分,是數(shù)據(jù)挖掘系統(tǒng)的核心。人在學(xué)習(xí)某一件事的時(shí)候,某些神經(jīng)元的連接得到強(qiáng)化。 ? 反饋式網(wǎng)絡(luò):以 Hopfield的離散模型和連續(xù)模型為代表,分別用于聯(lián)想記憶和優(yōu)化計(jì)算。生命是進(jìn)化的產(chǎn)物,現(xiàn)代的生物是在長(zhǎng)期的進(jìn)化過程中發(fā)展起來的。這些后代需滿足適應(yīng)值,經(jīng)過若干代的遺傳,將得到滿足要求的后代(問題的解)。 ? 典型的決策樹方法: ID分類回歸樹( CART)、 。 ? 基于 Rough集方法的數(shù)據(jù)挖掘工具:如ProbRough、 TRANCE、 KDDR、 LERS、DataLogic/R等。對(duì)于每一個(gè)等價(jià)類可以產(chǎn)生相應(yīng)的判定規(guī)則,對(duì)于下近似可建立確定性規(guī)則,對(duì)于上近
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1