freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘概念與技術(shù)引言-wenkub.com

2025-08-17 09:02 本頁面
   

【正文】 ? 預(yù)防性維護(hù):預(yù)防性維護(hù)則是指為了改進(jìn)系統(tǒng)未來的性能和功能打下基礎(chǔ)而進(jìn)行的修改工作。 ? 數(shù)據(jù)倉庫中數(shù)據(jù)的日常管理工作: ? 清除過時(shí)的、不再使用的數(shù)據(jù); ? 定期從源數(shù)據(jù)中提取數(shù)據(jù),刷新數(shù)據(jù)倉庫中的數(shù)據(jù); ? 管理元數(shù)據(jù)等。在分析型處理中,并不是對從事務(wù)型處理環(huán)境 中得到的細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。在事務(wù)型處理環(huán)境中,數(shù)據(jù)庫要求能支持日常事務(wù)中的大量事務(wù),用戶對數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短。 操作數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別 ? 操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理 OLTP ? 數(shù)據(jù)倉庫在數(shù)據(jù)分析和決策方面為用戶提供服務(wù) ,這種系統(tǒng)稱為聯(lián)機(jī)分析處理OLAP 事務(wù)型處理與分析型處理 ? 事務(wù)型處理:即操作型處理,是指對數(shù)據(jù)庫的聯(lián)機(jī)操作處理。 數(shù)據(jù)倉庫的技術(shù)要求 ? 大量數(shù)據(jù)的組織和管理:包含了大量的歷史數(shù)據(jù),它是從數(shù)據(jù)庫中提取得來的,不必關(guān)心它的數(shù)據(jù)安全性和數(shù)據(jù)完整性。 支持管理決策 ? 數(shù)據(jù)倉庫支持 OLAP(聯(lián)機(jī)分析處理)、數(shù)據(jù)挖掘和決策分析。 穩(wěn)定性 ? 數(shù)據(jù)倉庫中的數(shù)據(jù)反映的是一段時(shí)間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時(shí)點(diǎn)的數(shù)據(jù)庫快照的集合,以及基于撰寫快照進(jìn)行統(tǒng)計(jì)、綜合和重組的導(dǎo)出數(shù)據(jù),而不是聯(lián)機(jī)處理的數(shù)據(jù)。 集成性 ? 數(shù)據(jù)倉庫中的數(shù)據(jù)是從原有分散的源數(shù)據(jù)庫中提取出來的,其每一個(gè)主題所對應(yīng)的源數(shù)據(jù)在原有的數(shù)據(jù)庫中有許多冗余和不一致,且與不同的應(yīng)用邏輯相關(guān)。 ? :數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合,用以支持管理決策的過程。 ? 自 80年代后期以來,聯(lián)機(jī)分析處理( OLAP)和數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。 數(shù)據(jù)倉庫的我國的發(fā)展 ? 前景:隨著計(jì)算機(jī)技術(shù)的發(fā)展,尤其是分布式技術(shù)的發(fā)展, 數(shù)據(jù)倉庫在我國有著廣闊的發(fā)展空間和良好的發(fā)展前景。 ? Sybase: 提供了專門的 OLAP服務(wù)器 Sybase IQ,并將其與數(shù)據(jù)倉庫相關(guān)工具打包成 Warehouse Studio 。 ? 其他數(shù)據(jù)庫廠商在數(shù)據(jù)倉庫領(lǐng)域也紛紛提出了各自的解決方案。 ? 1996年,加拿大的 IDC公司調(diào)查了 62家實(shí)現(xiàn)了數(shù)據(jù)倉庫的歐美企業(yè),結(jié)果表明:數(shù)據(jù)倉庫為企業(yè)提供了巨大的收益。 ? 每一場比賽的事件都被統(tǒng)計(jì)分類,按得分、助攻、失誤等等。 ? 如果搞家電維修服務(wù)的公司向在商店中剛剛購買家電的消費(fèi)者郵寄維修服務(wù)廣告,賣特效藥品的廠商向醫(yī)院特定門診就醫(yī)的病人郵寄廣告,肯定會比漫無目的的營銷效果要好得多。 ? 解決的典型商業(yè)問題包括:數(shù)據(jù)庫營銷( Database Marketing)、客戶群體劃分( Customer Segmentation amp。概念聚類的大多數(shù)方法采用了統(tǒng)計(jì)學(xué)的途徑,在決定概念或聚類時(shí)使用概率度量,用概率描述導(dǎo)出的概念。 56 統(tǒng)計(jì)學(xué)分析方法- 預(yù)測 ? 在數(shù)據(jù)屬性之間存在兩種關(guān)系: ? 函數(shù)關(guān)系:能用函數(shù)公式表示的確定性關(guān)系,可以采用回歸分析的方法; ? 相關(guān)關(guān)系:不能用函數(shù)公式表示,但仍是相關(guān)確定的關(guān)系,可以采用相關(guān)分析和主成分分析等方法。 55 統(tǒng)計(jì)學(xué)分析方法 ? 在數(shù)據(jù)挖掘中,統(tǒng)計(jì)學(xué)可應(yīng)用于預(yù)測、聚類規(guī)則挖掘和時(shí)序數(shù)據(jù)的趨勢分析等。 54 集合論方法- 模糊集方法 ? 模糊性是客觀存在的,系統(tǒng)的復(fù)雜性越高,精確化能力就越低,也就意味著模糊性越強(qiáng)。其基本思想是建立樣本數(shù)據(jù)內(nèi)部的等價(jià)類,而這些等價(jià)類是按照下近似和上近似“ 約略地 ” 定義的。信息系統(tǒng) S =( U, T, V, ?)的不可區(qū)分集合 RB(x)(在約略集理論中即等價(jià)類[x]?B)是用來近似任何子集 X?U的基石。 49 集合論方法-約略集 ? 國際上關(guān)于約略集理論和知識發(fā)現(xiàn)的會議: ? 1993年在 Banff, Alberta, Canada舉行的 The Int’l Workshop on Rough Sets and Knowledge Discovery ? 1996年在 University of Tokyo舉行的 The Fourth Int’l Workshop on Rough Sets, Fuzzy Sets, and Machine Discovery ? 研究集中在約略集理論的數(shù)學(xué)性質(zhì)、拓廣、與其他不確定方法的關(guān)系和互補(bǔ),以及有效算法等方面。 48 集合論方法-約略集 ? 約略集理論是 1982年在 《 計(jì)算機(jī)與信息科學(xué) 》 國際雜志上發(fā)表的論文 “ Rough Sets”中首先提出的一個(gè)分析數(shù)據(jù)的數(shù)學(xué)理論。然后對決策樹進(jìn)行剪枝處理,即可得到規(guī)則。其研究內(nèi)容主要包括:以編碼理論為中心的所謂狹義信息論,它研究信息的測度、信息的容量、信源特性、信源編碼、信道和信息系統(tǒng)模型等;信號處理技術(shù),它研究信號和噪音分析、信號的過濾與檢測,以及有關(guān)理論;以計(jì)算機(jī)為中心的信息處理技術(shù)與理論,例如模式識別、自學(xué)習(xí)理論、自動(dòng)機(jī)器翻譯等。 ? 遺傳算法可起到產(chǎn)生優(yōu)良后代的作用。 43 生物學(xué)方法-遺傳算法 ? 遺傳算法的基本思想:從代表問題的可能潛在解集的一個(gè)種群開始,一個(gè)種群是由經(jīng)過基因編碼的一定數(shù)量的個(gè)體組成,每個(gè)個(gè)體是染色體帶有特征的實(shí)體,染色體是多個(gè)基因的集合,它決定了個(gè)體的形狀和外部表現(xiàn);通過模擬基因編碼形成初代種群,然后按照適者生存和優(yōu)勝劣汰的原則逐代演化產(chǎn)生出越來越好的近似解;在每一代,根據(jù)問題域中個(gè)體的適應(yīng)度大小進(jìn)行選擇,并借助遺傳算子進(jìn)行組合交叉和變異,從而產(chǎn)生出代表新的解集的種群;以上過程將導(dǎo)致種群象自然進(jìn)化一樣的后代種群比前代種群更加適用于環(huán)境,末代種群中的最優(yōu)個(gè)體經(jīng)過解碼可以作為問題的最優(yōu)近似解。生命的基本特征包括生長、繁殖、新陳代謝和遺傳與變異。 ? 遺傳算法的研究歷史比較短,是從 20世紀(jì) 60年代末期到 70年代初才開始的,當(dāng)時(shí)的一些學(xué)者從試圖解釋自然界中生物的復(fù)雜適應(yīng)過程入手,模擬生物進(jìn)化的機(jī)制來建立人工系統(tǒng)的模型。 以 MP模型和 Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),建立了三大類多種神經(jīng)網(wǎng)絡(luò)模型: ? 前饋式網(wǎng)絡(luò):以感知機(jī)、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表,可用于預(yù)測、模式識別等方面。完成某項(xiàng)工作的正確動(dòng)作,使得神經(jīng)網(wǎng)絡(luò)的某些連接或模式得到強(qiáng)化;而錯(cuò)誤的動(dòng)作則使神經(jīng)網(wǎng)絡(luò)的相應(yīng)連接或模式不被強(qiáng)化。由醫(yī)學(xué)可知,人的大腦中有幾十億個(gè)大腦細(xì)胞(稱為神經(jīng)元),這些神經(jīng)元通過神經(jīng)中樞的導(dǎo)電神經(jīng)纖維互相連接,從而形成一個(gè)復(fù)雜的腦神經(jīng)網(wǎng)絡(luò)。在知識庫中存放領(lǐng)域知識,用于搜索和對模式進(jìn)行評價(jià)。 ? 此外,該模塊還提供用戶瀏覽數(shù)據(jù)庫和數(shù)據(jù)倉庫模式或數(shù)據(jù)結(jié)構(gòu)、評價(jià)數(shù)據(jù)挖掘的模式等功能。 ? Web內(nèi)容挖掘:是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對象之間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息篩選,從而獲得指定內(nèi)容的信息。 33 Web數(shù)據(jù)挖掘 ? Web數(shù)據(jù)挖掘:萬維網(wǎng)是一個(gè)巨大的、分布廣泛的和全球性的信息服務(wù)中心,其中包含了豐富的超鏈接信息,為數(shù)據(jù)挖掘提供了豐富的資源。序列模式可以看成是一種特定的關(guān)聯(lián)模型,它在關(guān)聯(lián)模型中增加了時(shí)間屬性。 ? 采用聚類分析,系統(tǒng)可以根據(jù)部分?jǐn)?shù)據(jù)發(fā)現(xiàn)規(guī)律,找出對全體數(shù)據(jù)的描述。 ? 聚類分析是按照某種相近程度度量方法將數(shù)據(jù)分成互不相同的一些分組。類的描述可以是顯式的,如用一組特征概念描述;也可以是隱式的,如用一個(gè)數(shù)學(xué)公式或數(shù)學(xué)模型描述。另外,對于大規(guī)模、分布在不同站點(diǎn)上的數(shù)據(jù)庫或數(shù)據(jù)倉庫,關(guān)聯(lián)規(guī)則的挖掘可以使用并行算法,如: Count分布算法、 Data分布算法、Candidate 分布算法、智能 Data分布算法( IDD)和 DMA分布算法等。 ? 近幾年研究較多。 26 數(shù)據(jù)挖掘的類型 ? 數(shù)據(jù)挖掘的任務(wù) : 是從大量的數(shù)據(jù)中發(fā)現(xiàn)模式。評估可以根據(jù)用戶多年的經(jīng)驗(yàn),有些模式也可以直接用數(shù)據(jù)來檢驗(yàn)其準(zhǔn)確性。數(shù)據(jù)準(zhǔn)備是否做得充分將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。 ? 1995:加拿大召開第一屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會議 19 歷屆有關(guān) KDD的學(xué)術(shù)會議 時(shí)間 會議名稱 會議地點(diǎn) 接受論文數(shù) 提交 論文數(shù) Workshop on KDD Detroit,Michigan,USA 29 69 Workshop on KDD Anaheim,California, USA 25 46 Workshop on KDD Washington,USA 28 40 1995 KDD95 Montreal,Canada 40 135 KDD96 Portland,Oregon,USA 45 220 PAKDD97 Singapore 35 97 KDD97 California,USA PAKDD98 Melbourne,Australia KDD98 New York,USA 20 數(shù)據(jù)挖掘的發(fā)展 ? 數(shù)據(jù)挖掘技術(shù)的應(yīng)用開發(fā)在國外已經(jīng)迅速發(fā)展,許多大公司(如 Informix, Oracle, IBM等)都投入了巨資對其進(jìn)行研究,并開發(fā)出了一些產(chǎn)品和原型,如 DBMiner、 Quest、 EXPLORA等。 ? 數(shù)據(jù)挖掘是一門交叉性學(xué)科,它涉及到機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計(jì)學(xué)、智能數(shù)據(jù)庫、知識獲取、數(shù)據(jù)可視化、高性能計(jì)算、專家系統(tǒng)等多個(gè)領(lǐng)域。在實(shí)際應(yīng)用中,可以細(xì)分為關(guān)聯(lián)模式、分類模式、聚類模式和序列模式等。 15 數(shù)據(jù)挖掘 ? 數(shù)據(jù)挖掘(D ata Mining) :又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),是基于AI、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析原有的數(shù)據(jù),進(jìn)行歸納性推理,從數(shù)據(jù)倉庫或數(shù)據(jù)庫中提取可信的、新穎的、有效的、人們感興趣的、能別人理解的知識的高級處理過程。 ? 發(fā)現(xiàn)每逢周末,位于某地區(qū)的沃爾瑪超市連鎖店的啤酒和尿布的銷售量很大,而且單張發(fā)票中同時(shí)購買尿布和啤酒的記錄非常普遍。 ? 如何有效使用數(shù)據(jù)庫中存儲的海量數(shù)據(jù)? 13 如何有效使用數(shù)據(jù)庫中存儲的海量數(shù)據(jù)? ? 數(shù)據(jù)挖掘就是從大量的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又可能有用的信息和知識的過程。 ? 復(fù)雜分析的高性能體現(xiàn):涉及大量數(shù)據(jù)的聚集、綜合等,在進(jìn)行復(fù)雜查詢時(shí)經(jīng)常會使用多表的聯(lián)接、累計(jì)、分類、排序等操作。 ? OLAP從數(shù)據(jù)倉庫中的綜合數(shù)據(jù)出發(fā),提供面向分析的多維模型,并使用多維分析的方法從多個(gè)角度、多個(gè)層次對多維數(shù)據(jù)進(jìn)行分析,使決策者能夠以更加自然的方式來分析數(shù)據(jù)。 ? 數(shù)據(jù)倉庫是作為 DSS服務(wù)基礎(chǔ)的分析型 DB, 用來存放大容量的只讀數(shù)據(jù),為制定決策提供所需要的信息。 6 數(shù)據(jù)倉庫的我國的發(fā)展 ? 現(xiàn)狀:數(shù)據(jù)倉庫的概念已經(jīng)被國內(nèi)用戶接受多年,但在應(yīng)用方面的收效不理想 ? 原因: ? 現(xiàn)有的數(shù)據(jù)庫系統(tǒng)不健全,數(shù)據(jù)積累還不夠,無法提出決策支持需求; ? 缺乏能夠擔(dān)負(fù)規(guī)劃、設(shè)計(jì)、構(gòu)建和維護(hù)數(shù)據(jù)倉庫的重任的復(fù)合型人才; ? 沒很好使用數(shù)據(jù)倉庫前端工具
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1