freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘概念與技術(shù)引言(更新版)

  

【正文】 ? 全物化 :需要海量存儲(chǔ)空間 ,存放所有預(yù)先計(jì)算的方體 . ? 部分物化 :在存儲(chǔ)空間和響應(yīng)時(shí)間二者之間提供了很好的折衷 . 多路數(shù)組聚集 ? 將數(shù)組分成塊 ,塊的大小能夠放入立方體計(jì)算時(shí)可用的內(nèi)存 . ? 通過(guò)訪問(wèn)立方體單元進(jìn)行聚集 ,使得每個(gè)單元必須重新訪問(wèn)的次數(shù)最小化 . 索引 OLAP數(shù)據(jù) ? 位圖索引 :如圖 317所示 ,與散列和樹(shù)索引相比 ,位圖索引將比較 ,連接和聚集都變成了位算術(shù)運(yùn)算 ,大大減少了運(yùn)行時(shí)間 . ? 連接索引 :源于關(guān)系數(shù)據(jù)庫(kù)的查詢處理 . ? 位圖連接索引 :將連接索引和位圖索引集成 . OLAP查詢的有效處理 ? 確定那些操作應(yīng)當(dāng)在可利用的方體上執(zhí)行 ,這涉及將查詢中的選擇投影上卷下鉆操作轉(zhuǎn)換成對(duì)應(yīng)的 SQL或 OLAP操作 . ? 確定相關(guān)操作應(yīng)當(dāng)使用哪些物化的方體 ,這涉及到找出可能用于查詢的所有物化方體 . 具體步驟 ? 考察的方體必須與查詢具有相同的維集合 ,或是它的超集 . ? 選擇代價(jià)最小的方體 . 元數(shù)據(jù)存儲(chǔ) 元數(shù)據(jù)是定義數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的數(shù)據(jù) .元數(shù)據(jù) 的存儲(chǔ)包括 ? 數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述 ? 對(duì)元數(shù)據(jù)的操作 ? 匯總用的算法 ? 由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射 ? 關(guān)于系統(tǒng)性能的數(shù)據(jù) ? 商務(wù)元數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)后端工具 ? 數(shù)據(jù)提取 :從多個(gè)異種的外部數(shù)據(jù)源收集數(shù)據(jù) . ? 數(shù)據(jù)清理 :檢測(cè)錯(cuò)誤 ,可能時(shí)修改錯(cuò)誤 . ? 數(shù)據(jù)變換 :將數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)格式 . ? 裝入 :排序 ,綜合 ,合并 ,計(jì)算視圖 ,檢查整體性 ,并建立索引和劃分 . ? 刷新 :傳播由數(shù)據(jù)源到數(shù)據(jù)倉(cāng)庫(kù)的更新 . 數(shù)據(jù)倉(cāng)庫(kù)的維護(hù) ? 系統(tǒng)維護(hù):是在系統(tǒng)已經(jīng)交付使用之后為了改正錯(cuò)誤和為了滿足新的需要而修改系統(tǒng)的過(guò)程。事務(wù)型處理的應(yīng)用程序和數(shù)據(jù)是緊緊圍繞著所管理的事件來(lái)構(gòu)造的。因此,數(shù)據(jù)倉(cāng)庫(kù)的功能是支持管理層進(jìn)行科學(xué)決策,而不是事務(wù)處理。經(jīng)過(guò)數(shù)據(jù)集成后,數(shù)據(jù)倉(cāng)庫(kù)所提供的信息比數(shù)據(jù)庫(kù)提供的信息更概括、更本質(zhì)。 ? 數(shù)據(jù)倉(cāng)庫(kù)是與操作型系統(tǒng)相分離的、基于標(biāo)準(zhǔn)企業(yè)模型集成的、帶有時(shí)間屬性的、面向主題及不可更新的數(shù)據(jù)集合。 ; ? Oracle公司 : 則推出從數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建、 OLAP到數(shù)據(jù)集市管理等一系列產(chǎn)品包(如 Oracle Warehouse Builder、 Oracle Express、 DataMart Suit等)。 ? IBM的實(shí)驗(yàn)室在數(shù)據(jù)倉(cāng)庫(kù)方面已經(jīng)進(jìn)行了 10多年的研究,并將研究成果發(fā)展成為商用產(chǎn)品。 Advanced Scout是一個(gè)數(shù)據(jù)分析工具,教練可以用便攜式電腦在家里或在路上挖掘存儲(chǔ)在 NBA中心的服務(wù)器上的數(shù)據(jù)。 59 數(shù)據(jù)挖掘解決的典型商業(yè)問(wèn)題 ? 數(shù)據(jù)挖掘技術(shù)從一開(kāi)始就是面向應(yīng)用的,尤其是在如銀行、電信、保險(xiǎn)、交通、零售(如超級(jí)市場(chǎng))等商業(yè)領(lǐng)域。許多問(wèn)題可以用線性回歸方法解決,而更多的問(wèn)題則可以對(duì)變量進(jìn)行變換,使得非線性的問(wèn)題轉(zhuǎn)換為線性的問(wèn)題加以處理。 ? 約略集理論用于屬性化簡(jiǎn)及其規(guī)則篩選:減少數(shù)據(jù)庫(kù)系統(tǒng)中的冗余屬性,提高數(shù)據(jù)庫(kù)中所隱含知識(shí)的可理解性。 51 約略集- 上近似與下近似 ? 約略集的基本觀點(diǎn):用一個(gè)二元關(guān)系來(lái)建構(gòu)集合的近似。 ? 約略集方法與使用統(tǒng)計(jì)學(xué)方法或模糊集合論方法處理不精確數(shù)據(jù)的方法不同,它是以對(duì)觀察和測(cè)量所得數(shù)據(jù)進(jìn)行分類(lèi)的能力為基礎(chǔ)的,為智能信息處理提供了有效的理論基礎(chǔ)和處理技術(shù)。 45 信息論方法 ? 信息論是研究信息的測(cè)度及其性質(zhì)、信息傳輸和信息處理系統(tǒng)的一般規(guī)律的學(xué)科分支。 ? 生物進(jìn)化是非常復(fù)雜的,它將涉及諸如染色體、脫氧核糖核酸、遺傳因子、種群、基因、進(jìn)化、選擇、復(fù)制、交叉、變異、編碼與解碼等許多名詞術(shù)語(yǔ),而且許多現(xiàn)象尚無(wú)法用現(xiàn)有的進(jìn)化理論來(lái)解釋。 41 生物學(xué)方法- 遺傳算法 ? 遺傳算法( Geic Algorithms,簡(jiǎn)記為 GI):是一種借鑒生物界自然選擇和進(jìn)化機(jī)制發(fā)展起來(lái)的高度并行、隨機(jī)、自適應(yīng)搜索算法。神經(jīng)網(wǎng)絡(luò)并非使用編程的方式讓計(jì)算機(jī)去做某項(xiàng)工作,而是采用所謂 “ 訓(xùn)練 ” 的方法讓神經(jīng)網(wǎng)絡(luò)進(jìn)行 “ 學(xué)習(xí) ” 。 37 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)- 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù) ? 該部分位于數(shù)據(jù)服務(wù)器端,包括數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、文件系統(tǒng)、其他數(shù)據(jù)源以及存放經(jīng)過(guò)數(shù)據(jù)準(zhǔn)備提取和集成后數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)。 ? Web結(jié)構(gòu)挖掘:是挖掘 Web的鏈接結(jié)構(gòu),并找出關(guān)于某一主題的權(quán)威網(wǎng)站。T股票連續(xù)上漲兩天且 DEC股票不下跌,則第三天 IBM股票上漲的可能性為 75%”的數(shù)據(jù)關(guān)系。相似的程度可以通過(guò)距離函數(shù)來(lái)表示,由用戶或?qū)<抑付ā? ? 關(guān)聯(lián)分析算法: APRIORI算法、 DHP算法、 DIC算法、PARTITION算法及它們的各種改進(jìn)算法等。 ? 運(yùn)用知識(shí)有兩種方法:一種是只需看知識(shí)本身所描述的關(guān)系或結(jié)果,就可以對(duì)決策提供支持;另一種是要求運(yùn)用知識(shí)對(duì)新的數(shù)據(jù)進(jìn)行分析,由此可能產(chǎn)生新的問(wèn)題,而需要對(duì)知識(shí)作進(jìn)一步的優(yōu)化。 21 DM系統(tǒng)的體系結(jié)構(gòu) ( 1) DW 的步驟: ?數(shù)據(jù)準(zhǔn)備: ?數(shù)據(jù)集成 ?數(shù)據(jù)選擇 ?預(yù)分析 ?挖掘 ?表述 ?評(píng)價(jià) ( 2) DW 系統(tǒng)的結(jié)構(gòu): 用戶界面 結(jié)果輸出 數(shù)據(jù)挖掘核心 知識(shí)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)庫(kù) 文件系統(tǒng) 其他 數(shù)據(jù)源 ODBC或其他專用數(shù)據(jù)庫(kù)接口 22 ? 數(shù)據(jù)準(zhǔn)備階段:經(jīng)過(guò)處理過(guò)的數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。因此,將數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘集成到一個(gè)系統(tǒng)中將能夠更有效地提高系統(tǒng)的決策支持能力。 ? 從上面的例子不難看出,數(shù)據(jù)管理的主要目的是獲取信息和分析信息以指導(dǎo)我們的行動(dòng)或幫助我們作決策。 12 ? 隨著數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)量急劇增大,在大量的數(shù)據(jù)背后隱藏著許多重要的信息。 9 數(shù)據(jù)倉(cāng)庫(kù)的適用范圍 ? 信息源中的數(shù)據(jù)變化穩(wěn)定 ? 或可預(yù)測(cè)應(yīng)用不需要最新的數(shù)據(jù) ? 或允許有延遲 應(yīng)用要求有較高的查詢性能 而降低精度要求 10 支持管理決策 ? 數(shù)據(jù)倉(cāng)庫(kù)支持 OLAP(聯(lián)機(jī)分析處理)、數(shù)據(jù)挖掘和決策分析。 ; ? Oracle公司 : 則推出從數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建、 OLAP到數(shù)據(jù)集市管理等一系列產(chǎn)品包(如 Oracle Warehouse Builder、 Oracle Express、 DataMart Suit等)。 ? IBM的實(shí)驗(yàn)室在數(shù)據(jù)倉(cāng)庫(kù)方面已經(jīng)進(jìn)行了 10多年的研究,并將研究成果發(fā)展成為商用產(chǎn)品。 ? 近年來(lái):數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)從功能上劃分為若干個(gè)分布式對(duì)象,可以直接用于建立數(shù)據(jù)倉(cāng)庫(kù),還可以在應(yīng)用程序中向用戶提供調(diào)用的接口。Trees(前端報(bào)表工具)構(gòu)成的一套較有特色的整體方案。 ? :數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合,用以支持管理決策的過(guò)程。 ? 對(duì)進(jìn)行高層決策的最終用戶的界面支持:提供各種分析應(yīng)用工具。 ? 得出這樣的結(jié)果后,沃爾瑪超市的工作人員嘗試著將啤酒和尿布擺放在一起銷(xiāo)售,結(jié)果尿布與啤酒的銷(xiāo)售額雙雙增長(zhǎng)。它們都可以完成對(duì)決策過(guò)程的支持,并且相互間有一定的內(nèi)在聯(lián)系。 ? 國(guó)內(nèi)在這方面的研究起步比較晚,早期研究的方向多集中于關(guān)聯(lián)規(guī)則的挖掘,近來(lái)關(guān)于時(shí)序模式、分類(lèi)、聚類(lèi)、 WEB數(shù)據(jù)挖掘等的研究也日益受到重視,并取得了不少可喜的成果,一些原型系統(tǒng)或數(shù)據(jù)挖掘工具已經(jīng)研制成功并在不斷完善中。同時(shí)還要對(duì)知識(shí)進(jìn)行一致性檢查,解決與以前得到的知識(shí)互相沖突、矛盾的地方,使知識(shí)得到鞏固。它廣泛地運(yùn)用于幫助市場(chǎng)導(dǎo)向、商品目錄設(shè)計(jì)客戶關(guān)系管理)( CRM)和其他各種商業(yè)決策過(guò)程中。 ? 分類(lèi)分析的常用方法: ? 約略( Rough)集 ? 決策樹(shù) ? 神經(jīng)網(wǎng)絡(luò) ? 統(tǒng)計(jì)分析法 30 聚類(lèi)分析 ? 聚類(lèi) (Clustering)分析:聚類(lèi)是指一組彼此間非常 “ 相似 ” 的數(shù)據(jù)對(duì)象的集合。 ? 例如,它可以導(dǎo)出類(lèi)似 “ 若 ATamp。捕捉用戶的存取模式或發(fā)現(xiàn)一個(gè) Web網(wǎng)站最頻繁的訪問(wèn)路徑稱為 Web使用模式挖掘或 Web路徑挖掘。 ? 該部分由一系列功能模塊組成,分別用于關(guān)聯(lián)規(guī)則挖掘、分類(lèi)規(guī)則挖掘、聚類(lèi)規(guī)則挖掘、時(shí)序與序列數(shù)據(jù)挖掘和 WEB數(shù)據(jù)挖掘等。 ? 在人工神經(jīng)網(wǎng)絡(luò)中,用計(jì)算機(jī)處理單元來(lái)模擬人腦的神經(jīng)元,并將這些處理單元象人腦的神經(jīng)元那樣互相連接起來(lái),構(gòu)成一個(gè)網(wǎng)絡(luò)。 ? 自組織網(wǎng)絡(luò):以 ART模型、 Koholon模型為代表,用于聚類(lèi)。 ? 達(dá)爾文提出了用自然選擇來(lái)解釋生物的進(jìn)化過(guò)程,該學(xué)說(shuō)包括遺傳、變異、生存斗爭(zhēng)和適者生存三個(gè)方面。 ? 遺傳算法提供了一種求解復(fù)雜系統(tǒng)優(yōu)化問(wèn)題的通用框架,它不依賴于問(wèn)題的具體領(lǐng)域,因此可以應(yīng)用于函數(shù)優(yōu)化、組合優(yōu)化、生產(chǎn)調(diào)度、自動(dòng)控制、機(jī)器人智能控制、圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等眾多領(lǐng)域。 47 集合論方法-約略集 ? 約略集( Rough Set)又稱為粗糙集和粗集,是由波蘭華沙理工大學(xué) Z . Pawlak教授等提出的研究不完整數(shù)據(jù)、不精確知識(shí)的表達(dá)、學(xué)習(xí)和歸納的理論與方法。 50 精確集與約略集 ? 令 U是全域, X?U,若 X是任意基本集的并,則 X是 R(區(qū)分關(guān)系) 可定義的,否則是 R不可定義的; R可定義集也稱作 R精確集( R Exact Sets),它在 U的知識(shí)庫(kù)中可以被定義,而 R不可定義集不能在該知識(shí)庫(kù)中定義,稱為 R非精確集( R Inexact Sets)或 R約略集( R Rough Sets)。 ? 約略集理論用于特征歸約和相關(guān)分析:找出描述給定數(shù)據(jù)集中所有概念的最小屬性子集。連續(xù)值的預(yù)測(cè)可以使用統(tǒng)計(jì)學(xué)中的回歸統(tǒng)計(jì)技術(shù)建模,如線性回歸、多元回歸、非線性回歸、廣義線性回歸(對(duì)數(shù)回歸、泊松回歸等)。例如,把數(shù)據(jù)倉(cāng)庫(kù)中的多維數(shù)據(jù)或者把由數(shù)據(jù)挖掘獲得的模式和規(guī)則變成多種圖形,這對(duì)揭示數(shù)據(jù)的狀況、內(nèi)在本質(zhì)及規(guī)律性起到了重要的作用。大約 20個(gè) NBA球隊(duì)使用了 IBM公司開(kāi)發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout系統(tǒng)來(lái)優(yōu)化他們的戰(zhàn)術(shù)組合。近年來(lái)分布式對(duì)象技術(shù)飛速發(fā)展,整個(gè)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)從功能上劃分為若干個(gè)分布式對(duì)象,這些分布式對(duì)象不僅可以直接用于建立數(shù)據(jù)倉(cāng)庫(kù),還可以在應(yīng)用程序中向用戶提供調(diào)用的接口。Trees(前端報(bào)表工具)構(gòu)成的一套較有特色的整體方案。 ? 數(shù)據(jù)倉(cāng)庫(kù)是作為 DSS服務(wù)基礎(chǔ)的分析型 DB, 用來(lái)存放大容量的只讀數(shù)據(jù),為制定決策提供所需要的信息。因此,數(shù)據(jù)倉(cāng)庫(kù)在提取數(shù)據(jù)時(shí)必須經(jīng)過(guò)數(shù)據(jù)集成,消除源數(shù)據(jù)中的矛盾,并進(jìn)行數(shù)據(jù)綜合和計(jì)算。數(shù)據(jù)挖掘則以數(shù)據(jù)倉(cāng)庫(kù)和多維數(shù)據(jù)庫(kù)中的數(shù)據(jù)為基礎(chǔ),發(fā)現(xiàn)數(shù)據(jù)中的潛在模式和進(jìn)行預(yù)測(cè)。它是事件驅(qū)動(dòng)、面向應(yīng)用的,通常是對(duì)一個(gè)或一組記錄的增、刪、改以及簡(jiǎn)單查詢等。分析型處理過(guò)程中經(jīng)常用到外部數(shù)據(jù),這部分?jǐn)?shù)據(jù)不是由事務(wù)型處理系統(tǒng)產(chǎn)生的,而是來(lái)自于其他外部數(shù)據(jù)
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1