freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘chappt課件-wenkub

2023-05-27 03:17:28 本頁(yè)面
 

【正文】 d IBM SGI 其他初創(chuàng)公司 提供預(yù)測(cè)性的信息 ?數(shù)據(jù)挖掘產(chǎn)業(yè)的一個(gè)持續(xù)趨勢(shì)是企業(yè)資源計(jì)劃( ERP)零售商和應(yīng)用服務(wù)提供者( ASP)的出現(xiàn)。 ? 這種知識(shí)可能是一個(gè)商業(yè)機(jī)構(gòu)獲得競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵。 ? DM的價(jià)值在于主動(dòng)搜尋產(chǎn)業(yè)發(fā)展趨勢(shì),并將這種理解提供給擁有大量信息的機(jī)構(gòu)。 ?什么是 ERP? 數(shù)據(jù)挖掘工具及解決方案 ?數(shù)據(jù)挖掘可以沿三條譜線追溯 ? 經(jīng)典統(tǒng)計(jì)學(xué)(基礎(chǔ)) ? 回歸分析、正態(tài)分布、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)方差、聚類分析和置信區(qū)間等概念,主要用于研究數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,這些都是最基本的構(gòu)件塊,可以用來(lái)構(gòu)建更高級(jí)的統(tǒng)計(jì)分析。 ? 關(guān)注數(shù)據(jù)清理和預(yù)處理 ? 集成了數(shù)據(jù)處理及可視化表示等功能 ? Clementine、 Mineset、 Intelligent Miner ? 第三代:基于應(yīng)用和解決方案的從生產(chǎn)到銷售全過(guò)程的數(shù)據(jù)挖掘, 20世紀(jì) 90年代。后來(lái)得到歐共體研究基金的支助。例如,商業(yè)理解是數(shù)據(jù)挖掘過(guò)程的第一個(gè)階段。 ? 流程實(shí)例:流程實(shí)例是最低層次的任務(wù),包括行動(dòng)記錄、決策和實(shí)際數(shù)據(jù)挖掘的結(jié) 果。 ? 為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持 ?數(shù)據(jù)倉(cāng)庫(kù)區(qū)別于其他數(shù)據(jù)存儲(chǔ)系統(tǒng) ? “數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門(mén)的決策過(guò)程 .”—W. H. Inmon 數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征一 —— 面向主題 ?面向主題,是數(shù)據(jù)倉(cāng)庫(kù)顯著區(qū)別于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的一個(gè)特征 ? 圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品等 ? 關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理。 ? 確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。 ? 數(shù)據(jù)倉(cāng)庫(kù) :從歷史的角度提供信息(比如過(guò)去 510 年) ? 數(shù)據(jù)倉(cāng)庫(kù)中的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素,而操作數(shù)據(jù)庫(kù)中的關(guān)鍵結(jié)構(gòu)可能就不包括時(shí)間元素。它由 維 和事實(shí) 定義 ? 維 是關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)。 0維方體存放最高層的匯總,稱作 頂點(diǎn)方體 ;而存放最底層匯總的方體則稱為 基本方體 。 ? 雪花模式( Snowflake schema) : 是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加表中。 ? 比如: count(), sum(), min(), max()等 ? 代數(shù)的 (algebraic):函數(shù)可以由一個(gè)帶 M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算(M為有界整數(shù)),而每個(gè)參數(shù)值都可以有一個(gè)分布的聚集函數(shù)求得。 ?多維數(shù)據(jù)模型(數(shù)據(jù)立方體)使得從不同的角度對(duì)數(shù)據(jù)進(jìn)行觀察成為可能,而概念分層則提供了從不同層次對(duì)數(shù)據(jù)進(jìn)行觀察的能力;結(jié)合這兩者的特征,我們可以在多維數(shù)據(jù)模型上定義各種 OLAP操作,為用戶從不同角度不同層次觀察數(shù)據(jù)提供了靈活性: 多維數(shù)據(jù)模型上的 OLAP操作 (1) ? 上卷 (rollup):匯總數(shù)據(jù) ? 通過(guò)一個(gè)維的概念分層向上攀升或者通過(guò)維規(guī)約 ? 當(dāng)用維歸約進(jìn)行上卷時(shí),一個(gè)或多個(gè)維由給定的數(shù)據(jù)立方體刪除 ? 下鉆 (drilldown):上卷的逆操作 ? 由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),可以通過(guò)沿維的概念分層向下或引入新的維來(lái)實(shí)現(xiàn) (為給定數(shù)據(jù)添加更多細(xì)節(jié) ) ? 切片和切塊 (slice and dice) ? 切片操作在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行選擇,導(dǎo)致一個(gè)子方 ? 切塊操作通過(guò)對(duì)兩個(gè)或多個(gè)維進(jìn)行選擇,定義子方 多維數(shù)據(jù)模型上的 OLAP操作 (1) 多維數(shù)據(jù)模型上的 OLAP操作 (2) ? 轉(zhuǎn)軸 (pivot) ? 立方體的重定位,可視化,或?qū)⒁粋€(gè) 3維立方體轉(zhuǎn)化為一個(gè) 2維平面序列 ? 轉(zhuǎn)軸是一種 可視化 操作,通過(guò)轉(zhuǎn)動(dòng)當(dāng)前數(shù)據(jù)的視圖來(lái)提供一個(gè)數(shù)據(jù)的替代表示 ? 其他 OLAP操作 ? 鉆過(guò) (drill_across):執(zhí)行涉及多個(gè)事實(shí)表的查詢 ? 鉆透 (drill_through):使用關(guān)系 SQL機(jī)制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表 ? 其他 OLAP操作可能包括列出表中最高或最低的 N項(xiàng),以及計(jì)算移動(dòng)平均值、增長(zhǎng)率、利潤(rùn)、統(tǒng)計(jì)函數(shù)等等 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì):一個(gè)商務(wù)分析框架 (1) ?數(shù)據(jù)倉(cāng)庫(kù)給商業(yè)分析專家提供了什么? ? 通過(guò)提供相關(guān)數(shù)據(jù)與信息,獲得競(jìng)爭(zhēng)優(yōu)勢(shì) ? 通過(guò)有效的收集精確的描述組織的數(shù)據(jù),獲得生產(chǎn)力的提高 ? 通過(guò)提供不同級(jí)別(部門(mén)、市場(chǎng)、商業(yè))的客戶視圖,協(xié)助客戶關(guān)系管理 ? 通過(guò)追蹤長(zhǎng)期趨勢(shì)、異常等,降低成本 ?有效構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵:理解和分析商業(yè)需求 ? 通過(guò)提供一個(gè)商業(yè)分析框架,綜合各種不同的數(shù)據(jù)使用者的視圖 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì):一個(gè)商務(wù)分析框架 (2) ?數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的四種視圖 ? 自頂向下視圖 ? 允許我們選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信息 ? 數(shù)據(jù)源視圖 ? 揭示被操作數(shù)據(jù)庫(kù)系統(tǒng)所捕獲、存儲(chǔ)和管理的信息 ? 數(shù)據(jù)倉(cāng)庫(kù)視圖 ? 由事實(shí)表和維表所組成 ? 商務(wù)查詢視圖 ? 從最終用戶的角度透視數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì):一個(gè)商務(wù)分析框架 (3) ?數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建與使用涉及多種技能 ? 商業(yè)技能 ? 理解系統(tǒng)如何存儲(chǔ)和管理數(shù)據(jù) ? 數(shù)據(jù)如何提取 ? 數(shù)據(jù)如何刷新 ? 技術(shù)方面的技能 ? 如何通過(guò)使用各種數(shù)據(jù)或量化的信息,到可以提供決策支持的模式、趨勢(shì)、判斷等 ? 如何通過(guò)審查歷史數(shù)據(jù),分析發(fā)展趨勢(shì)等 ? 計(jì)劃管理技能 ? 如何通過(guò)與不同的技術(shù)、廠商、用戶交互,來(lái)及時(shí)、有效、經(jīng)濟(jì)的提交結(jié)果 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)過(guò)程 (1) ?自頂向下法、自底向上法或者兩者的混合方法 ? 自頂向下法:由總體設(shè)計(jì)和規(guī)劃開(kāi)始 ? 在技術(shù)成熟、商業(yè)理解透徹的情況下使用 ? 自底向上法:以實(shí)驗(yàn)和原型開(kāi)始 ? 常用在模型和技術(shù)開(kāi)發(fā)的初期,可以有效的對(duì)使用的技術(shù)和模型進(jìn)行評(píng)估,降低風(fēng)險(xiǎn) ? 混合方法:上述兩者的結(jié)合 ?從軟件過(guò)程的觀點(diǎn) ? 瀑布式方法:在進(jìn)行下一步前,每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析 ? 螺旋式方法:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間間隔很短 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)過(guò)程 (2) ?典型的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程 ? 選取待建模的 商務(wù)過(guò)程 ? 找到所構(gòu)建的數(shù)據(jù)倉(cāng)庫(kù)的主題,比如:銷售、貨運(yùn)、訂單等等 ? 選取商務(wù)過(guò)程的 顆粒度 ? 數(shù)據(jù)起始于多細(xì)的顆粒度,比如:記錄每條詳細(xì)訂單,或是開(kāi)始于每日的匯總數(shù)據(jù) ? 選取用于每個(gè)事實(shí)表記錄的 維 ? 常用的維有:時(shí)間、貨物、客戶、供應(yīng)商等 ? 選取將安放在事實(shí)表中的 度量 ? 常用的數(shù)字度量包括:售價(jià)、貨物數(shù)量等 三層數(shù)據(jù)倉(cāng)庫(kù)架構(gòu) (1) 數(shù)據(jù)倉(cāng)庫(kù) 提取 清理 轉(zhuǎn)換 裝入 刷新 OLAP服務(wù)器 查詢報(bào)告 分析 數(shù)據(jù)挖掘 監(jiān)控、 整合 元數(shù)據(jù) 存儲(chǔ) 數(shù)據(jù)源 前端工具 輸出 數(shù)據(jù)集市 操作數(shù)據(jù)庫(kù) 其他外部信息源 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器 OLAP服務(wù)器 三層數(shù)據(jù)倉(cāng)庫(kù)架構(gòu) (2) ?底層:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)服務(wù)器 ? 關(guān)注的問(wèn)題:如何從這一層提取數(shù)據(jù)來(lái)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)(通過(guò) Gateway( ODBC,JDBC,OLE/DB等)來(lái)提取) ?中間層: OLAP服務(wù)器 ? 關(guān)注的問(wèn)題: OLAP服務(wù)器如何實(shí)施(關(guān)系型OLAP,多維 OLAP等) ?前端客戶工具層 ? 關(guān)注的問(wèn)題:查詢工具、報(bào)表工具、分析工具、挖掘工具等 三種數(shù)據(jù)倉(cāng)庫(kù)模型 ?從體系結(jié)構(gòu)的角度去看,數(shù)據(jù)倉(cāng)庫(kù)模型可以有以下三種: ? 企業(yè)倉(cāng)庫(kù) ? 搜集關(guān)于跨越整個(gè)組織的主題的所有信息 ? 數(shù)據(jù)集市 ? 企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的客戶是有用的??梢詢?yōu)化訪問(wèn)單元組的次序,使得每個(gè)單元被訪問(wèn)的次數(shù)最小化,從而減少內(nèi)存訪問(wèn)和磁盤(pán) I/O的開(kāi)銷。 數(shù)據(jù)倉(cāng)庫(kù)后端工具和程序 ?數(shù)據(jù)倉(cāng)庫(kù)后端工具主要指的是用來(lái)裝入和刷新數(shù)據(jù)的工具,包括: ? 數(shù)據(jù)提?。? ? 從多個(gè)外部的異構(gòu)數(shù)據(jù)源收集數(shù)據(jù) ? 數(shù)據(jù)清理 ? 檢測(cè)數(shù)據(jù)種的錯(cuò)誤并作可能的訂正 ? 數(shù)據(jù)變換 ? 將數(shù)據(jù)由歷史或主機(jī)的格式轉(zhuǎn)化為數(shù)據(jù)倉(cāng)庫(kù)的格式 ? 裝載 ? 排序、匯總、合并、計(jì)算視圖,檢查完整性,并建立索引和分區(qū) ? 刷新 ? 將數(shù)據(jù)源的更新傳播到數(shù)據(jù)倉(cāng)庫(kù)中 數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用 ?數(shù)據(jù)倉(cāng)庫(kù)的三種應(yīng)用 ? 信息處理 ? 支持查詢和基本的統(tǒng)計(jì)分析,并使用交叉表、表、圖標(biāo)和圖進(jìn)行報(bào)表處理 ? 分析處理 ? 對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行多維數(shù)據(jù)分析 ? 支持基本的 OLAP操作,切塊、切片、上卷、下鉆、轉(zhuǎn)軸等 ? 數(shù)據(jù)挖掘 ? 從隱藏模式中發(fā)現(xiàn)知識(shí) ? 支持關(guān)聯(lián)分析,構(gòu)建分析性模型,分類和預(yù)測(cè),并用可視化工具呈現(xiàn)挖掘的結(jié)果 ?三種應(yīng)用間的差別 DSS和數(shù)據(jù)倉(cāng)庫(kù)與 DM工具的集成 ?識(shí)別和利用隱藏在數(shù)據(jù)中信息的目標(biāo)有三個(gè)要求: ? 捕獲的數(shù)據(jù)必須集成到企業(yè)范圍的視圖,而不是特定的視圖 ? 必須提取包含在集成的數(shù)據(jù)中的信息 ? 必須以有利于制定決策的方式組織得到的信息 ?數(shù)據(jù)處理與數(shù)據(jù)挖掘的步驟: ? 數(shù)據(jù)選擇 ? 數(shù)據(jù)變換 ? 挖掘數(shù)據(jù) ? 解釋結(jié)果 從聯(lián)機(jī)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1