freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用第1章(完整版)

  

【正文】 盡管數(shù)據(jù)庫(kù)在事務(wù)處理方面的應(yīng)用獲得了巨大的成功 , 但它對(duì)分析處理的支持一直不能令人滿意 , 這也正是產(chǎn)生 “ 蜘蛛網(wǎng) ” 問(wèn)題的原因之所在 。因此要想比較完整地回答這個(gè)問(wèn)題,實(shí)際上需要將客戶多方面的數(shù)據(jù)綜合成信息。可見(jiàn),面對(duì)企業(yè)中存在的蜘蛛網(wǎng)現(xiàn)象,為產(chǎn)生一份關(guān)于公司整體運(yùn)營(yíng)情況的報(bào)表,將動(dòng)用大量的人力、物力和時(shí)間才能完成。市場(chǎng)部門(mén)使用的分析程序可能與計(jì)劃部門(mén)不同,分析的內(nèi)容和指標(biāo)也可能不同。比如,市場(chǎng)部抽取的是項(xiàng)目 I在大客戶中的應(yīng)用情況,而計(jì)劃部抽取的是項(xiàng)目 I在普通客戶中的應(yīng)用情況。 隨著數(shù)據(jù)的逐層抽取 , 很可能最終導(dǎo)致系統(tǒng)內(nèi)的數(shù)據(jù)間形成了錯(cuò)綜復(fù)雜的網(wǎng)狀結(jié)構(gòu) , 如圖 , 人們形象地稱為“ 蜘蛛網(wǎng) ” 。 為滿足管理人員的決策分析需要 , 就需要在數(shù)據(jù)庫(kù)的基礎(chǔ)上產(chǎn)生適應(yīng)決策分析的數(shù)據(jù)環(huán)境 ——數(shù)據(jù)倉(cāng)庫(kù)( Data Warehose) 。 4 蜘蛛網(wǎng)問(wèn)題( 1) 在市場(chǎng)經(jīng)濟(jì)的激烈競(jìng)爭(zhēng)中 , 信息對(duì)于企業(yè)的生存和發(fā)展起著至關(guān)重要的作用 。 一個(gè)大型的公司每天進(jìn)行上萬(wàn)次的數(shù)據(jù)抽取很普遍 。 蜘蛛網(wǎng)問(wèn)題( 4) 8 其次,可能兩部門(mén)抽取數(shù)據(jù)的時(shí)間不同。 蜘蛛網(wǎng)問(wèn)題( 5) 9 外部市場(chǎng)信息 A 外部市場(chǎng)信息 B 外部市場(chǎng)信息 C 外部信息的不同 企業(yè)級(jí) 數(shù)據(jù) 庫(kù) 市場(chǎng)部 計(jì)劃部 抽取數(shù)據(jù)的內(nèi)容不同 星期日晚 星期三下午 抽取數(shù)據(jù)的時(shí)間不同 分析程序 1 分析程序 2 分析程序和分析內(nèi)容不同 分析結(jié)果 1 :項(xiàng)目 I市場(chǎng)前景很好 分析結(jié)果 2 :項(xiàng)目 I沒(méi)有市場(chǎng)前景 圖 兩個(gè)分析結(jié)果的差異 蜘蛛網(wǎng)問(wèn)題( 6) 10 2. 數(shù)據(jù)處理的效率很低 數(shù)據(jù)分析的結(jié)果缺乏可靠性并不是蜘蛛網(wǎng)問(wèn)題中唯一的主要問(wèn)題 。 如果低效率的過(guò)程是一次性的,那么為生成報(bào)表花費(fèi)大量的資源也是可取的。但“蜘蛛網(wǎng)”式的結(jié)構(gòu)中數(shù)據(jù)缺乏集成性,因此,對(duì)綜合信息需求的支持確實(shí)是不充分的。 因此 , 要解決“ 蜘蛛網(wǎng) ” 問(wèn)題 , 必須將用于事務(wù)處理的數(shù)據(jù)環(huán)境和用于分析處理的數(shù)據(jù)環(huán)境分離開(kāi) 。 事務(wù)處理和信息分析數(shù)據(jù)環(huán)境的劃分如圖 ?!保ā?A data warehouse is a subjectoriented, integrated, nonvolatile, timevariant collection of data in support of management decisions.”) 對(duì)于什么是數(shù)據(jù)倉(cāng)庫(kù),還有許多不同的定義,如: “數(shù)據(jù)倉(cāng)庫(kù)是融合方法、技術(shù)和工具以在完整的平臺(tái)上將數(shù)據(jù)提交給終端用戶的一種手段”。所謂較高層次是相對(duì)面向應(yīng)用的數(shù)據(jù)組織方式而言的,是指按照主題進(jìn)行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級(jí)別 面向主題( 1) 20 收益數(shù)據(jù) 客戶數(shù)據(jù) 計(jì) 費(fèi) 數(shù) 據(jù) 庫(kù) 財(cái) 務(wù) 數(shù) 據(jù) 庫(kù) 客 戶 服 務(wù) 數(shù) 據(jù) 庫(kù) 傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng) 面 向 主 題 的 數(shù) 據(jù) 倉(cāng) 庫(kù) 圖 1. 4 數(shù)據(jù)倉(cāng)庫(kù)面向主題的特性 面向主題( 2) 21 例如在圖 , 我們示例了一個(gè)電信企業(yè)的情況 。 客戶基本信息表 客戶呼叫記錄表 客戶話費(fèi)表 客戶咨詢表 客戶標(biāo)識(shí) 客戶姓名 客戶年齡 客戶地址 ? 客戶標(biāo)識(shí) 客戶呼叫時(shí)間 客戶呼叫地點(diǎn) 客戶呼叫號(hào)碼 呼叫時(shí)長(zhǎng) ? 客戶標(biāo)識(shí) 客戶本月總話費(fèi) 本月月租費(fèi) 本月通話費(fèi) 本月短信費(fèi) ? 客戶標(biāo)識(shí) 客戶咨詢內(nèi)容 咨詢答案 ? 圖 1 . 5 屬于相同主題域的數(shù)據(jù)集合使用相同的公共鍵碼連接 面向主題( 4) 23 數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)一般從企業(yè)原來(lái)已建立的數(shù)據(jù)庫(kù)系統(tǒng)中提取出來(lái),但并不是原有數(shù)據(jù)的簡(jiǎn)單拷貝,而是經(jīng)過(guò)了 抽取、篩選、清理、綜合等工作。 集成 24 業(yè)務(wù)系統(tǒng)一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫(kù)中一般也只存儲(chǔ)短期數(shù)據(jù),因此在數(shù)據(jù)庫(kù)系統(tǒng)中數(shù)據(jù)是不穩(wěn)定的,它記錄的是系統(tǒng)中數(shù)據(jù)變化的瞬態(tài)。 這種系統(tǒng)稱為聯(lián)機(jī)事務(wù)處理 ( OLTP) 系統(tǒng) 。 29 數(shù)據(jù)目標(biāo) :數(shù)據(jù)庫(kù)系統(tǒng)是面向業(yè)務(wù)操作 , 用于辦事員 、 客戶和信息技術(shù)專(zhuān)業(yè)人員的事務(wù)和查詢處理 。 兩個(gè)系統(tǒng)的主要區(qū)別( 3) 31 兩個(gè)系統(tǒng)的查詢支持不同 OLTP系統(tǒng)是為了快速回答簡(jiǎn)單查詢,而不是為了存儲(chǔ)分析趨勢(shì)的歷史數(shù)據(jù)而創(chuàng)建的。 37 查詢 / 報(bào)表 頂層:前端工具 中間層: O L A P 服務(wù)器 底層: 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器 源數(shù)據(jù) 外部數(shù)據(jù) 圖 1 . 8 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) O L A P 服務(wù)器 O L A P 服務(wù)器 輸出 元數(shù)據(jù)存儲(chǔ) 分析 數(shù)據(jù)挖掘 監(jiān)控 管理 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)集市 提取 清理 變換 裝入 刷新 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)( 2) 38 原則上,數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)被劃分為三層:數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器、 OLAP服務(wù)器和前端工具。 1. ETL( Extract/Transformation/Load) —數(shù)據(jù)抽取 、 轉(zhuǎn)換 、 加載工具 ETL工具就是進(jìn)行數(shù)據(jù)的抽取 、 轉(zhuǎn)換和加載 。 ( 3) 數(shù)據(jù)清洗( Data Clean) 由于企業(yè)常常為不同的應(yīng)用對(duì)象建立不同的業(yè)務(wù)數(shù)據(jù)庫(kù),比如一個(gè)電信運(yùn)營(yíng)公司擁有計(jì)費(fèi)數(shù)據(jù)庫(kù)、財(cái)務(wù)數(shù)據(jù)庫(kù)、客服數(shù)據(jù)庫(kù)、客戶投訴數(shù)據(jù)庫(kù)等業(yè)務(wù)系統(tǒng),這些業(yè)務(wù)系統(tǒng)中可能包含重復(fù)的信息,比如客服數(shù)據(jù)庫(kù)中的部分客戶基本信息也在客戶投訴數(shù)據(jù)庫(kù)中存在,由于不同的數(shù)據(jù)庫(kù)可能使用不同數(shù)據(jù)庫(kù)公司的產(chǎn)品,不同的業(yè)務(wù)系統(tǒng)可能由不同的軟件開(kāi)發(fā)商提供,這使得各個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)可能存在不一致現(xiàn)象。 所謂數(shù)據(jù)的 “ 凈化提煉 ” 就是對(duì)從多個(gè)不同業(yè)務(wù)數(shù)據(jù)庫(kù)所抽取的數(shù)據(jù) , 進(jìn)行數(shù)據(jù)項(xiàng)名稱的統(tǒng)一 、 位數(shù)的統(tǒng)一 、 編碼的統(tǒng)一和形式的統(tǒng)一 , 消除重復(fù)數(shù)據(jù) 。 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞( 4) 43 由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射信息 ,包括源數(shù)據(jù)庫(kù)和它們的內(nèi)容, ETL程序描述,數(shù)據(jù)分割、提取、清理和轉(zhuǎn)換的規(guī)則和缺省,數(shù)據(jù)刷新和裁減的規(guī)則以及數(shù)據(jù)安全信息(用戶授權(quán)和存取控制)。通常,數(shù)據(jù)倉(cāng)庫(kù)將建立專(zhuān)用的元數(shù)據(jù)庫(kù)來(lái)存放和管理元數(shù)據(jù)。 通常 , 數(shù)據(jù)集市可以在低價(jià)格的部門(mén)服務(wù)器上實(shí)現(xiàn) 。 它可以根據(jù)分析人員的要求 , 迅速靈活地對(duì)大量的數(shù)據(jù)進(jìn)行復(fù)雜的查詢處理 , 并以直觀的容易理解的形式將查詢結(jié)果提供給各種決策人員 , 使他們能夠迅速準(zhǔn)確地掌握企業(yè)的運(yùn)營(yíng)情況 , 了解市場(chǎng)的需求 。通過(guò)把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維 , 使用戶能從不同維對(duì)數(shù)據(jù)進(jìn)行分析比較 。 旋轉(zhuǎn)是變換維的方向 , 即在表格中重新安排維的放置 ( 例如行列互換 ) 。 進(jìn)行 OLAP分析時(shí) , 常常需要不同層次的數(shù)據(jù)粒度 ,因此可以通過(guò)預(yù)運(yùn)算將數(shù)據(jù)綜合成每個(gè)用戶每 “ 天 ” 的通話次數(shù) ,還可以進(jìn)一步聚合成每個(gè)用戶每 “ 月 ” 的通話次數(shù) ( 圖 所示 ) 。粒度可以分為兩種形式,一種是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的綜合程度高低的一個(gè)度量,它既影響數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的用途。 所謂數(shù)據(jù)分割是指將數(shù)據(jù)分散到各自的物理單元中以便能夠獨(dú)立處理 , 提高數(shù)據(jù)處理的效率 。 數(shù)據(jù)粒度與數(shù)據(jù)分割( 3) 57 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式( 1) 在數(shù)據(jù)倉(cāng)庫(kù)發(fā)展過(guò)程中,出現(xiàn)了多種不同的數(shù)據(jù)組織形式: 1. 簡(jiǎn)單堆積文件 簡(jiǎn)單堆積文件就是將每天由業(yè)務(wù)數(shù)據(jù)庫(kù)提取并處理后的數(shù)據(jù)逐天存儲(chǔ)起來(lái) , 如圖 。 “ 上海 ” 產(chǎn)的“ 鋼筆 ” 既在 2021/1購(gòu)買(mǎi) , 又在 2021/2購(gòu)買(mǎi) 。而數(shù)據(jù)追加解決的是數(shù)據(jù)倉(cāng)庫(kù)初始數(shù)據(jù)加載后,如何再向數(shù)據(jù)倉(cāng)庫(kù)輸入數(shù)據(jù)的問(wèn)題。 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加和清理 (2) 64 ( 2) 前后快照比較法 其思想很簡(jiǎn)單:將上次執(zhí)行完數(shù)據(jù)追加任務(wù)的當(dāng)前業(yè)務(wù)數(shù)據(jù)庫(kù)快照記錄下來(lái) , 同要執(zhí)行新的數(shù)據(jù)追加任務(wù)前的原先業(yè)務(wù)數(shù)據(jù)庫(kù)快照進(jìn)行比較 , 比較這兩次快照的不同 , 來(lái)生成追加的內(nèi)容 。我們可以通過(guò)分析數(shù)據(jù)庫(kù)系統(tǒng)日志來(lái)獲取數(shù)據(jù)變化的情況,得到追加內(nèi)容。在給出數(shù)據(jù)倉(cāng)庫(kù)的定義后,詳細(xì)闡述數(shù)據(jù)倉(cāng)庫(kù)面向主題、數(shù)據(jù)集成、數(shù)據(jù)穩(wěn)定、數(shù)據(jù)隨時(shí)間變化的基本特征。介紹數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)及數(shù)據(jù)倉(cāng)庫(kù)中 ETL、元數(shù)據(jù)、 OLAP等一系列重要的概念。 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加和清理 (4) 66 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清理與傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)中數(shù)據(jù)清理的含義有區(qū)別。 ( 3) DELTA文件法 “ DELTA文件法 ” 是一種從應(yīng)用程序來(lái)感知數(shù)據(jù)變化的方法 。要完成數(shù)據(jù)追加的工作,最關(guān)鍵的是“捕獲”數(shù)據(jù)變化,并將數(shù)據(jù)的變化記錄下來(lái)。 2 0 0 7 /1 采購(gòu)表 2 0 0 7 /2 采購(gòu)表 北京 帽子 4 昆明 水杯 2 上海 鋼筆 1 商品產(chǎn)地 商品名 商品編號(hào) 成都 帽子 4 廣州 毛巾 3 上海 鋼筆 1 商品產(chǎn)地 商品名 商品編號(hào) 圖 1 . 1 1 某商場(chǎng)的兩張采購(gòu)表
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1