freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用第1章(已修改)

2025-05-25 02:13 本頁面
 

【正文】 1 第一篇 數(shù)據(jù)倉庫與 OLAP 第一章 數(shù)據(jù)倉庫基本概念 2 第一章 目錄 ? 從數(shù)據(jù)庫到數(shù)據(jù)倉庫 ? 什么是數(shù)據(jù)倉庫 ? 數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的比較 ? 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu) ? 數(shù)據(jù)倉庫的數(shù)據(jù)組織 ? 本章小結(jié) 3 從數(shù)據(jù)庫到數(shù)據(jù)倉庫 傳統(tǒng)數(shù)據(jù)庫以及 OLTP ( OnLine Transaction Processing 聯(lián)機(jī)事務(wù)處理 ) 在日常的管理事務(wù)處理中獲得了巨大的成功 , 但是對(duì)管理人員的決策分析要求卻無法滿足 。 因?yàn)?, 管理人員常常希望能夠通過對(duì)組織中的大量數(shù)據(jù)進(jìn)行分析 , 了解業(yè)務(wù)的發(fā)展趨勢 。 而傳統(tǒng)數(shù)據(jù)庫只保留了當(dāng)前的業(yè)務(wù)處理信息 , 缺乏決策分析所需要的大量的歷史信息 。 為滿足管理人員的決策分析需要 , 就需要在數(shù)據(jù)庫的基礎(chǔ)上產(chǎn)生適應(yīng)決策分析的數(shù)據(jù)環(huán)境 ——數(shù)據(jù)倉庫( Data Warehose) 。 4 蜘蛛網(wǎng)問題( 1) 在市場經(jīng)濟(jì)的激烈競爭中 , 信息對(duì)于企業(yè)的生存和發(fā)展起著至關(guān)重要的作用 。 企業(yè)對(duì)信息的需求是多方面的 ,為了避免企業(yè)中各部門或各用戶間的沖突和簡化用戶的數(shù)據(jù)視圖 , 一種稱作 “ 抽取程序 ” 的方法被廣泛地應(yīng)用 。 比如 , 市場部人員通常只關(guān)心企業(yè)的銷售 、 市場策劃方面的信息 , 而不注重企業(yè)的研發(fā) 、 生產(chǎn)等其他環(huán)節(jié) 。 因此 , 將銷售 、 市場策劃方面的信息抽取出來單獨(dú)建立部門級(jí)的數(shù)據(jù)庫很有必要 , 這樣可以提高數(shù)據(jù)的訪問效率 。 5 在部門級(jí)數(shù)據(jù)的基礎(chǔ)上可能還要被繼續(xù)執(zhí)行抽取程序 ,以建立個(gè)人級(jí)的數(shù)據(jù)庫 。 比如 , 專門負(fù)責(zé)制作公司財(cái)務(wù)報(bào)表的數(shù)據(jù)人員 , 常常需要從財(cái)務(wù)部門的數(shù)據(jù)庫系統(tǒng)中抽取數(shù)據(jù) 。又如 , 部門經(jīng)理可能經(jīng)常抽取常用的數(shù)據(jù)到本地 , 有針對(duì)性的建立個(gè)人級(jí)數(shù)據(jù)庫就顯得尤為重要 。 隨著數(shù)據(jù)的逐層抽取 , 很可能最終導(dǎo)致系統(tǒng)內(nèi)的數(shù)據(jù)間形成了錯(cuò)綜復(fù)雜的網(wǎng)狀結(jié)構(gòu) , 如圖 , 人們形象地稱為“ 蜘蛛網(wǎng) ” 。 一個(gè)大型的公司每天進(jìn)行上萬次的數(shù)據(jù)抽取很普遍 。 這種演變不是人為制造的 , 而是自然演變的結(jié)果 。 企業(yè)的規(guī)模越大 ,“蜘蛛網(wǎng) ” 問題就越嚴(yán)重 。 蜘蛛網(wǎng)問題( 2) 6 網(wǎng)上的任意兩個(gè)節(jié)點(diǎn)的數(shù)據(jù)可能歸根結(jié)底是從一個(gè)原始庫中抽取出來的,但其數(shù)據(jù)沒有統(tǒng)一的時(shí)間基準(zhǔn),因而錯(cuò)綜復(fù)雜的抽取與訪問將產(chǎn)生很多問題,主要有以下幾個(gè)方面。 抽取 程序 個(gè)人級(jí)數(shù)據(jù)庫 企業(yè)級(jí)數(shù)據(jù)庫 抽取 程序 抽取 程序 抽取 程序 抽取 程序 個(gè)人級(jí)數(shù)據(jù)庫 個(gè)人級(jí)數(shù)據(jù)庫 個(gè)人級(jí)數(shù)據(jù)庫 抽取 程序 抽取 程序 部門級(jí)數(shù)據(jù)庫 個(gè)人級(jí)數(shù)據(jù)庫 個(gè)人級(jí)數(shù)據(jù)庫 個(gè)人級(jí)數(shù)據(jù)庫 個(gè)人級(jí)數(shù)據(jù)庫 抽取 程序 抽取 程序 抽取 程序 抽取 程序 抽取 程序 個(gè)人級(jí)數(shù)據(jù)庫 個(gè)人級(jí)數(shù)據(jù)庫 部門級(jí)數(shù)據(jù)庫 部門級(jí)數(shù)據(jù)庫 部門級(jí)數(shù)據(jù)庫 部門級(jí)數(shù)據(jù)庫 部門級(jí)數(shù)據(jù)庫 部門級(jí)數(shù)據(jù)庫 圖 1 . 1 企業(yè)中存在的 “ 蜘蛛網(wǎng) ” 現(xiàn)象 蜘蛛網(wǎng)問題( 3) 7 1. 數(shù)據(jù)分析的結(jié)果缺乏可靠性 圖 I是否具有市場前景的分析過程和結(jié)果。市場部認(rèn)為“項(xiàng)目 I的市場前景很好” ,而計(jì)劃部卻得到截然相反的結(jié)果 “項(xiàng)目I沒有市場前景”。作為企業(yè)的最終決策者,將如何根據(jù)這樣的結(jié)論進(jìn)行決策呢? 為什么分析同一個(gè)企業(yè)數(shù)據(jù)庫中的數(shù)據(jù),卻得到截然相反的結(jié)論呢? 首先,兩部門可能抽取數(shù)據(jù)的內(nèi)容不同。比如,市場部抽取的是項(xiàng)目 I在大客戶中的應(yīng)用情況,而計(jì)劃部抽取的是項(xiàng)目 I在普通客戶中的應(yīng)用情況。 蜘蛛網(wǎng)問題( 4) 8 其次,可能兩部門抽取數(shù)據(jù)的時(shí)間不同。如市場部在星期日晚上提取分析所需的數(shù)據(jù),而計(jì)劃部在星期三下午就抽取了數(shù)據(jù)。有任何理由相信對(duì)某一天抽取的數(shù)據(jù)樣本進(jìn)行分析與對(duì)另一天抽取的數(shù)據(jù)樣本進(jìn)行的分析可能相同嗎?當(dāng)然不能!企業(yè)內(nèi)的數(shù)據(jù)總是在變的。 再次,引用外部信息的不同。分析項(xiàng)目的發(fā)展趨勢常常需要引入企業(yè)外部的信息,比如報(bào)刊信息、國家的政策等。市場部門引用的外部信息來源可能與計(jì)劃部門不同,而外部信息自然是仁者見仁,智者見智,這也可能是導(dǎo)致最終分析結(jié)果不同的原因。 最后,分析程序的差異。市場部門使用的分析程序可能與計(jì)劃部門不同,分析的內(nèi)容和指標(biāo)也可能不同。 蜘蛛網(wǎng)問題( 5) 9 外部市場信息 A 外部市場信息 B 外部市場信息 C 外部信息的不同 企業(yè)級(jí) 數(shù)據(jù) 庫 市場部 計(jì)劃部 抽取數(shù)據(jù)的內(nèi)容不同 星期日晚 星期三下午 抽取數(shù)據(jù)的時(shí)間不同 分析程序 1 分析程序 2 分析程序和分析內(nèi)容不同 分析結(jié)果 1 :項(xiàng)目 I市場前景很好 分析結(jié)果 2 :項(xiàng)目 I沒有市場前景 圖 兩個(gè)分析結(jié)果的差異 蜘蛛網(wǎng)問題( 6) 10 2. 數(shù)據(jù)處理的效率很低 數(shù)據(jù)分析的結(jié)果缺乏可靠性并不是蜘蛛網(wǎng)問題中唯一的主要問題 。 在一個(gè)大型企業(yè)中 , 不同級(jí)別的數(shù)據(jù)庫可能使用不同類型的數(shù)據(jù)庫系統(tǒng) , 對(duì)于擁有巨型數(shù)據(jù)量的企業(yè)級(jí)數(shù)據(jù)庫可能使用 IBM DB2, 而對(duì)于部門級(jí)和個(gè)人級(jí)的中小型數(shù)據(jù)庫可能使用 SQL Server。各種數(shù)據(jù)庫的開發(fā)工具和開發(fā)環(huán)境不同 , 當(dāng)需要在整個(gè)企業(yè)范圍內(nèi)查詢數(shù)據(jù)時(shí) , 數(shù)據(jù)處理的低效率將是不容忽視的 。 如果一個(gè)大型企業(yè)的決策領(lǐng)導(dǎo)需要一份關(guān)于公司整體運(yùn)營情況的報(bào)表 , 通常需要?jiǎng)佑么罅康娜肆臀锪Σ拍苓_(dá)到 。 首先 , 定位報(bào)表需要的數(shù)據(jù) , 即確定報(bào)表涉及的內(nèi)容分布在哪個(gè)數(shù)據(jù)庫的哪個(gè)位置 , 然后調(diào)動(dòng)各個(gè)部門的程序員 /分析員對(duì)應(yīng)用進(jìn)行分析 、 設(shè)計(jì)和編碼 。 蜘蛛網(wǎng)問題( 7) 11 由于數(shù)據(jù)分散在各個(gè)數(shù)據(jù)庫中,因此需要編寫的程序很多。由于企業(yè)中使用的數(shù)據(jù)庫類型很多,因此可能需要使用多種技術(shù)來實(shí)現(xiàn)??梢?,面對(duì)企業(yè)中存在的蜘蛛網(wǎng)現(xiàn)象,為產(chǎn)生一份關(guān)于公司整體運(yùn)營情況的報(bào)表,將動(dòng)用大量的人力、物力和時(shí)間才能完成。 如果低效率的過程是一次性的,那么為生成報(bào)表花費(fèi)大量的資源也是可取的。換句話說,如果生成第一份企業(yè)報(bào)表需要大量資源,生成所有后繼報(bào)表可以建立在第一份企業(yè)報(bào)表基礎(chǔ)之上,那么不妨為生成第一份報(bào)表付出一些代價(jià)。但是事實(shí)并非如此。 除非事先知道未來的企業(yè)報(bào)表需求,并且除非這些需求影響到第一張報(bào)表的建造,每個(gè)新的企業(yè)報(bào)表總是要花費(fèi)同前面差不多的代價(jià)。 因此,數(shù)據(jù)處理的低效率是蜘蛛網(wǎng)問題所面臨的又一個(gè)問題。 蜘蛛網(wǎng)問題( 8) 12 3. 難以將數(shù)據(jù)轉(zhuǎn)化成信息 除了數(shù)據(jù)處理效率和數(shù)據(jù)可信度的問題之外,“蜘蛛網(wǎng)”式的結(jié)構(gòu)還難以將數(shù)據(jù)轉(zhuǎn)化成信息。比如,某電信公司要想分析某個(gè)大客戶今年的情況和過去 3年有什么不同?大客戶的情況可能包括呼叫行為、話費(fèi)情況、交費(fèi)情況、咨詢問題等。因此要想比較完整地回答這個(gè)問題,實(shí)際上需要將客戶多方面的數(shù)據(jù)綜合成信息。但“蜘蛛網(wǎng)”式的結(jié)構(gòu)中數(shù)據(jù)缺乏集成性,因此,對(duì)綜合信息需求的支持確實(shí)是不充分的。 另外 , 每個(gè)數(shù)據(jù)庫由于其數(shù)據(jù)量和業(yè)務(wù)處理的需求不同 , 對(duì)歷史數(shù)據(jù)的存儲(chǔ)時(shí)間也不同 , 因此在蜘蛛網(wǎng)環(huán)境中的系統(tǒng)難以提供完整的歷史數(shù)據(jù) 。 如 , 記錄客戶呼叫行為的數(shù)據(jù)庫通常只保留最近 3個(gè)月的呼叫話單 , 財(cái)務(wù)數(shù)據(jù)庫可能保留客戶今年的交費(fèi)情況 , 客戶咨詢數(shù)據(jù)庫可能只保留客戶 2年內(nèi)的咨詢信息 , 于是 , 從這些數(shù)據(jù)中提取出完整的信息是不可能的 。 蜘蛛網(wǎng)問題( 9) 13 數(shù)據(jù)庫系統(tǒng)作為數(shù)據(jù)管理手段 , 主要用于事務(wù)處理 。 在這些數(shù)據(jù)庫中已經(jīng)保存了大量的日常業(yè)務(wù)數(shù)據(jù) 。 傳統(tǒng)的 DSS( Decision Support System, 決策支持系統(tǒng) ) 一般是直接建立在這種事務(wù)處理環(huán)境上的 。 數(shù)據(jù)庫技術(shù)一直力圖使自己能勝任從事務(wù)處理 、 批處理到分析處理的各種類型的信息處理任務(wù) 。 盡管數(shù)據(jù)庫在事務(wù)處理方面的應(yīng)用獲得了巨大的成功 , 但它對(duì)分析處理的支持一直不能令人滿意 , 這也正是產(chǎn)生 “ 蜘蛛網(wǎng) ” 問題的原因之所在 。 因此 , 要解決“ 蜘蛛網(wǎng) ” 問題 , 必須將用于事務(wù)處理的數(shù)據(jù)環(huán)境和用于分析處理的數(shù)據(jù)環(huán)境分離開 。 這樣,數(shù)據(jù)處理被分為事務(wù)型處理和分析型處理兩大類。事務(wù)型處理以傳統(tǒng)的數(shù)據(jù)庫為中心進(jìn)行企業(yè)的日常業(yè)務(wù)處理。比如電信部門的計(jì)費(fèi)數(shù)據(jù)庫用于記錄客戶的通信消費(fèi)情況,銀行的數(shù)據(jù)庫用于記錄客戶的帳號(hào)、密碼、存入和支出等一系列業(yè)務(wù)行為。 事務(wù)處理和分析處理數(shù)據(jù)環(huán)境的分離( 1) 14 分析型處理以數(shù)據(jù)倉庫為中心分析數(shù)據(jù)背后的關(guān)聯(lián)和規(guī)律 ,為企業(yè)的決策提供可靠有效的依據(jù) 。 比如 , 通過對(duì)超市近期數(shù)據(jù)進(jìn)行分析可以發(fā)現(xiàn)近期暢銷的產(chǎn)品 , 從而為公司的采購部門提供指導(dǎo)信息 。 事務(wù)處理的使用人員通常是企業(yè)的具體操作人員 , 處理的數(shù)據(jù)通常是企業(yè)業(yè)務(wù)的細(xì)節(jié)信息 , 其目標(biāo)是實(shí)現(xiàn)企業(yè)的業(yè)務(wù)運(yùn)營;而分析處理的使用人員通常是企業(yè)的中高層的管理者 , 或者是從事數(shù)據(jù)分析的工程師 。 決策分析數(shù)據(jù)環(huán)境包含的信息往往是企業(yè)的宏觀信息而非具體的細(xì)節(jié) , 其目的是為企業(yè)的決策者提供信息支持 , 并最終指導(dǎo)企業(yè)的商務(wù)活動(dòng) 。 事務(wù)處理和信息分析數(shù)據(jù)環(huán)境的劃分如圖 。 事務(wù)
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1