freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi技術(shù)白皮書-文庫吧

2025-05-23 12:11 本頁面


【正文】 ....................16 1    數(shù)據(jù) 倉庫 技 術(shù)一、 數(shù)據(jù)倉庫的背景和歷史隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,信息處理技術(shù)也得到了長足的發(fā)展。計(jì)算機(jī)系統(tǒng)的功能從數(shù)值計(jì)算擴(kuò)展到信息管理距今已有三十多年了,從 70 年代中期的 MIS 系統(tǒng)發(fā)展到現(xiàn)代的數(shù)據(jù)倉庫(Data Warehouse)技術(shù),用辯證的眼光來看, 實(shí)際上是信息管理的一種回歸,是螺旋式的上升。二十多年來,大量新技術(shù)、新思路涌現(xiàn)出來并被用于關(guān)系數(shù)據(jù) 庫系統(tǒng)的開發(fā)和實(shí)現(xiàn),使得關(guān)系數(shù)據(jù)庫系統(tǒng)的處理能力毫不遜色于傳統(tǒng)封閉的數(shù)據(jù)庫系統(tǒng), SQL 的使用更使這一切成為不可阻擋的潮流,加上近些年來計(jì)算機(jī)硬件的處理能力呈數(shù)量級(jí)的遞增,關(guān)系數(shù)據(jù)庫最終成為聯(lián)機(jī)事務(wù)處理系統(tǒng)的主宰。整個(gè) 80 年代直到 90 年代初, 聯(lián)機(jī)事 務(wù)處理一直是數(shù)據(jù)庫應(yīng) 用的主流。然而, 應(yīng)用在不斷地進(jìn)步。當(dāng) 聯(lián)機(jī)事務(wù)處理系統(tǒng)應(yīng)用到一定階段的時(shí)候,企 業(yè)家們便發(fā)現(xiàn)單 靠擁有聯(lián)機(jī)事務(wù)處理系統(tǒng)已經(jīng)不足以獲得市場競爭的優(yōu)勢(shì),他們需要對(duì) 其自身 業(yè)務(wù)的運(yùn)作以及整個(gè)市 場相關(guān)行業(yè)的態(tài)勢(shì)進(jìn)行分析,而做出有利的決策。這種決策需要對(duì)大量的 業(yè)務(wù) 數(shù)據(jù)包括歷史業(yè)務(wù)數(shù)據(jù) 進(jìn)行分析才能得到。在如今 這樣激烈的市場競爭環(huán)境下,這種基于業(yè)務(wù) 數(shù)據(jù)的決策分析 ——我們把它稱之為聯(lián)機(jī)分析處理——比以往任何時(shí)候都顯得更為重要。其實(shí),將大量的業(yè)務(wù)數(shù)據(jù)應(yīng)用于分析和 統(tǒng)計(jì)原本是一個(gè)非常 簡單和自然的想法。但在 實(shí)際的操作中,人們卻發(fā)現(xiàn)要獲得有用的信息并非如想像的那么容易:第一,所有聯(lián)機(jī)事務(wù)處理強(qiáng)調(diào)的是密集的數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性,并不關(guān)心數(shù)據(jù)查詢的方便與快捷。聯(lián)機(jī)分析和事務(wù)處理對(duì)系統(tǒng)的要求不同,同一個(gè)數(shù)據(jù)庫在理論上 難以做到兩全;第二, 業(yè)務(wù)數(shù)據(jù)往往被存放于分散的異構(gòu)環(huán)境中,不易統(tǒng)一查詢?cè)L問,而且還有大量的歷 史數(shù)據(jù) 處于脫機(jī)狀態(tài),形同虛設(shè);第 三,業(yè)務(wù)數(shù)據(jù)的模式針對(duì)事務(wù)處理系統(tǒng)而設(shè)計(jì),數(shù)據(jù)的格式和描述方式并不適合非計(jì)算機(jī)專業(yè) 人員進(jìn)行業(yè)務(wù)上的分析和統(tǒng)計(jì)。因此有人感 嘆:20 年前 查詢不到數(shù)據(jù)是因?yàn)閿?shù)據(jù)太少了,而今天 查詢不到數(shù)據(jù)是因?yàn)閿?shù)據(jù)太多了。 針對(duì)這一問題,人們?cè)O(shè)想專門為業(yè)務(wù)的統(tǒng)計(jì)分析建立一個(gè)數(shù)據(jù)中心,它的數(shù)據(jù)從 聯(lián)機(jī)的事務(wù)處理系統(tǒng)中來、從異構(gòu)的外部數(shù)據(jù)源來、從脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中來。 這個(gè)數(shù)據(jù)中心是一個(gè) 聯(lián)機(jī)的系統(tǒng),它是專門為分析統(tǒng)計(jì)和決策支持應(yīng)用服務(wù)的,通過它可滿足決策支持和聯(lián)機(jī)分析應(yīng)用所要求的一切。這個(gè)數(shù)據(jù)中心就叫做數(shù)據(jù)倉庫。二、什么是數(shù)據(jù)倉庫數(shù)據(jù)倉庫的概念在 90 年代初被提出來,以 Prism Solutions 公司副總裁 在 1990 年出版的《建立數(shù)據(jù)倉庫(Building the Data Warehouse)》一書為標(biāo) 志。W. H. Inmon 對(duì)數(shù)據(jù)倉庫的定義為:數(shù)據(jù)倉庫是支持管理決策過程的、面向主題的、集成的、穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合。 這也就是說:數(shù)據(jù)倉庫就是一個(gè)作為決策支持系統(tǒng)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫所要研究和解決的問題就是從數(shù)據(jù)庫中獲取信息的問題。主題是數(shù)據(jù)倉庫中數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個(gè)主 題對(duì)應(yīng)一個(gè)客 觀分析領(lǐng)域,如客 戶、商店等,它可 為輔助決策集成多個(gè)部門不同系統(tǒng)的大量數(shù)據(jù)。數(shù)據(jù)倉庫包含了大量的歷史數(shù)據(jù), 經(jīng)集成后進(jìn)入數(shù)據(jù)倉庫的數(shù)據(jù)是極少更新的。數(shù)據(jù)倉庫的集成特性是指在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必 須經(jīng)過 數(shù)據(jù)加工和集成,首先要 統(tǒng)一原始數(shù)據(jù)中的矛盾之處,還要將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用向面向主題的轉(zhuǎn)變。數(shù)據(jù) 倉庫的穩(wěn)定性是指數(shù)據(jù)經(jīng)加工和集成進(jìn)入數(shù)據(jù)倉庫后是極少或根本不修改的。數(shù)據(jù) 倉庫是不同時(shí)間的數(shù)據(jù)集合,它要求數(shù)據(jù)倉庫中的數(shù)據(jù)保存時(shí)限能滿足進(jìn)行決策分析的需要。從數(shù)據(jù)組織的角度來說,數(shù)據(jù) 倉庫是存儲(chǔ)數(shù)據(jù)的一種組織 形式,它從 傳統(tǒng)數(shù)據(jù)庫中獲得原始數(shù)據(jù),先按輔助決策的主題要求形成當(dāng)前基本數(shù)據(jù)層,再按 綜合決策的要求形成綜合數(shù)據(jù)層(又可分為輕度綜合層和高度綜合層)。其最根本的特點(diǎn)是物理地存放數(shù)據(jù),但這些數(shù)據(jù)并不是最新的、專有的,而是來源于其它數(shù)據(jù)庫。數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時(shí)限為 5 年至 10 年,主要用于進(jìn)行時(shí)間趨勢(shì)分析。數(shù)據(jù)倉庫的數(shù)據(jù)量很大,一般為 10GB 左右。它是一般數(shù)據(jù)庫(100MB)數(shù)據(jù)量的 100 倍,大型數(shù)據(jù)倉庫達(dá)到 TB 級(jí)。三、 數(shù)據(jù)倉庫的組織結(jié)構(gòu)、數(shù)據(jù)倉庫的邏輯及物理結(jié)構(gòu)數(shù)據(jù)倉庫作為存儲(chǔ)數(shù)據(jù)的一種組織形式,隨著 時(shí)間的推移,數(shù)據(jù)倉庫的時(shí)間控制機(jī)制將當(dāng)前基本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù)據(jù)層。可 見數(shù)據(jù)倉庫中邏輯結(jié)構(gòu)數(shù)據(jù)由 3 層到 4 層數(shù)據(jù)組成,它 們均由元數(shù)據(jù)(Meta Data)組織 而成。數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲(chǔ)形式有多維數(shù)據(jù)庫組織形式(空間超立方體形式)和基于關(guān)系數(shù)據(jù)庫組織形式(由關(guān)系型事實(shí)表和維表組成)。以下是數(shù)據(jù)倉庫的技術(shù)體系結(jié)構(gòu)圖、數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)倉庫系統(tǒng)(DWS)由源數(shù)據(jù)、倉庫管理和分析工具三部分組成。如下圖:信息目錄模塊數(shù)據(jù)倉庫之元數(shù)據(jù)數(shù)據(jù)管理員模塊數(shù)據(jù)倉庫之?dāng)?shù)據(jù)數(shù)據(jù)獲取模塊數(shù)據(jù)傳遞模塊中間件模塊數(shù)據(jù)訪問模塊設(shè)計(jì)模塊管理模塊外部元數(shù)據(jù)源數(shù)據(jù) 外部數(shù)據(jù)源數(shù)據(jù) 倉庫管理 分析工具源數(shù)據(jù):數(shù)據(jù)倉庫的數(shù)據(jù)來源于多個(gè)數(shù)據(jù)源,包括企業(yè)內(nèi)部數(shù)據(jù)、市場調(diào)查報(bào)告及各種文檔之類的外部數(shù)據(jù)。 倉庫管理:在確定數(shù)據(jù)倉庫信息需求后,首先 進(jìn)行數(shù)據(jù)建模,然后確定從源數(shù)據(jù)到數(shù)據(jù)倉庫的數(shù)據(jù)抽取、清理和轉(zhuǎn)換過程,最后劃分維數(shù)及確定數(shù)據(jù)倉庫 的物理存儲(chǔ)結(jié)構(gòu)。元數(shù)據(jù)是數(shù)據(jù)倉庫的核心,它用于存儲(chǔ)數(shù)據(jù)模型和定義數(shù)據(jù)結(jié)構(gòu)、 轉(zhuǎn)換規(guī)劃、 倉庫結(jié)構(gòu)、控制信息等。倉庫管理包括對(duì)數(shù)據(jù)的安全、歸檔、備份、維護(hù)、恢復(fù)等工作, 這些工作需要利用數(shù)據(jù)庫管理系統(tǒng)(DBMS)的功能。 分析工具:用于完成實(shí)際決策問題所需的各種查詢檢索工具、多維數(shù)據(jù)的 OLAP 分析工具、數(shù)據(jù)開采 DM 工具等,以實(shí)現(xiàn)決策支持系統(tǒng)的各種要求。四、 數(shù)據(jù)倉庫的物理存儲(chǔ)形式數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲(chǔ)形式分為:基于關(guān)系數(shù)據(jù)庫存儲(chǔ)形式(由關(guān)系型事實(shí)表和維表組成)、多維數(shù)據(jù)庫存儲(chǔ)形式(空間超立方體形式)和虛擬存儲(chǔ)形式。、基于關(guān)系數(shù)據(jù)庫的存儲(chǔ)形式基于關(guān)系數(shù)據(jù)庫的存儲(chǔ)形式就是將多維數(shù)據(jù)庫的多維結(jié)構(gòu)劃分為兩類表:一類是事實(shí)表,用來存儲(chǔ)數(shù)據(jù)和維關(guān)鍵字;另一類是維表,即對(duì)每個(gè)維至少使用一個(gè)表來存放維的層次、成 員類別等維的描述信息。維表和事實(shí)表通過主關(guān)鍵 字和外關(guān) 鍵字聯(lián)系在一起,形成“ 星型模式” 。對(duì)于層次復(fù)雜的維,為避免冗余數(shù)據(jù)占用過大的存儲(chǔ)空間,可以使用多個(gè)表來描述,這種星型模式的擴(kuò)展稱為“雪花模式”。星型模式(StarSchema)存在數(shù)據(jù)冗余、多 維操作速度慢的缺點(diǎn)。但這種方式是主流方案,大多數(shù)數(shù)據(jù)倉庫集成方案都采用這種形式。如下圖:星型模式雪花模式(Snowflake Schema)的優(yōu)點(diǎn)是:通過最大限度地減少數(shù)據(jù)存儲(chǔ)量以及聯(lián)合較小的維表來改善查詢性能。雪花模型增加了用 戶必 須處理的表數(shù)量,增加了某些查詢的復(fù)雜性。如下圖: 雪花模型、多維數(shù)據(jù) 庫存儲(chǔ)形式多維數(shù)據(jù)庫(MultiDimesional Database,MDDB)存儲(chǔ)形式就是以多維的方式存儲(chǔ)數(shù)據(jù),以多維的方式來顯示數(shù)據(jù),即將數(shù)據(jù)存放在一個(gè) n 維數(shù)組中,而不是像關(guān)系數(shù)據(jù)庫那樣以記錄的形式存放。 “維”是人們觀察客觀世界的角度,是一種高層次的類型劃分。 “維”一般包含著層次關(guān)系。多維數(shù)據(jù)在存儲(chǔ)中將形成“超立方塊(Hypercube )”的結(jié)構(gòu)。超立方結(jié)構(gòu)有一種變形,即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額 外的分析 維。當(dāng)使用多維數(shù)據(jù)庫作為數(shù)據(jù)倉庫的基本數(shù)據(jù)存儲(chǔ)形式時(shí),其最主要的特點(diǎn)是:大大減少了以 維為基本框架的存儲(chǔ)空間,針對(duì)多維 數(shù)據(jù)組織的操作算法,極大地提高了多維分析操作的效率。 、虛擬存儲(chǔ) 方式虛擬存儲(chǔ)方式是虛擬數(shù)據(jù)倉庫的數(shù)據(jù)組織形式。它沒有 專門 的數(shù)據(jù)倉庫來存儲(chǔ)數(shù)據(jù),只是把指 針存儲(chǔ)于中心位置,而數(shù)據(jù)仍然在源數(shù)據(jù)庫中,只是根據(jù)用 戶的多 維需求及形成的多維視圖,臨時(shí)在源數(shù)據(jù)庫中找出所需要的數(shù)據(jù),完成多維 分析,數(shù)據(jù)源可以被 實(shí)時(shí) 地組合、傳輸和顯示,而不必進(jìn)行數(shù)據(jù)移動(dòng)和復(fù)制,對(duì)于數(shù)據(jù)源也無須做任何改變。它 讓用戶既能實(shí)時(shí) 地看到歷史數(shù)據(jù),同時(shí)也能實(shí)時(shí)地看到當(dāng)前數(shù)據(jù),而不是像過去那樣只看到 歷 史數(shù)據(jù)。、幾種存 儲(chǔ) 形式的比較多維數(shù)據(jù)庫對(duì)多維概念表達(dá)清楚,占用的存 儲(chǔ)空間較小,而且數(shù)據(jù)的綜合速度高,這些方面具有關(guān)系數(shù)據(jù)庫無法比擬的優(yōu)勢(shì),它也存在一些缺點(diǎn):一是多維數(shù)據(jù) 庫管理系統(tǒng)缺乏標(biāo)準(zhǔn);另一個(gè)問題是多維數(shù)據(jù)庫管理大規(guī)模數(shù)據(jù)庫的能力不夠強(qiáng)大。基于關(guān)系數(shù)據(jù)庫的存儲(chǔ)形式,在靈活性和 處理大規(guī)模數(shù)據(jù)的能力上完全可以 滿足數(shù)據(jù)倉庫的需要。其不足在于數(shù)據(jù)庫中存放了大量的細(xì)節(jié)數(shù)據(jù)和相對(duì)較少的綜合數(shù)據(jù),需要以犧牲效率為代價(jià)動(dòng)態(tài)地綜合數(shù)據(jù)。虛擬存儲(chǔ)形式雖然較簡單、花 費(fèi)少、使用靈活,但同時(shí)它也存在一個(gè)致命的缺點(diǎn),即只有當(dāng)源數(shù)據(jù)庫的數(shù)據(jù)組織比較規(guī)范、沒有數(shù)據(jù)不完備及冗余,同 時(shí)又比 較接近多維數(shù)據(jù)模型時(shí),虛擬數(shù)據(jù)倉庫的多維語義層才容易定義,在實(shí)際 中這 種方式很難建立起有效的決策服務(wù)數(shù)據(jù)支持。由于多維數(shù)據(jù)庫管理系統(tǒng)及虛擬數(shù)據(jù)倉庫技術(shù)的相對(duì)不成熟,關(guān)系數(shù)據(jù)庫系統(tǒng)的廣泛應(yīng)用 ,目前在數(shù)據(jù)倉庫市場上基于關(guān)系數(shù)據(jù)庫的存儲(chǔ)形式占據(jù)著主流地位。五、數(shù)據(jù)集市、 數(shù)據(jù)集市的產(chǎn)生   數(shù)據(jù)倉庫的工作范圍和成本常常是巨大的。信息技 術(shù)部門必須針對(duì)所有的用戶并以整個(gè)企業(yè)的眼光對(duì)待任何一次決策分析。這樣 就形成了代價(jià)很高、 時(shí)間較長 的大項(xiàng)目。因此更緊湊集成的、擁有完整圖形接口且價(jià)格更具吸引力的工具即數(shù)據(jù)集市(Data Marts)應(yīng)運(yùn)而生。目前,全世界對(duì)數(shù)據(jù)倉庫總投資的一半以上均集中在數(shù)據(jù)集市上。 、 數(shù)據(jù)集市的概念   數(shù)據(jù)集市是一種更小、更集中的數(shù)據(jù)倉庫,是為企業(yè)提供分析商業(yè)數(shù)據(jù)的一條廉價(jià)途徑。它是具有特定應(yīng)用的數(shù)據(jù)倉庫,主要針對(duì) 某個(gè)具有戰(zhàn)略意義的應(yīng)用或具體部 門級(jí)的應(yīng)用,它支持客 戶利用已有的數(shù)據(jù)獲得重要的競爭優(yōu)勢(shì)或找到進(jìn)入新市場的解決方案。 、 數(shù)據(jù)集市的特征 數(shù)據(jù)集市的特征包括:規(guī)模??;有特定的應(yīng)用;面向部門;由業(yè)務(wù)部門定義、設(shè)計(jì)和開發(fā);業(yè)務(wù)部門管理和維護(hù);能快速實(shí)現(xiàn);購買較便宜;投資快速回收;工具集的緊密集成;提供更詳細(xì)的、預(yù)先存在的、數(shù)據(jù)倉庫的摘要子集;可升級(jí)到完整的數(shù)據(jù)倉庫。六、數(shù)據(jù)抽取、轉(zhuǎn)換、清洗(ETL)、ETL 的重要性及概念我們可以這樣給 ETL 下個(gè)定義,即 ETL 是數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform )、清洗(Cleansing)、裝載(Load )的過 程。構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用 戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加 載到數(shù)據(jù)倉庫中去。它關(guān)系到數(shù)據(jù)倉庫的持續(xù)發(fā)展問題,因?yàn)楫?dāng)數(shù)據(jù)倉庫進(jìn)一步發(fā)展時(shí),如果完善、精確、可預(yù)見的數(shù)據(jù)來源得不到保障的話,就將成為阻礙數(shù)據(jù)倉庫發(fā)展的最大的障礙。 ETL 階段的問題整個(gè)數(shù)據(jù)倉庫的建設(shè)如果按照其不同性質(zhì),可 獎(jiǎng)它分 為三個(gè)截然不同的部分,分 別是:源數(shù)據(jù)、數(shù)據(jù)準(zhǔn)備、以及數(shù)據(jù)呈現(xiàn),而 ETL 橫跨數(shù)據(jù)源和數(shù)據(jù)準(zhǔn)備,而我們常說的的 OLAP 分析和決策支持等,都是屬于數(shù)據(jù)呈現(xiàn)的部分。在 ETL 階段,需要 經(jīng)過許多步驟,如下圖所示:在 ETL 階段,有幾個(gè)重要的 問題 :數(shù)據(jù)的有效性檢查為避免數(shù)據(jù)冗余,要認(rèn)識(shí) 到數(shù)據(jù)裝入數(shù)據(jù)倉庫之前, 應(yīng)該對(duì) 數(shù)據(jù)進(jìn)行有效性檢查,這是很重要的。如果沒有進(jìn)行數(shù)據(jù)的有效性檢查,就有可能破壞依 賴于數(shù)據(jù) 倉庫的商務(wù)分析的完整性,幫助 檢查數(shù)據(jù)的有效性的最好方法是源系統(tǒng)專家。源系 統(tǒng)專家包括具有技 術(shù)專業(yè)知識(shí)和非技術(shù)知識(shí)的人士。清除和轉(zhuǎn)換數(shù)據(jù)有效性檢查是決定是否符合給定標(biāo)準(zhǔn)的過程。 標(biāo)準(zhǔn)是依 賴于制訂的, 為某個(gè)站點(diǎn)開發(fā)和執(zhí)行
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1