【正文】
用層添加之前往往會(huì)打住一下,當(dāng)通過ETL進(jìn)程讓數(shù)據(jù)流從外部來源進(jìn)入各種不同的數(shù)據(jù)倉庫數(shù)據(jù)庫和立方體時(shí),進(jìn)行必要的測試和調(diào)整。然而,這可能是整個(gè)過程中最復(fù)雜和費(fèi)時(shí)的任務(wù),并且可能是代價(jià)最高的如果沒有認(rèn)真制定和考慮成功的量度標(biāo)準(zhǔn)。包含在第二部分但不局限于這一部分的是數(shù)據(jù)轉(zhuǎn)換服務(wù)( DTS )/SQL Server整合服務(wù)( SSIS)補(bǔ)丁的開發(fā)與測試,導(dǎo)入/導(dǎo)出和TSQL腳本開發(fā)和測試,以及對外部數(shù)據(jù)源組件的數(shù)據(jù)整合測試,這些數(shù)據(jù)不會(huì)導(dǎo)入到數(shù)據(jù)倉庫?!?D法”不需要。如果不是,那工作描述會(huì)擴(kuò)大。數(shù)據(jù)倉庫可以增長為非常大的內(nèi)容和十分廣泛的范圍,因此有必要在數(shù)據(jù)倉庫部署之前恰當(dāng)?shù)匾?guī)劃其大小。對于數(shù)據(jù)倉庫項(xiàng)目,可以為關(guān)系型數(shù)據(jù)倉庫創(chuàng)建概念和邏輯數(shù)據(jù)模型,為表示多維立方體創(chuàng)建三維模型。如果項(xiàng)目里沒有PM,這些將成為您的工作。這就是為什么數(shù)據(jù)倉庫團(tuán)隊(duì)中的每一個(gè)人,包括技術(shù)決策者( TDMs ) 和業(yè)務(wù)決策者( BDMs ),都必須處在同一陣線上,使用同一種生命周期管理方法,以使他們的認(rèn)識(shí)完全得到統(tǒng)一。 確定數(shù)據(jù)倉庫開發(fā)的生命周期由于數(shù)據(jù)倉庫最佳結(jié)合了業(yè)務(wù)慣例和信息系統(tǒng)技術(shù),因此,一個(gè)成功的數(shù)據(jù)倉庫實(shí)施需要這兩方面的不斷協(xié)調(diào),以均衡其所有的需要,要求,任務(wù)和成果。(4)ETL調(diào)度人員:在開發(fā)人員腳本成功開發(fā)后,由ETL統(tǒng)一并行調(diào)度,保證及時(shí)觸發(fā)節(jié)點(diǎn),并實(shí)時(shí)監(jiān)控。對于一個(gè)嚴(yán)格完整的數(shù)據(jù)倉庫項(xiàng)目來說,需求分析應(yīng)該屬于數(shù)據(jù)倉庫項(xiàng)目的第二個(gè)過程,第一階段屬于數(shù)據(jù)倉庫項(xiàng)目定義階段,對項(xiàng)目范圍、項(xiàng)目評估、可行性研究分析和投資回報(bào)等相關(guān)進(jìn)行定義,也是一個(gè)不容忽視的階段。在增加新信息的時(shí)候我們需要事務(wù)型數(shù)據(jù)庫是空閑的。它們將立足于數(shù)據(jù)倉庫提供的豐富信息,更好地為業(yè)務(wù)決策服務(wù)。以上所述的未來高性能計(jì)算機(jī)、Internet網(wǎng)格技術(shù)等等已經(jīng)為我們勾勒出了一幅美好的畫面。網(wǎng)格技術(shù)正是這種趨勢發(fā)展的一個(gè)必然。到2015年,硅芯片的運(yùn)算速度和微型化發(fā)展都將止步不前。比如在移動(dòng)通信領(lǐng)域,采用Enlight進(jìn)行多用戶檢測,即通過重復(fù)計(jì)算一系列方程式,能解除同一基站內(nèi)用戶間的相互干擾。與傳統(tǒng)硅芯片計(jì)算機(jī)不同,光計(jì)算機(jī)用光束代替電子進(jìn)行運(yùn)算和存儲(chǔ):它以不同波長的光代表不同的數(shù)據(jù),以大量的透鏡、棱鏡和反射鏡將數(shù)據(jù)從一個(gè)芯片傳送到另一個(gè)芯片。研究人員相信,這種每年增長100%的趨勢在未來還會(huì)持續(xù)下去。P2P應(yīng)用、高清晰視頻會(huì)議、實(shí)驗(yàn)室設(shè)備的遠(yuǎn)程操作、分布式計(jì)算等應(yīng)用都可以在Internet2上運(yùn)行。(3) 后期維護(hù)容易當(dāng)集市群因某種需求而要加入新的數(shù)據(jù)集市時(shí),所要考慮的問題僅是新的模塊需要那些數(shù)據(jù),原有集市群能提供那些數(shù)據(jù)。其成本甚至超過了單一數(shù)據(jù)倉庫系統(tǒng),不利于此類技術(shù)的大眾化、平民化發(fā)展。獨(dú)立數(shù)據(jù)集市是由自成體系的團(tuán)隊(duì)建立的,而且一般是為不同的部門建立的,導(dǎo)致這些數(shù)據(jù)集市沒有進(jìn)行集成,而且沒有一個(gè)會(huì)包含了整個(gè)企業(yè)的視圖。獨(dú)立型數(shù)據(jù)集市是為滿足特定用戶的需求而建立的一種分析型環(huán)境,它能夠快速地解決某些具體的問題,而且投資規(guī)模也比數(shù)據(jù)倉庫小很多。其所堅(jiān)持的走大眾化、平民化道路的理念,從操作系統(tǒng)中的windows,辦公軟件里得Office到數(shù)據(jù)庫領(lǐng)域的SQL Sever等等,無一不是成功的案例。新的數(shù)據(jù)倉庫項(xiàng)目仍將不斷進(jìn)行,但是企業(yè)不會(huì)再妄想一步登天去做那些對盈利沒有直接影響的事;它們還想有一個(gè)明確的商業(yè)案例,明確的投資回報(bào)率和更短的回報(bào)周期。(8)越來越了解如何對“成功或失敗”問題做出正確分析——知識(shí)管理在企業(yè)倉促著手建立數(shù)據(jù)倉庫或其它分析型知識(shí)庫時(shí),數(shù)據(jù)質(zhì)量或元數(shù)據(jù)這些重要問題經(jīng)常被忽視,其后果就是,很多企業(yè)現(xiàn)今發(fā)現(xiàn)他們的行動(dòng)成功性打了不少折扣,因?yàn)樗麄儾荒艽_定“成功或失敗”問題。(2)數(shù)據(jù)集市的整合(3)客戶數(shù)據(jù)集成許多企業(yè)如今很想跨越產(chǎn)品線、業(yè)務(wù)單位、渠道和地理各方面來綜合地得到一個(gè)關(guān)于客戶的單一視圖,一種稱之為客戶數(shù)據(jù)集成(CDI)的解決方案應(yīng)聲而出,其核心部分由數(shù)據(jù)倉庫和相關(guān)技術(shù)構(gòu)成。(4)數(shù)據(jù)倉庫設(shè)計(jì)的技術(shù)咨詢數(shù)據(jù)倉庫絕不是簡單的產(chǎn)品堆砌,它是一個(gè)綜合性的解決方案和系統(tǒng)工程。(1)數(shù)據(jù)的抽取數(shù)據(jù)倉庫是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。第三,業(yè)務(wù)數(shù)據(jù)的模式針對事務(wù)處理系統(tǒng)而設(shè)計(jì),數(shù)據(jù)的格式和描述方式并不適合非計(jì)算機(jī)專業(yè)人員進(jìn)行業(yè)務(wù)上的分析和統(tǒng)計(jì)。還有一類被稱為元數(shù)據(jù)知識(shí)庫(MetadataRepository)的工具,它們獨(dú)立于其它工具,為元數(shù)據(jù)提供一個(gè)集中的存儲(chǔ)空間。與元數(shù)據(jù)相關(guān)的數(shù)據(jù)倉庫工具大致可分為四類: (1)數(shù)據(jù)抽取工具把業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)抽取、轉(zhuǎn)換、集成到數(shù)據(jù)倉庫中,如Ardent的DataStage、CA(原Platinum)的DecisionBase和ETI的Extract等。 元數(shù)據(jù)的作用u 描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中。 技術(shù)元數(shù)據(jù)技術(shù)元數(shù)據(jù)是存儲(chǔ)關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它主要包括數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式。 ?。?) 存儲(chǔ)的數(shù)據(jù)不同數(shù)據(jù)庫一般存儲(chǔ)在線交易數(shù)據(jù),數(shù)據(jù)倉庫存儲(chǔ)的一般是歷史數(shù)據(jù)?!边@里的主題,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進(jìn)行組織的。(5) 匯總的操作性數(shù)據(jù)映射成決策可用的格式。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。 logic model construction through software design, to determine the relationship between tables。關(guān)鍵詞: 數(shù)據(jù)倉庫,物理模型,維護(hù)和優(yōu)化English abstractSince the nineteen ninties, puter technology is developing rapidly, the munication business gradually developed a new BI system. Reality to munication field is presented for fully using data warehouse technology to existing data structures bee available, controllable, scalable data organization, to adapt to the field of munication at all levels of managers and business analysis.In this paper from the data warehouse requirement analysis includes the participation of members, each member of the role played by。 數(shù)據(jù)倉庫的定義和特點(diǎn)數(shù)據(jù)倉庫是決策支持系統(tǒng)(dss)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時(shí)間改變。美國著名信息工程專家William博士在90年代初提出了數(shù)據(jù)倉庫概念的一個(gè)表述,認(rèn)為:“一個(gè)數(shù)據(jù)倉庫通常是一個(gè)面向主題的、集成的、隨時(shí)間變化的、但信息本身相對穩(wěn)定的數(shù)據(jù)集合,它用于對管理決策過程的支持。 二者的區(qū)別: ?。?) 出發(fā)點(diǎn)不同數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉庫是面向主題設(shè)計(jì)的。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫管理員和數(shù)據(jù)倉庫的開發(fā)人員非常方便地找到他們所關(guān)心的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),可將其按用途的不同分為兩類:技術(shù)元數(shù)據(jù)(TechnicalMetadata)和業(yè)務(wù)元數(shù)據(jù)(BusinessMetadata)。l (3)業(yè)務(wù)概念模型和物理數(shù)據(jù)之間的依賴業(yè)務(wù)元數(shù)據(jù)只是表示出了數(shù)據(jù)的業(yè)務(wù)視圖,這些業(yè)務(wù)視圖與實(shí)際的數(shù)據(jù)倉庫或數(shù)據(jù)庫、中的表、字段、維、層次等之間的對應(yīng)關(guān)系也應(yīng)該在元數(shù)據(jù)知識(shí)庫中有所體現(xiàn)。但遺憾的是對于元數(shù)據(jù)的管理,各個(gè)解決方案都沒有明確提出一個(gè)完整的管理模式;它們提供的僅僅是對特定的局部元數(shù)據(jù)的管理。 (4)元工具元數(shù)據(jù)通常存儲(chǔ)在專用的數(shù)據(jù)庫中,該數(shù)據(jù)庫就如同一個(gè)“黑盒子”,外部無法知道這些工具所用到和產(chǎn)生的元數(shù)據(jù)是如何存儲(chǔ)的。第二,業(yè)務(wù)數(shù)據(jù)往往被存放于分散的異構(gòu)環(huán)境中,不易統(tǒng)一查詢訪問,而且還有大量的歷史數(shù)據(jù)處于脫機(jī)狀態(tài),形同虛設(shè)。由于數(shù)據(jù)倉庫的這種工程性,因而在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、存儲(chǔ)和管理、數(shù)據(jù)的表現(xiàn)以及數(shù)據(jù)倉庫設(shè)計(jì)的技術(shù)咨詢四個(gè)方面。這里說的主要是多維分析、數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘方面。但數(shù)據(jù)增長也將使企業(yè)面臨一些新問題,包括數(shù)據(jù)倉庫的可升級性以及可能出現(xiàn)的性能問題。同時(shí),相關(guān)的技術(shù)也在不斷出現(xiàn),使企業(yè)可以采用跟以前處理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)資源的方式,來存儲(chǔ)和挖掘這些數(shù)據(jù)。這種不斷增加的對盈虧問題的注意力影響到了IT項(xiàng)目,其中包括數(shù)據(jù)倉庫,最終導(dǎo)致各級水平上的成本削減。雖然微軟是無數(shù)IT人士“憎恨”的對象,但我們不得不承認(rèn),它在市場定位方面的工作一直很成功。作為快速解決企業(yè)當(dāng)前存在的實(shí)際問題的一種有效方法,獨(dú)立型數(shù)據(jù)集市成為一種既成事實(shí)。u 非集成。這樣的設(shè)計(jì)也許對提高整個(gè)系統(tǒng)的反應(yīng)速度方面有一定幫助,但卻削弱了數(shù)據(jù)集市相當(dāng)重要的一項(xiàng)優(yōu)勢——廉價(jià)。從而消除了數(shù)據(jù)集市件容易發(fā)生的數(shù)據(jù)冗余、不一致等問題。一些運(yùn)營商正在將它們的連接升級至10Gbps。在過去的15年中,互聯(lián)網(wǎng)的速度每年都會(huì)翻一番。盡管傳統(tǒng)的、基于集成電路的計(jì)算機(jī)短期內(nèi)還不會(huì)退出歷史舞臺(tái),但旨在超越它的超導(dǎo)計(jì)算機(jī)、納米計(jì)算機(jī)、光計(jì)算機(jī)、DNA計(jì)算機(jī)和量子計(jì)算機(jī)正在躍躍欲試。由于Enlight強(qiáng)大的性能,能夠被廣泛運(yùn)用在大型多媒體廣播系統(tǒng)、機(jī)場安全檢查系統(tǒng)和醫(yī)學(xué)數(shù)據(jù)庫系統(tǒng)等方面??茖W(xué)家的預(yù)測不是沒有依據(jù)的。這其中有成本的原因,有硬件技術(shù)的發(fā)展,也說明大家都在期待一個(gè)更加開放的平臺(tái)。(4)數(shù)據(jù)倉庫、聯(lián)機(jī)系統(tǒng)的發(fā)展根據(jù)長久以來的經(jīng)驗(yàn),計(jì)算機(jī)的軟硬件發(fā)展一直是互相促進(jìn)、互為動(dòng)力的。面向行業(yè)的數(shù)理統(tǒng)計(jì)學(xué)向更為普遍的應(yīng)用發(fā)展,并集成到應(yīng)用系統(tǒng)的數(shù)據(jù)倉庫解決方案中。在運(yùn)用有限的計(jì)算機(jī)資源時(shí)常常存在著競爭。第二章 數(shù)據(jù)倉庫需求分析 需求分析原因需求分析的成敗直接影響到數(shù)據(jù)倉庫的成敗實(shí)施。通過Powerdesigner、PL/SQL等工具,進(jìn)行設(shè)計(jì)開發(fā)。第三章 數(shù)據(jù)倉庫總體設(shè)計(jì) 數(shù)據(jù)倉庫實(shí)施環(huán)境數(shù)據(jù)庫以O(shè)RACLE為基礎(chǔ),POWERDESIGNER進(jìn)行數(shù)據(jù)模型的確定加工,PL/SQL DEVELOPER軟件進(jìn)行具體的過程開發(fā)。處理這種幾乎是不斷的變化是企業(yè)的最大挑戰(zhàn)之一。項(xiàng)目經(jīng)理在得到各方的反饋意見后,負(fù)責(zé)制定嚴(yán)格的路線,里程碑和成功指標(biāo)。這些模型必須解決企業(yè)用戶的管理信息系統(tǒng)(MISs)和商務(wù)智能( BI )分析需要。通常,技術(shù)軌道有自己的PM,但仍然可能需要填補(bǔ)那個(gè)角色。如果你的工作是與此人協(xié)調(diào)以同步任務(wù)。在這個(gè)階段許多方法要求原型或試點(diǎn)項(xiàng)目。圖31 通過POWERDESIGNER工具建表第二部分涉及數(shù)據(jù)從外部數(shù)據(jù)源到數(shù)據(jù)倉庫的提取轉(zhuǎn)換加載(ETL)。應(yīng)用軌道開發(fā)步驟聽起來很簡單:只要開發(fā)終端用戶應(yīng)用程序。然后是數(shù)據(jù)軌道各組件的展開數(shù)據(jù)倉庫數(shù)據(jù)庫(關(guān)系型和OLAP )的建立,以及ETL進(jìn)程的聯(lián)機(jī)。(5)日常管理日常業(yè)務(wù)運(yùn)營的管理是非常重要的。業(yè)務(wù)不是靜止的,它們必須不斷地改造自己,以保持競爭力。物理方面的威脅可以是外部的(龍卷風(fēng),洪水,火災(zāi),地震)或內(nèi)部(有意的,偶然的)。PM的工作是為整個(gè)數(shù)據(jù)倉庫安裝制定一個(gè)全面的防御?!皼]有更換的退役”是指數(shù)據(jù)庫用來執(zhí)行的功能不再需要。(8)良性循環(huán)在與這些數(shù)據(jù)倉庫的各個(gè)組件打交道的過程中,隨后將會(huì)有新一輪的發(fā)現(xiàn),這期間會(huì)評估隨著時(shí)間而發(fā)展的新需求。(2) 規(guī)范性設(shè)計(jì)原則統(tǒng)一模型命名規(guī)范、數(shù)據(jù)組織規(guī)范(包括時(shí)間粒度、數(shù)據(jù)粒度)。數(shù)據(jù)倉庫系統(tǒng)的具體結(jié)構(gòu),如圖所示。(3)元數(shù)據(jù)庫。(5)DW管理工具。數(shù)據(jù)集市中的數(shù)據(jù)仍具有數(shù)據(jù)倉庫的特點(diǎn),只不過數(shù)據(jù)集市中的數(shù)據(jù)是專為某一部門或某個(gè)特定商業(yè)需求所定制的。數(shù)據(jù)訪問和分析工具包括用戶查詢、分析和報(bào)表生成工具,數(shù)據(jù)挖掘工具,多維分析工具以及用客戶機(jī)/服務(wù)器工具開發(fā)的前端應(yīng)用。在確定數(shù)據(jù)粒度時(shí),應(yīng)注意的一條原則是:細(xì)化程度越高,粒度越小;細(xì)化程度越低,粒度越大。例如通信行業(yè),可以根據(jù)過去若干年的客戶變化情況,估計(jì)未來一年內(nèi)客戶數(shù)量的變化,進(jìn)而估計(jì)5~10年的變化情況(注意要估算最多和最少的情況)。對于雙重粒度和多重粒度的級別設(shè)計(jì)問題,唯一可行的辦法是采用猜測方法。經(jīng)過上述幾個(gè)步驟,基本符合要求的數(shù)據(jù)粒度已經(jīng)確立,在最終確定以前必須與用戶反復(fù)討論,確定數(shù)據(jù)粒度劃分是否符合所有主題域分析需求。可以通過ETL 數(shù)據(jù)抽轉(zhuǎn)換加載提高數(shù)據(jù)質(zhì)量,并通過元數(shù)據(jù)管理來保證數(shù)據(jù)集市間,數(shù)據(jù)集市和數(shù)據(jù)倉庫間數(shù)據(jù)映射的唯一性。它將從局部數(shù)據(jù)倉庫和總部的操作環(huán)境中抽取數(shù)據(jù)。對數(shù)據(jù)抽取接口的選擇必須重點(diǎn)考慮數(shù)據(jù)平臺(tái)、源數(shù)據(jù)形式、業(yè)務(wù)系統(tǒng)的性能要求以及業(yè)務(wù)量和數(shù)據(jù)量大小。增量抽取即每次只抽取自上次數(shù)據(jù)抽取以來產(chǎn)生的增量數(shù)據(jù)。DWD層的模型設(shè)計(jì),需要圍繞企業(yè)核心業(yè)務(wù)過程展開,關(guān)注業(yè)務(wù)過程中的核心業(yè)務(wù)事件和業(yè)務(wù)實(shí)體,以企業(yè)級數(shù)據(jù)模型規(guī)范為指導(dǎo),其數(shù)據(jù)域的劃分遵從企業(yè)級數(shù)據(jù)模型域的劃分。原則3:增加時(shí)間戳或時(shí)間拉鏈字段:針對不同類型數(shù)據(jù),考慮時(shí)間處理方式。u 對數(shù)據(jù)的約束不嚴(yán)格,導(dǎo)致無意義數(shù)據(jù)。(3)對于移動(dòng)經(jīng)營分析系統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)轉(zhuǎn)換工作,建議分別采取如下策略:u 對于數(shù)據(jù)量比較大的計(jì)費(fèi)、賬務(wù)等數(shù)據(jù),其特點(diǎn)是數(shù)據(jù)比較規(guī)范,域的合法性檢查工作不會(huì)太多,可能存在的工作就是不同字段的重新組合、匯總等工作。數(shù)據(jù)加載策略主要