【正文】
極有可能需要向下挖掘數(shù)據(jù)來分析其月或者日的數(shù)據(jù)。在做數(shù)據(jù)倉庫設計時,無法得到精確的需求,只有拿出了具體的設計方案后,才能得到具體有用的信息,所以猜測法的出發(fā)點是項目的大概需求和實際開發(fā)經(jīng)驗。表32是行業(yè)經(jīng)驗值。對每個事實表進行如上估算后,結(jié)合估算事實表的索引項大小,可以計算出最大、最小的DASD數(shù)。在數(shù)據(jù)倉庫中確定數(shù)據(jù)粒度,首先是數(shù)據(jù)存儲量的估算,在這里可采用粗略估算的方法來估算數(shù)據(jù)倉庫中將要使用到的DASD(直接存取存儲設備)數(shù)量。確定數(shù)據(jù)粒度是數(shù)據(jù)倉庫設計的基礎,當數(shù)據(jù)粒度合理確定后,設計和實現(xiàn)的其他問題就會變得非常容易,相反,如果沒有合理地確定粒度,后續(xù)的工作就會很難進行下去。 u 確定數(shù)據(jù)粒度的基本準則 數(shù)據(jù)倉庫中包含大量數(shù)據(jù)表,這些數(shù)據(jù)表中的數(shù)據(jù)以什么粒度來存儲,會對信息系統(tǒng)的多方面產(chǎn)生影響。其中多維分析工具能夠提供多維分析能力,數(shù)據(jù)挖掘工具分析大量的歷史數(shù)據(jù),從中發(fā)現(xiàn)業(yè)務發(fā)展規(guī)律,預測未來趨勢,對于特定的不能直接采用現(xiàn)有工具的業(yè)務需求,可考慮用客戶機/服務器工具開發(fā)相應的前端應用。(8)前端數(shù)據(jù)訪問和分析模塊。數(shù)據(jù)集市的結(jié)構(gòu)和數(shù)據(jù)倉庫類似。目前數(shù)據(jù)倉庫一般基于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),因為傳統(tǒng)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)成本和復雜性低,并且已為廣大企業(yè)所熟悉,而且它能滿足數(shù)據(jù)倉庫應用環(huán)境下的大部分功能需求。為數(shù)據(jù)倉庫的運行提供管理手段,以PL/SQL DEVELOPER為例,包括安全管理和存儲管理等。該模塊是根據(jù)元數(shù)據(jù)庫中的數(shù)據(jù)源定義、數(shù)據(jù)抽取規(guī)則定義對異地異構(gòu)數(shù)據(jù)源進行清理、轉(zhuǎn)換,對數(shù)據(jù)進行重新組織和加工,裝載到數(shù)據(jù)倉庫的目標庫中。用于存儲數(shù)據(jù)模型和元數(shù)據(jù)。因為數(shù)據(jù)進入數(shù)據(jù)倉庫之前必須經(jīng)過檢驗,排除可能隱藏的錯誤。各組成部分功能如下:圖33 數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)(1)數(shù)據(jù)源。 通常情況下,數(shù)據(jù)倉庫的實體擴展,不會影響核心實體和核心實體關(guān)系。(3) 完整性設計原則考慮業(yè)務覆蓋范圍的完整性和模型設計的完整性。隨著時間的推移,生命周期的多次迭代過程會導致數(shù)據(jù)倉庫緊密聯(lián)系于企業(yè)結(jié)構(gòu),直到數(shù)據(jù)倉庫和業(yè)務成為無縫的整體。發(fā)生這種情況可能來自從存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)收集到的信息。每個方案都有其風險和回報。不僅是數(shù)據(jù)庫退休了,在它之上的執(zhí)行功能也退休了。一般來說,退役步驟以如下三種方式之一發(fā)生:沒有更換的退役。(7) 退役可能有一天當數(shù)據(jù)倉庫,或一個組件部分(分期數(shù)據(jù)庫,數(shù)據(jù)集市,報告數(shù)據(jù)庫,立方體)不再符合要求,解除它的時間就到了。瀏覽器的用戶界面已經(jīng)把嵌入式SQL調(diào)用暴露給了SQL注入式攻擊。防止來自物理方面威脅的做法既可以是采用簡單的限制訪問計算機和通信室,也可以如位于地理上相距甚遠的容錯站點上的鏡像服務器般復雜(且昂貴)。(6)防護保護數(shù)據(jù)倉庫涉及的不僅僅是采取定期備份或確保沒有任何應用程序包括SQL查詢可能會開放給SQL注入式攻擊。數(shù)據(jù)倉庫數(shù)據(jù)管理員的職責就是跟蹤數(shù)據(jù)的使用,評估數(shù)據(jù)的重要性,并檢測業(yè)務什么時候開始需要轉(zhuǎn)變。有時必須準備承擔,包括確保所有的系統(tǒng)(硬件,通信鏈路,系統(tǒng)軟件)的全面運作,打最新的補丁和升級。而這常常在規(guī)劃和開發(fā)過程中被忽視。在準確的指導和引導下,三個軌道將按預定計劃到達部署階段,避免數(shù)周數(shù)月的“誤點”憂慮。在最終的應用層添加之前往往會打住一下,當通過ETL進程讓數(shù)據(jù)流從外部來源進入各種不同的數(shù)據(jù)倉庫數(shù)據(jù)庫和立方體時,進行必要的測試和調(diào)整。(4) 部署部署數(shù)據(jù)倉庫和部署交易數(shù)據(jù)庫是不一樣的,通常,可以用一種快速、包羅萬象的風格部署一個交易數(shù)據(jù)庫,而數(shù)據(jù)倉庫通常是遞增式地部署到整個企業(yè)的各類用戶中。然而,這可能是整個過程中最復雜和費時的任務,并且可能是代價最高的如果沒有認真制定和考慮成功的量度標準。為了從新的數(shù)據(jù)倉庫交付數(shù)據(jù),應該選定數(shù)據(jù)倉庫的服務器和存儲解決方案,以及新的,最終用戶面臨的硬件。包含在第二部分但不局限于這一部分的是數(shù)據(jù)轉(zhuǎn)換服務( DTS )/SQL Server整合服務( SSIS)補丁的開發(fā)與測試,導入/導出和TSQL腳本開發(fā)和測試,以及對外部數(shù)據(jù)源組件的數(shù)據(jù)整合測試,這些數(shù)據(jù)不會導入到數(shù)據(jù)倉庫。如果按照“7D法”設計了一個原型,并且最終進入了產(chǎn)品(大多數(shù)原型都是這樣),然后要選擇比第一個切片更仔細地選擇第二個切片。“7D法”不需要。應用層的BI部分是一組查詢和響應,以幫助執(zhí)行管理作出戰(zhàn)略決策,推動商務運營。如果不是,那工作描述會擴大。數(shù)據(jù)倉庫設施包括各種硬件,通信和軟件解決方案,所有這一切都必須協(xié)同工作,為終端用戶提供一個工作的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫可以增長為非常大的內(nèi)容和十分廣泛的范圍,因此有必要在數(shù)據(jù)倉庫部署之前恰當?shù)匾?guī)劃其大小。在設計階段建立的模型必須反映第一階段收集的六個問題的答案。對于數(shù)據(jù)倉庫項目,可以為關(guān)系型數(shù)據(jù)倉庫創(chuàng)建概念和邏輯數(shù)據(jù)模型,為表示多維立方體創(chuàng)建三維模型。如果上述策略的任何部分遺漏了,該項目很有可能失去最終用戶的評分,這可能會導致低的采用通過率和未來資金的丟失。如果項目里沒有PM,這些將成為您的工作。發(fā)掘這一步實質(zhì)上就是調(diào)查,應該不斷地問六個基本問題(什么,如何,在何處,誰,何時和為什么),記錄好答案,并把這些答案包含在您起草的解決方案中。這就是為什么數(shù)據(jù)倉庫團隊中的每一個人,包括技術(shù)決策者( TDMs ) 和業(yè)務決策者( BDMs ),都必須處在同一陣線上,使用同一種生命周期管理方法,以使他們的認識完全得到統(tǒng)一。數(shù)據(jù)倉庫的構(gòu)建從來不會真正結(jié)束。 確定數(shù)據(jù)倉庫開發(fā)的生命周期由于數(shù)據(jù)倉庫最佳結(jié)合了業(yè)務慣例和信息系統(tǒng)技術(shù),因此,一個成功的數(shù)據(jù)倉庫實施需要這兩方面的不斷協(xié)調(diào),以均衡其所有的需要,要求,任務和成果。有些情況下還會有項目協(xié)調(diào)和會議記錄等人員參加。(4)ETL調(diào)度人員:在開發(fā)人員腳本成功開發(fā)后,由ETL統(tǒng)一并行調(diào)度,保證及時觸發(fā)節(jié)點,并實時監(jiān)控。圖22 接口規(guī)范制定流程(2) 接口人員:負責承接省分上傳的數(shù)據(jù),進行初步的稽核,確認是否需要遲傳、通報等,并通過ETL調(diào)度,調(diào)起節(jié)點。對于一個嚴格完整的數(shù)據(jù)倉庫項目來說,需求分析應該屬于數(shù)據(jù)倉庫項目的第二個過程,第一階段屬于數(shù)據(jù)倉庫項目定義階段,對項目范圍、項目評估、可行性研究分析和投資回報等相關(guān)進行定義,也是一個不容忽視的階段。 數(shù)據(jù)倉庫的解決方法包括:將決策支持型數(shù)據(jù)處理從事務型數(shù)據(jù)處理中分離出來。在增加新信息的時候我們需要事務型數(shù)據(jù)庫是空閑的。在企業(yè)運作過程中:隨著定單、銷售記錄的進行,這些事務型數(shù)據(jù)也連續(xù)的產(chǎn)生。它們將立足于數(shù)據(jù)倉庫提供的豐富信息,更好地為業(yè)務決策服務。到那時對一個包含5千萬條記錄的DW作一次完整分析,也僅僅需要幾秒鐘的時間。以上所述的未來高性能計算機、Internet網(wǎng)格技術(shù)等等已經(jīng)為我們勾勒出了一幅美好的畫面。 一些發(fā)達國家和跨國公司已為此投下了巨資。網(wǎng)格技術(shù)正是這種趨勢發(fā)展的一個必然。后來,為了降低成本,很多企業(yè)也打算利用閑置的資源,網(wǎng)格開始逐步進入商業(yè)市場,并由此為許多產(chǎn)業(yè)帶來了新的機遇。到2015年,硅芯片的運算速度和微型化發(fā)展都將止步不前?!钡聡_姆施塔特大學的科爾內(nèi)利婭比如在移動通信領(lǐng)域,采用Enlight進行多用戶檢測,即通過重復計算一系列方程式,能解除同一基站內(nèi)用戶間的相互干擾。以光速進行計算,運行速度達到每秒8萬億次——這相當于一臺超級計算機的運算能力。與傳統(tǒng)硅芯片計算機不同,光計算機用光束代替電子進行運算和存儲:它以不同波長的光代表不同的數(shù)據(jù),以大量的透鏡、棱鏡和反射鏡將數(shù)據(jù)從一個芯片傳送到另一個芯片。(2)未來高性能計算機按照摩爾定律,每過18個月,微處理器硅芯片上晶體管的數(shù)量就會翻一番。研究人員相信,這種每年增長100%的趨勢在未來還會持續(xù)下去。研究人員還在開發(fā)新的中間件技術(shù),使通過網(wǎng)絡的協(xié)作更無縫更安全。P2P應用、高清晰視頻會議、實驗室設備的遠程操作、分布式計算等應用都可以在Internet2上運行。目前看來這還是一項相當復雜的工程,但其一旦實現(xiàn),給數(shù)據(jù)倉庫行業(yè)帶來的震動將是難以想象的。(3) 后期維護容易當集市群因某種需求而要加入新的數(shù)據(jù)集市時,所要考慮的問題僅是新的模塊需要那些數(shù)據(jù),原有集市群能提供那些數(shù)據(jù)。雖然比只有幾個數(shù)據(jù)集市的成本高,但與數(shù)據(jù)倉庫相比還是便宜很多。其成本甚至超過了單一數(shù)據(jù)倉庫系統(tǒng),不利于此類技術(shù)的大眾化、平民化發(fā)展。如果企業(yè)最終想建設一個全企業(yè)統(tǒng)一的數(shù)據(jù)倉庫,想要以整個企業(yè)的視圖分析數(shù)據(jù),獨立型數(shù)據(jù)集市恐怕不是合適的選擇。獨立數(shù)據(jù)集市是由自成體系的團隊建立的,而且一般是為不同的部門建立的,導致這些數(shù)據(jù)集市沒有進行集成,而且沒有一個會包含了整個企業(yè)的視圖。數(shù)據(jù)倉庫的體系結(jié)構(gòu)可以對所有數(shù)據(jù)集市的共同活動進行集中化,沒有數(shù)據(jù)倉庫,這些流程就必須為每個數(shù)據(jù)集市進行復制,這將大大增加維護DSS所需的員工數(shù)量。獨立型數(shù)據(jù)集市是為滿足特定用戶的需求而建立的一種分析型環(huán)境,它能夠快速地解決某些具體的問題,而且投資規(guī)模也比數(shù)據(jù)倉庫小很多。而此時數(shù)據(jù)集市則成了他們不錯的選擇。其所堅持的走大眾化、平民化道路的理念,從操作系統(tǒng)中的windows,辦公軟件里得Office到數(shù)據(jù)庫領(lǐng)域的SQL Sever等等,無一不是成功的案例。為此,微軟在數(shù)據(jù)倉庫市場中倡導了另一個概念——數(shù)據(jù)集市(Data Mart)。新的數(shù)據(jù)倉庫項目仍將不斷進行,但是企業(yè)不會再妄想一步登天去做那些對盈利沒有直接影響的事;它們還想有一個明確的商業(yè)案例,明確的投資回報率和更短的回報周期。需要確定投資回報率。(8)越來越了解如何對“成功或失敗”問題做出正確分析——知識管理在企業(yè)倉促著手建立數(shù)據(jù)倉庫或其它分析型知識庫時,數(shù)據(jù)質(zhì)量或元數(shù)據(jù)這些重要問題經(jīng)常被忽視,其后果就是,很多企業(yè)現(xiàn)今發(fā)現(xiàn)他們的行動成功性打了不少折扣,因為他們不能確定“成功或失敗”問題。(5)EAI和ETL工具的集成(6)快速反應的決策支持電子商務的不斷增長驅(qū)使著企業(yè)去尋找共享數(shù)據(jù)和對機會快速反應的方法,雖然真正的實時決策支持基本是不可能的,但數(shù)據(jù)倉庫技術(shù)的進步卻使快速反應的決策支持得以實現(xiàn)。(2)數(shù)據(jù)集市的整合(3)客戶數(shù)據(jù)集成許多企業(yè)如今很想跨越產(chǎn)品線、業(yè)務單位、渠道和地理各方面來綜合地得到一個關(guān)于客戶的單一視圖,一種稱之為客戶數(shù)據(jù)集成(CDI)的解決方案應聲而出,其核心部分由數(shù)據(jù)倉庫和相關(guān)技術(shù)構(gòu)成。所以數(shù)據(jù)倉庫的概念一經(jīng)出現(xiàn),就首先被應用于金融、電信、保險等行業(yè)。(4)數(shù)據(jù)倉庫設計的技術(shù)咨詢數(shù)據(jù)倉庫絕不是簡單的產(chǎn)品堆砌,它是一個綜合性的解決方案和系統(tǒng)工程。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。(1)數(shù)據(jù)的抽取數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質(zhì)中導入數(shù)據(jù)倉庫。數(shù)據(jù)倉庫就是一個作為決策支持系統(tǒng)和聯(lián)機分析應用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。第三,業(yè)務數(shù)據(jù)的模式針對事務處理系統(tǒng)而設計,數(shù)據(jù)的格式和描述方式并不適合非計算機專業(yè)人員進行業(yè)務上的分析和統(tǒng)計。事實上,將大量的業(yè)務數(shù)據(jù)應用于分析和統(tǒng)計原本是一個非常簡單和自然的想法。還有一類被稱為元數(shù)據(jù)知識庫(MetadataRepository)的工具,它們獨立于其它工具,為元數(shù)據(jù)提供一個集中的存儲空間。這些工具都提供了業(yè)務元數(shù)據(jù)與技術(shù)元數(shù)據(jù)相對應的語義層。與元數(shù)據(jù)相關(guān)的數(shù)據(jù)倉庫工具大致可分為四類: (1)數(shù)據(jù)抽取工具把業(yè)務系統(tǒng)中的數(shù)據(jù)抽取、轉(zhuǎn)換、集成到數(shù)據(jù)倉庫中,如Ardent的DataStage、CA(原Platinum)的DecisionBase和ETI的Extract等。u 衡量數(shù)據(jù)質(zhì)量。 元數(shù)據(jù)的作用u 描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中。業(yè)務元數(shù)據(jù)主要包括以下:使用者的業(yè)務術(shù)語所表達的數(shù)據(jù)模型、對象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;系統(tǒng)所提供的分析方法以及公式和報表的;具體包括以下:l (1)企業(yè)概念模型這是業(yè)務元數(shù)據(jù)所應提供的重要的,它表示企業(yè)數(shù)據(jù)模型的高層、整個企業(yè)的業(yè)務概念和相互關(guān)系。 技術(shù)元數(shù)據(jù)技術(shù)元數(shù)據(jù)是存儲關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它主要包括數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)和導出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;業(yè)務系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式。(6) 容量不同數(shù)據(jù)庫在基本容量上要比數(shù)據(jù)倉庫小的多。 ?。?) 存儲的數(shù)據(jù)不同數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù),數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。二者的聯(lián)系:數(shù)據(jù)倉庫的出現(xiàn),并不是要取代數(shù)據(jù)庫。”這里的主題,是指用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進行組織的,而不是像業(yè)務支撐系統(tǒng)那樣是按照業(yè)務功能進行組織的。(9) 數(shù)據(jù)源數(shù)據(jù)來自內(nèi)部的和外部的非集成操作系統(tǒng)。(5) 匯總的操作性數(shù)據(jù)映射成決策可用的格式。(2) 數(shù)據(jù)倉庫是集成的數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進行加工與集成,統(tǒng)一與綜合之后才能進入數(shù)據(jù)倉庫。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)的文件格式多樣,有各種不同數(shù)據(jù)庫的,也有文本文件型的,還有多媒體文件型的。 logic model construction through software design, to determine the relationship between tables。摘 要自20世紀90 年代以來,計算機技術(shù)發(fā)展迅猛,各通信商逐步開發(fā)出新的BI系統(tǒng)。關(guān)鍵詞: 數(shù)據(jù)倉庫,物理模型,維護和優(yōu)化English abstractSince the nineteen ninties, puter technology is developing rapidly, the munication business gradually developed a new BI system. Reality to munication field is presented for fully using data ware