【正文】
(3)對于移動經(jīng)營分析系統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)轉(zhuǎn)換工作,建議分別采取如下策略:u 對于數(shù)據(jù)量比較大的計費、賬務(wù)等數(shù)據(jù),其特點是數(shù)據(jù)比較規(guī)范,域的合法性檢查工作不會太多,可能存在的工作就是不同字段的重新組合、匯總等工作。原則3:增加時間戳或時間拉鏈字段:針對不同類型數(shù)據(jù),考慮時間處理方式。增量抽取即每次只抽取自上次數(shù)據(jù)抽取以來產(chǎn)生的增量數(shù)據(jù)。它將從局部數(shù)據(jù)倉庫和總部的操作環(huán)境中抽取數(shù)據(jù)。經(jīng)過上述幾個步驟,基本符合要求的數(shù)據(jù)粒度已經(jīng)確立,在最終確定以前必須與用戶反復(fù)討論,確定數(shù)據(jù)粒度劃分是否符合所有主題域分析需求。例如通信行業(yè),可以根據(jù)過去若干年的客戶變化情況,估計未來一年內(nèi)客戶數(shù)量的變化,進(jìn)而估計5~10年的變化情況(注意要估算最多和最少的情況)。數(shù)據(jù)訪問和分析工具包括用戶查詢、分析和報表生成工具,數(shù)據(jù)挖掘工具,多維分析工具以及用客戶機(jī)/服務(wù)器工具開發(fā)的前端應(yīng)用。(5)DW管理工具。數(shù)據(jù)倉庫系統(tǒng)的具體結(jié)構(gòu),如圖所示。(8)良性循環(huán)在與這些數(shù)據(jù)倉庫的各個組件打交道的過程中,隨后將會有新一輪的發(fā)現(xiàn),這期間會評估隨著時間而發(fā)展的新需求。PM的工作是為整個數(shù)據(jù)倉庫安裝制定一個全面的防御。業(yè)務(wù)不是靜止的,它們必須不斷地改造自己,以保持競爭力。然后是數(shù)據(jù)軌道各組件的展開數(shù)據(jù)倉庫數(shù)據(jù)庫(關(guān)系型和OLAP )的建立,以及ETL進(jìn)程的聯(lián)機(jī)。圖31 通過POWERDESIGNER工具建表第二部分涉及數(shù)據(jù)從外部數(shù)據(jù)源到數(shù)據(jù)倉庫的提取轉(zhuǎn)換加載(ETL)。如果你的工作是與此人協(xié)調(diào)以同步任務(wù)。這些模型必須解決企業(yè)用戶的管理信息系統(tǒng)(MISs)和商務(wù)智能( BI )分析需要。處理這種幾乎是不斷的變化是企業(yè)的最大挑戰(zhàn)之一。通過Powerdesigner、PL/SQL等工具,進(jìn)行設(shè)計開發(fā)。在運用有限的計算機(jī)資源時常常存在著競爭。(4)數(shù)據(jù)倉庫、聯(lián)機(jī)系統(tǒng)的發(fā)展根據(jù)長久以來的經(jīng)驗,計算機(jī)的軟硬件發(fā)展一直是互相促進(jìn)、互為動力的。科學(xué)家的預(yù)測不是沒有依據(jù)的。盡管傳統(tǒng)的、基于集成電路的計算機(jī)短期內(nèi)還不會退出歷史舞臺,但旨在超越它的超導(dǎo)計算機(jī)、納米計算機(jī)、光計算機(jī)、DNA計算機(jī)和量子計算機(jī)正在躍躍欲試。一些運營商正在將它們的連接升級至10Gbps。這樣的設(shè)計也許對提高整個系統(tǒng)的反應(yīng)速度方面有一定幫助,但卻削弱了數(shù)據(jù)集市相當(dāng)重要的一項優(yōu)勢——廉價。作為快速解決企業(yè)當(dāng)前存在的實際問題的一種有效方法,獨立型數(shù)據(jù)集市成為一種既成事實。這種不斷增加的對盈虧問題的注意力影響到了IT項目,其中包括數(shù)據(jù)倉庫,最終導(dǎo)致各級水平上的成本削減。但數(shù)據(jù)增長也將使企業(yè)面臨一些新問題,包括數(shù)據(jù)倉庫的可升級性以及可能出現(xiàn)的性能問題。由于數(shù)據(jù)倉庫的這種工程性,因而在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、存儲和管理、數(shù)據(jù)的表現(xiàn)以及數(shù)據(jù)倉庫設(shè)計的技術(shù)咨詢四個方面。 (4)元工具元數(shù)據(jù)通常存儲在專用的數(shù)據(jù)庫中,該數(shù)據(jù)庫就如同一個“黑盒子”,外部無法知道這些工具所用到和產(chǎn)生的元數(shù)據(jù)是如何存儲的。l (3)業(yè)務(wù)概念模型和物理數(shù)據(jù)之間的依賴業(yè)務(wù)元數(shù)據(jù)只是表示出了數(shù)據(jù)的業(yè)務(wù)視圖,這些業(yè)務(wù)視圖與實際的數(shù)據(jù)倉庫或數(shù)據(jù)庫、中的表、字段、維、層次等之間的對應(yīng)關(guān)系也應(yīng)該在元數(shù)據(jù)知識庫中有所體現(xiàn)。 二者的區(qū)別: ?。?) 出發(fā)點不同數(shù)據(jù)庫是面向事務(wù)的設(shè)計,數(shù)據(jù)倉庫是面向主題設(shè)計的。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時間改變。關(guān)鍵詞: 數(shù)據(jù)倉庫,物理模型,維護(hù)和優(yōu)化English abstractSince the nineteen ninties, puter technology is developing rapidly, the munication business gradually developed a new BI system. Reality to munication field is presented for fully using data warehouse technology to existing data structures bee available, controllable, scalable data organization, to adapt to the field of munication at all levels of managers and business analysis.In this paper from the data warehouse requirement analysis includes the participation of members, each member of the role played by。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題?!边@里的主題,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進(jìn)行組織的。 技術(shù)元數(shù)據(jù)技術(shù)元數(shù)據(jù)是存儲關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它主要包括數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式。與元數(shù)據(jù)相關(guān)的數(shù)據(jù)倉庫工具大致可分為四類: (1)數(shù)據(jù)抽取工具把業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)抽取、轉(zhuǎn)換、集成到數(shù)據(jù)倉庫中,如Ardent的DataStage、CA(原Platinum)的DecisionBase和ETI的Extract等。第三,業(yè)務(wù)數(shù)據(jù)的模式針對事務(wù)處理系統(tǒng)而設(shè)計,數(shù)據(jù)的格式和描述方式并不適合非計算機(jī)專業(yè)人員進(jìn)行業(yè)務(wù)上的分析和統(tǒng)計。(4)數(shù)據(jù)倉庫設(shè)計的技術(shù)咨詢數(shù)據(jù)倉庫絕不是簡單的產(chǎn)品堆砌,它是一個綜合性的解決方案和系統(tǒng)工程。(8)越來越了解如何對“成功或失敗”問題做出正確分析——知識管理在企業(yè)倉促著手建立數(shù)據(jù)倉庫或其它分析型知識庫時,數(shù)據(jù)質(zhì)量或元數(shù)據(jù)這些重要問題經(jīng)常被忽視,其后果就是,很多企業(yè)現(xiàn)今發(fā)現(xiàn)他們的行動成功性打了不少折扣,因為他們不能確定“成功或失敗”問題。其所堅持的走大眾化、平民化道路的理念,從操作系統(tǒng)中的windows,辦公軟件里得Office到數(shù)據(jù)庫領(lǐng)域的SQL Sever等等,無一不是成功的案例。獨立數(shù)據(jù)集市是由自成體系的團(tuán)隊建立的,而且一般是為不同的部門建立的,導(dǎo)致這些數(shù)據(jù)集市沒有進(jìn)行集成,而且沒有一個會包含了整個企業(yè)的視圖。(3) 后期維護(hù)容易當(dāng)集市群因某種需求而要加入新的數(shù)據(jù)集市時,所要考慮的問題僅是新的模塊需要那些數(shù)據(jù),原有集市群能提供那些數(shù)據(jù)。研究人員相信,這種每年增長100%的趨勢在未來還會持續(xù)下去。比如在移動通信領(lǐng)域,采用Enlight進(jìn)行多用戶檢測,即通過重復(fù)計算一系列方程式,能解除同一基站內(nèi)用戶間的相互干擾。網(wǎng)格技術(shù)正是這種趨勢發(fā)展的一個必然。它們將立足于數(shù)據(jù)倉庫提供的豐富信息,更好地為業(yè)務(wù)決策服務(wù)。對于一個嚴(yán)格完整的數(shù)據(jù)倉庫項目來說,需求分析應(yīng)該屬于數(shù)據(jù)倉庫項目的第二個過程,第一階段屬于數(shù)據(jù)倉庫項目定義階段,對項目范圍、項目評估、可行性研究分析和投資回報等相關(guān)進(jìn)行定義,也是一個不容忽視的階段。 確定數(shù)據(jù)倉庫開發(fā)的生命周期由于數(shù)據(jù)倉庫最佳結(jié)合了業(yè)務(wù)慣例和信息系統(tǒng)技術(shù),因此,一個成功的數(shù)據(jù)倉庫實施需要這兩方面的不斷協(xié)調(diào),以均衡其所有的需要,要求,任務(wù)和成果。如果項目里沒有PM,這些將成為您的工作。數(shù)據(jù)倉庫可以增長為非常大的內(nèi)容和十分廣泛的范圍,因此有必要在數(shù)據(jù)倉庫部署之前恰當(dāng)?shù)匾?guī)劃其大小。“7D法”不需要。然而,這可能是整個過程中最復(fù)雜和費時的任務(wù),并且可能是代價最高的如果沒有認(rèn)真制定和考慮成功的量度標(biāo)準(zhǔn)。而這常常在規(guī)劃和開發(fā)過程中被忽視。防止來自物理方面威脅的做法既可以是采用簡單的限制訪問計算機(jī)和通信室,也可以如位于地理上相距甚遠(yuǎn)的容錯站點上的鏡像服務(wù)器般復(fù)雜(且昂貴)。不僅是數(shù)據(jù)庫退休了,在它之上的執(zhí)行功能也退休了。(3) 完整性設(shè)計原則考慮業(yè)務(wù)覆蓋范圍的完整性和模型設(shè)計的完整性。用于存儲數(shù)據(jù)模型和元數(shù)據(jù)。數(shù)據(jù)集市的結(jié)構(gòu)和數(shù)據(jù)倉庫類似。確定數(shù)據(jù)粒度是數(shù)據(jù)倉庫設(shè)計的基礎(chǔ),當(dāng)數(shù)據(jù)粒度合理確定后,設(shè)計和實現(xiàn)的其他問題就會變得非常容易,相反,如果沒有合理地確定粒度,后續(xù)的工作就會很難進(jìn)行下去。在做數(shù)據(jù)倉庫設(shè)計時,無法得到精確的需求,只有拿出了具體的設(shè)計方案后,才能得到具體有用的信息,所以猜測法的出發(fā)點是項目的大概需求和實際開發(fā)經(jīng)驗。統(tǒng)一數(shù)據(jù)架構(gòu)是基于聯(lián)通全企業(yè)的整體數(shù)據(jù)規(guī)劃,本期計劃首先實現(xiàn)B域和M域的數(shù)據(jù)模型整合,構(gòu)建企業(yè)級的統(tǒng)一數(shù)據(jù)倉庫,并在后期考慮O域數(shù)據(jù)的整合。根據(jù)抽取的源數(shù)據(jù)形式,選擇數(shù)據(jù)抽取接口的原則建議為以下幾點:u 對于數(shù)據(jù)形式為關(guān)系型數(shù)據(jù)庫的系統(tǒng),建議采用ODBC、OLEDB或?qū)S脭?shù)據(jù)庫驅(qū)動接口方式。 實體選取的原則原則1:業(yè)務(wù)過程中的核心事件實體及相關(guān)維度,長期沉淀,如:通話詳單、繳費等原則2:業(yè)務(wù)過程中的核心業(yè)務(wù)實體及相關(guān)維度,長期沉淀,如:客戶、產(chǎn)品、訂購實例、渠道等原則3:業(yè)務(wù)過程中產(chǎn)生的可度量實體及相關(guān)維度,長期沉淀,如:帳單、傭金等。u 存在重復(fù)記錄。根據(jù)實際的系統(tǒng)及數(shù)據(jù)量情況進(jìn)行權(quán)衡。u 源數(shù)據(jù)定義不規(guī)范導(dǎo)致錯誤數(shù)據(jù)。 DWD層建設(shè) DWD定義DWD是數(shù)據(jù)倉庫的細(xì)節(jié)數(shù)據(jù)層,為各種分析類應(yīng)用提供細(xì)節(jié)性數(shù)據(jù)支持,是數(shù)據(jù)倉庫的核心,同時為未來需求的擴(kuò)展提供歷史數(shù)據(jù)支持。在數(shù)據(jù)抽取時需要重點考慮數(shù)據(jù)抽取的效率。結(jié)合通信行業(yè)現(xiàn)有分布數(shù)據(jù)中心的特點,提出基于邏輯數(shù)據(jù)模型的分布式數(shù)據(jù)倉庫結(jié)構(gòu),上述結(jié)構(gòu)采用分步實施,自底向上的辦法,具體項目實施中可選擇數(shù)據(jù)質(zhì)量較好、系統(tǒng)相對集中的數(shù)據(jù)中心進(jìn)行數(shù)據(jù)集市試點,等成功后再逐步推廣,最后構(gòu)建全局?jǐn)?shù)據(jù)倉庫,這種方式較為符合通信行業(yè)的實際需求,可以快速見效,提高了系統(tǒng)成功率,且通過統(tǒng)一邏輯數(shù)據(jù)模型的映射基本能滿足單一數(shù)據(jù)視圖的要求。我們應(yīng)著重分析的對象是主題領(lǐng)域中某個確定的“維度”。一般情況下,根據(jù)數(shù)據(jù)粒度劃分標(biāo)準(zhǔn)可以將數(shù)據(jù)倉庫中的數(shù)據(jù)劃分為:詳細(xì)數(shù)據(jù)、輕度總結(jié)、高度總結(jié)三級或更多級。數(shù)據(jù)集市是支持某一部分或特定商業(yè)需求的DSS應(yīng)用的集合。設(shè)計模塊就是承擔(dān)描述數(shù)據(jù)的檢驗、整理、加工的需求和相應(yīng)過程及步驟。 通訊數(shù)據(jù)倉庫設(shè)計原則(1) 主題域設(shè)計原則 模型共劃分10個域,M域是其中一個單獨的域—企業(yè)管理域,DWA模型設(shè)計遵循主體域劃分原則。和逐步到位/逐步淘汰的退役。數(shù)據(jù)倉庫的威脅通常分為兩類,物理的和邏輯的。沒有用戶界面( UI)的數(shù)據(jù)倉庫對任何人都是沒用的,而一個尺寸不足,弱工程系統(tǒng)架構(gòu)的數(shù)據(jù)倉庫會因性能太差而不會被企業(yè)用戶采用。根據(jù)發(fā)掘階段收集到的需求,數(shù)據(jù)倉庫環(huán)境可能還要支持?jǐn)?shù)據(jù)集市,快照,和報告數(shù)據(jù)庫,因此,也要準(zhǔn)備為這些方面考慮環(huán)境。記分牌,圖形和數(shù)據(jù)透視表是BI的應(yīng)用例子,它們能刺激更多的數(shù)據(jù)探索,而這可能導(dǎo)致公司內(nèi)部戰(zhàn)略方向的改變。同時應(yīng)該明確說明哪些數(shù)據(jù)將被導(dǎo)入數(shù)據(jù)倉庫,哪些只會簡單地作為外部數(shù)據(jù)源引用。項目經(jīng)理作為一個獨立的專業(yè)人員,主要關(guān)心項目的及時上線、預(yù)算在控制范圍內(nèi),有預(yù)期的運行效果。需求會議一方面是為了消除局方在進(jìn)行需求確認(rèn)時的數(shù)據(jù)倉庫的盲區(qū),更重要的一方面是讓局方知道建設(shè)數(shù)據(jù)倉庫開發(fā)的過程和困難,還有一方面就是能夠得到局方配合來完成項目及時準(zhǔn)確的實施。數(shù)據(jù)倉庫是按回答企業(yè)某方面的問題來分“主題”組織數(shù)據(jù)的,這是最有效的數(shù)據(jù)組織方式。在數(shù)據(jù)管理上,聯(lián)機(jī)事務(wù)處理和數(shù)據(jù)倉庫在應(yīng)用中相對獨立,使聯(lián)機(jī)事務(wù)處理系統(tǒng)本身更加簡潔高效,同時分析統(tǒng)計也更為便利。就像計算機(jī)最初是大型主機(jī),發(fā)展到更加通用的小型機(jī),現(xiàn)在則又有了更多的選擇。以去年問世的“地球模擬器”為例,而這個速度是由它的5120個處理器共同創(chuàng)造出來的。通過語言標(biāo)準(zhǔn)化和兼容性,中間件將大大提高先進(jìn)網(wǎng)絡(luò)應(yīng)用的易用性。(2) 冗余度低由于加入了集市群控制器,各數(shù)據(jù)集市中的數(shù)據(jù)被統(tǒng)一調(diào)度,統(tǒng)一規(guī)劃。獨立數(shù)據(jù)集市直接讀取運作系統(tǒng)的文件或表,這極大限制了DSS的伸縮能力。對于數(shù)據(jù)集市這樣的規(guī)模,微軟的解決方案便可成為理想的選擇。(7)非結(jié)構(gòu)化信息的增長企業(yè)正面臨著非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的增長,包括圖像、聲音、視頻、XML以及其它的數(shù)據(jù)類型。(3)數(shù)據(jù)的表現(xiàn)數(shù)據(jù)表現(xiàn)是數(shù)據(jù)倉庫的門面。聯(lián)機(jī)分析和事務(wù)處理對系統(tǒng)的要求不同,同一個數(shù)據(jù)庫在理論上都難以做到兩全。 我們了解到元數(shù)據(jù)幾乎可以被稱為是數(shù)據(jù)倉庫乃至商業(yè)智能(BI)系統(tǒng)的“靈魂”,正是由于元數(shù)據(jù)在整個數(shù)據(jù)倉庫生命周期中有著重要的地位,各個廠商的都提到了關(guān)于對元數(shù)據(jù)的管理。 元數(shù)據(jù)元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。作為數(shù)據(jù)庫的一個分支,數(shù)據(jù)倉庫概念的提出,相對于數(shù)據(jù)庫從時間上就近得多。數(shù)據(jù)倉庫技術(shù)為解決充分有效的利用超大容量、多平臺數(shù)據(jù)資源這個問題提供了方法和手段,能夠充分利用現(xiàn)有的海量數(shù)據(jù)資源,并從中找出對通信的運作和決策有價值的信息。 physical model construction process table and detailed audit, used to support the proposed requirement。(6) 大容量時間序列數(shù)據(jù)集合通常都非常大。 ?。?) 設(shè)計規(guī)則不同數(shù)據(jù)庫設(shè)計是盡量避免冗余,一般采用符合范式的規(guī)則來設(shè)計,數(shù)據(jù)倉庫在設(shè)計是有意引入冗余,采用反范式的方式來設(shè)計。u 定義要進(jìn)入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù)。包括微軟的Repository,CA的Repository,Ardent的MetaStage和的WCC等。數(shù)據(jù)抽取可以定時進(jìn)行,但多個抽取操作執(zhí)行的時間、相互的順序、成敗對數(shù)據(jù)倉庫中信息的有效性則至關(guān)重要??蛻魯?shù)據(jù)集成提供了對客戶數(shù)據(jù)360176。 數(shù)據(jù)集市、集市群—行業(yè)的發(fā)展方向在數(shù)據(jù)倉庫產(chǎn)品方面,微軟是以其關(guān)系數(shù)據(jù)庫SQL Server作為它數(shù)據(jù)倉庫核心的。但獨立數(shù)據(jù)集市也存在一些問題:u 冗余數(shù)據(jù)。另一種比較理想的方式是,企業(yè)先就其最急需的領(lǐng)域建立獨立型數(shù)據(jù)集市,而后隨著需求的變化、實力的增強(qiáng)