【正文】
(3)對(duì)于移動(dòng)經(jīng)營分析系統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)轉(zhuǎn)換工作,建議分別采取如下策略:u 對(duì)于數(shù)據(jù)量比較大的計(jì)費(fèi)、賬務(wù)等數(shù)據(jù),其特點(diǎn)是數(shù)據(jù)比較規(guī)范,域的合法性檢查工作不會(huì)太多,可能存在的工作就是不同字段的重新組合、匯總等工作。原則3:增加時(shí)間戳或時(shí)間拉鏈字段:針對(duì)不同類型數(shù)據(jù),考慮時(shí)間處理方式。增量抽取即每次只抽取自上次數(shù)據(jù)抽取以來產(chǎn)生的增量數(shù)據(jù)。它將從局部數(shù)據(jù)倉庫和總部的操作環(huán)境中抽取數(shù)據(jù)。經(jīng)過上述幾個(gè)步驟,基本符合要求的數(shù)據(jù)粒度已經(jīng)確立,在最終確定以前必須與用戶反復(fù)討論,確定數(shù)據(jù)粒度劃分是否符合所有主題域分析需求。例如通信行業(yè),可以根據(jù)過去若干年的客戶變化情況,估計(jì)未來一年內(nèi)客戶數(shù)量的變化,進(jìn)而估計(jì)5~10年的變化情況(注意要估算最多和最少的情況)。數(shù)據(jù)訪問和分析工具包括用戶查詢、分析和報(bào)表生成工具,數(shù)據(jù)挖掘工具,多維分析工具以及用客戶機(jī)/服務(wù)器工具開發(fā)的前端應(yīng)用。(5)DW管理工具。數(shù)據(jù)倉庫系統(tǒng)的具體結(jié)構(gòu),如圖所示。(8)良性循環(huán)在與這些數(shù)據(jù)倉庫的各個(gè)組件打交道的過程中,隨后將會(huì)有新一輪的發(fā)現(xiàn),這期間會(huì)評(píng)估隨著時(shí)間而發(fā)展的新需求。PM的工作是為整個(gè)數(shù)據(jù)倉庫安裝制定一個(gè)全面的防御。業(yè)務(wù)不是靜止的,它們必須不斷地改造自己,以保持競爭力。然后是數(shù)據(jù)軌道各組件的展開數(shù)據(jù)倉庫數(shù)據(jù)庫(關(guān)系型和OLAP )的建立,以及ETL進(jìn)程的聯(lián)機(jī)。圖31 通過POWERDESIGNER工具建表第二部分涉及數(shù)據(jù)從外部數(shù)據(jù)源到數(shù)據(jù)倉庫的提取轉(zhuǎn)換加載(ETL)。如果你的工作是與此人協(xié)調(diào)以同步任務(wù)。這些模型必須解決企業(yè)用戶的管理信息系統(tǒng)(MISs)和商務(wù)智能( BI )分析需要。處理這種幾乎是不斷的變化是企業(yè)的最大挑戰(zhàn)之一。通過Powerdesigner、PL/SQL等工具,進(jìn)行設(shè)計(jì)開發(fā)。在運(yùn)用有限的計(jì)算機(jī)資源時(shí)常常存在著競爭。(4)數(shù)據(jù)倉庫、聯(lián)機(jī)系統(tǒng)的發(fā)展根據(jù)長久以來的經(jīng)驗(yàn),計(jì)算機(jī)的軟硬件發(fā)展一直是互相促進(jìn)、互為動(dòng)力的??茖W(xué)家的預(yù)測(cè)不是沒有依據(jù)的。盡管傳統(tǒng)的、基于集成電路的計(jì)算機(jī)短期內(nèi)還不會(huì)退出歷史舞臺(tái),但旨在超越它的超導(dǎo)計(jì)算機(jī)、納米計(jì)算機(jī)、光計(jì)算機(jī)、DNA計(jì)算機(jī)和量子計(jì)算機(jī)正在躍躍欲試。一些運(yùn)營商正在將它們的連接升級(jí)至10Gbps。這樣的設(shè)計(jì)也許對(duì)提高整個(gè)系統(tǒng)的反應(yīng)速度方面有一定幫助,但卻削弱了數(shù)據(jù)集市相當(dāng)重要的一項(xiàng)優(yōu)勢(shì)——廉價(jià)。作為快速解決企業(yè)當(dāng)前存在的實(shí)際問題的一種有效方法,獨(dú)立型數(shù)據(jù)集市成為一種既成事實(shí)。這種不斷增加的對(duì)盈虧問題的注意力影響到了IT項(xiàng)目,其中包括數(shù)據(jù)倉庫,最終導(dǎo)致各級(jí)水平上的成本削減。但數(shù)據(jù)增長也將使企業(yè)面臨一些新問題,包括數(shù)據(jù)倉庫的可升級(jí)性以及可能出現(xiàn)的性能問題。由于數(shù)據(jù)倉庫的這種工程性,因而在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、存儲(chǔ)和管理、數(shù)據(jù)的表現(xiàn)以及數(shù)據(jù)倉庫設(shè)計(jì)的技術(shù)咨詢四個(gè)方面。 (4)元工具元數(shù)據(jù)通常存儲(chǔ)在專用的數(shù)據(jù)庫中,該數(shù)據(jù)庫就如同一個(gè)“黑盒子”,外部無法知道這些工具所用到和產(chǎn)生的元數(shù)據(jù)是如何存儲(chǔ)的。l (3)業(yè)務(wù)概念模型和物理數(shù)據(jù)之間的依賴業(yè)務(wù)元數(shù)據(jù)只是表示出了數(shù)據(jù)的業(yè)務(wù)視圖,這些業(yè)務(wù)視圖與實(shí)際的數(shù)據(jù)倉庫或數(shù)據(jù)庫、中的表、字段、維、層次等之間的對(duì)應(yīng)關(guān)系也應(yīng)該在元數(shù)據(jù)知識(shí)庫中有所體現(xiàn)。 二者的區(qū)別: (1) 出發(fā)點(diǎn)不同數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉庫是面向主題設(shè)計(jì)的。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時(shí)間改變。關(guān)鍵詞: 數(shù)據(jù)倉庫,物理模型,維護(hù)和優(yōu)化English abstractSince the nineteen ninties, puter technology is developing rapidly, the munication business gradually developed a new BI system. Reality to munication field is presented for fully using data warehouse technology to existing data structures bee available, controllable, scalable data organization, to adapt to the field of munication at all levels of managers and business analysis.In this paper from the data warehouse requirement analysis includes the participation of members, each member of the role played by。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題?!边@里的主題,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進(jìn)行組織的。 技術(shù)元數(shù)據(jù)技術(shù)元數(shù)據(jù)是存儲(chǔ)關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它主要包括數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式。與元數(shù)據(jù)相關(guān)的數(shù)據(jù)倉庫工具大致可分為四類: (1)數(shù)據(jù)抽取工具把業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)抽取、轉(zhuǎn)換、集成到數(shù)據(jù)倉庫中,如Ardent的DataStage、CA(原Platinum)的DecisionBase和ETI的Extract等。第三,業(yè)務(wù)數(shù)據(jù)的模式針對(duì)事務(wù)處理系統(tǒng)而設(shè)計(jì),數(shù)據(jù)的格式和描述方式并不適合非計(jì)算機(jī)專業(yè)人員進(jìn)行業(yè)務(wù)上的分析和統(tǒng)計(jì)。(4)數(shù)據(jù)倉庫設(shè)計(jì)的技術(shù)咨詢數(shù)據(jù)倉庫絕不是簡單的產(chǎn)品堆砌,它是一個(gè)綜合性的解決方案和系統(tǒng)工程。(8)越來越了解如何對(duì)“成功或失敗”問題做出正確分析——知識(shí)管理在企業(yè)倉促著手建立數(shù)據(jù)倉庫或其它分析型知識(shí)庫時(shí),數(shù)據(jù)質(zhì)量或元數(shù)據(jù)這些重要問題經(jīng)常被忽視,其后果就是,很多企業(yè)現(xiàn)今發(fā)現(xiàn)他們的行動(dòng)成功性打了不少折扣,因?yàn)樗麄儾荒艽_定“成功或失敗”問題。其所堅(jiān)持的走大眾化、平民化道路的理念,從操作系統(tǒng)中的windows,辦公軟件里得Office到數(shù)據(jù)庫領(lǐng)域的SQL Sever等等,無一不是成功的案例。獨(dú)立數(shù)據(jù)集市是由自成體系的團(tuán)隊(duì)建立的,而且一般是為不同的部門建立的,導(dǎo)致這些數(shù)據(jù)集市沒有進(jìn)行集成,而且沒有一個(gè)會(huì)包含了整個(gè)企業(yè)的視圖。(3) 后期維護(hù)容易當(dāng)集市群因某種需求而要加入新的數(shù)據(jù)集市時(shí),所要考慮的問題僅是新的模塊需要那些數(shù)據(jù),原有集市群能提供那些數(shù)據(jù)。研究人員相信,這種每年增長100%的趨勢(shì)在未來還會(huì)持續(xù)下去。比如在移動(dòng)通信領(lǐng)域,采用Enlight進(jìn)行多用戶檢測(cè),即通過重復(fù)計(jì)算一系列方程式,能解除同一基站內(nèi)用戶間的相互干擾。網(wǎng)格技術(shù)正是這種趨勢(shì)發(fā)展的一個(gè)必然。它們將立足于數(shù)據(jù)倉庫提供的豐富信息,更好地為業(yè)務(wù)決策服務(wù)。對(duì)于一個(gè)嚴(yán)格完整的數(shù)據(jù)倉庫項(xiàng)目來說,需求分析應(yīng)該屬于數(shù)據(jù)倉庫項(xiàng)目的第二個(gè)過程,第一階段屬于數(shù)據(jù)倉庫項(xiàng)目定義階段,對(duì)項(xiàng)目范圍、項(xiàng)目評(píng)估、可行性研究分析和投資回報(bào)等相關(guān)進(jìn)行定義,也是一個(gè)不容忽視的階段。 確定數(shù)據(jù)倉庫開發(fā)的生命周期由于數(shù)據(jù)倉庫最佳結(jié)合了業(yè)務(wù)慣例和信息系統(tǒng)技術(shù),因此,一個(gè)成功的數(shù)據(jù)倉庫實(shí)施需要這兩方面的不斷協(xié)調(diào),以均衡其所有的需要,要求,任務(wù)和成果。如果項(xiàng)目里沒有PM,這些將成為您的工作。數(shù)據(jù)倉庫可以增長為非常大的內(nèi)容和十分廣泛的范圍,因此有必要在數(shù)據(jù)倉庫部署之前恰當(dāng)?shù)匾?guī)劃其大小?!?D法”不需要。然而,這可能是整個(gè)過程中最復(fù)雜和費(fèi)時(shí)的任務(wù),并且可能是代價(jià)最高的如果沒有認(rèn)真制定和考慮成功的量度標(biāo)準(zhǔn)。而這常常在規(guī)劃和開發(fā)過程中被忽視。防止來自物理方面威脅的做法既可以是采用簡單的限制訪問計(jì)算機(jī)和通信室,也可以如位于地理上相距甚遠(yuǎn)的容錯(cuò)站點(diǎn)上的鏡像服務(wù)器般復(fù)雜(且昂貴)。不僅是數(shù)據(jù)庫退休了,在它之上的執(zhí)行功能也退休了。(3) 完整性設(shè)計(jì)原則考慮業(yè)務(wù)覆蓋范圍的完整性和模型設(shè)計(jì)的完整性。用于存儲(chǔ)數(shù)據(jù)模型和元數(shù)據(jù)。數(shù)據(jù)集市的結(jié)構(gòu)和數(shù)據(jù)倉庫類似。確定數(shù)據(jù)粒度是數(shù)據(jù)倉庫設(shè)計(jì)的基礎(chǔ),當(dāng)數(shù)據(jù)粒度合理確定后,設(shè)計(jì)和實(shí)現(xiàn)的其他問題就會(huì)變得非常容易,相反,如果沒有合理地確定粒度,后續(xù)的工作就會(huì)很難進(jìn)行下去。在做數(shù)據(jù)倉庫設(shè)計(jì)時(shí),無法得到精確的需求,只有拿出了具體的設(shè)計(jì)方案后,才能得到具體有用的信息,所以猜測(cè)法的出發(fā)點(diǎn)是項(xiàng)目的大概需求和實(shí)際開發(fā)經(jīng)驗(yàn)。統(tǒng)一數(shù)據(jù)架構(gòu)是基于聯(lián)通全企業(yè)的整體數(shù)據(jù)規(guī)劃,本期計(jì)劃首先實(shí)現(xiàn)B域和M域的數(shù)據(jù)模型整合,構(gòu)建企業(yè)級(jí)的統(tǒng)一數(shù)據(jù)倉庫,并在后期考慮O域數(shù)據(jù)的整合。根據(jù)抽取的源數(shù)據(jù)形式,選擇數(shù)據(jù)抽取接口的原則建議為以下幾點(diǎn):u 對(duì)于數(shù)據(jù)形式為關(guān)系型數(shù)據(jù)庫的系統(tǒng),建議采用ODBC、OLEDB或?qū)S脭?shù)據(jù)庫驅(qū)動(dòng)接口方式。 實(shí)體選取的原則原則1:業(yè)務(wù)過程中的核心事件實(shí)體及相關(guān)維度,長期沉淀,如:通話詳單、繳費(fèi)等原則2:業(yè)務(wù)過程中的核心業(yè)務(wù)實(shí)體及相關(guān)維度,長期沉淀,如:客戶、產(chǎn)品、訂購實(shí)例、渠道等原則3:業(yè)務(wù)過程中產(chǎn)生的可度量實(shí)體及相關(guān)維度,長期沉淀,如:帳單、傭金等。u 存在重復(fù)記錄。根據(jù)實(shí)際的系統(tǒng)及數(shù)據(jù)量情況進(jìn)行權(quán)衡。u 源數(shù)據(jù)定義不規(guī)范導(dǎo)致錯(cuò)誤數(shù)據(jù)。 DWD層建設(shè) DWD定義DWD是數(shù)據(jù)倉庫的細(xì)節(jié)數(shù)據(jù)層,為各種分析類應(yīng)用提供細(xì)節(jié)性數(shù)據(jù)支持,是數(shù)據(jù)倉庫的核心,同時(shí)為未來需求的擴(kuò)展提供歷史數(shù)據(jù)支持。在數(shù)據(jù)抽取時(shí)需要重點(diǎn)考慮數(shù)據(jù)抽取的效率。結(jié)合通信行業(yè)現(xiàn)有分布數(shù)據(jù)中心的特點(diǎn),提出基于邏輯數(shù)據(jù)模型的分布式數(shù)據(jù)倉庫結(jié)構(gòu),上述結(jié)構(gòu)采用分步實(shí)施,自底向上的辦法,具體項(xiàng)目實(shí)施中可選擇數(shù)據(jù)質(zhì)量較好、系統(tǒng)相對(duì)集中的數(shù)據(jù)中心進(jìn)行數(shù)據(jù)集市試點(diǎn),等成功后再逐步推廣,最后構(gòu)建全局?jǐn)?shù)據(jù)倉庫,這種方式較為符合通信行業(yè)的實(shí)際需求,可以快速見效,提高了系統(tǒng)成功率,且通過統(tǒng)一邏輯數(shù)據(jù)模型的映射基本能滿足單一數(shù)據(jù)視圖的要求。我們應(yīng)著重分析的對(duì)象是主題領(lǐng)域中某個(gè)確定的“維度”。一般情況下,根據(jù)數(shù)據(jù)粒度劃分標(biāo)準(zhǔn)可以將數(shù)據(jù)倉庫中的數(shù)據(jù)劃分為:詳細(xì)數(shù)據(jù)、輕度總結(jié)、高度總結(jié)三級(jí)或更多級(jí)。數(shù)據(jù)集市是支持某一部分或特定商業(yè)需求的DSS應(yīng)用的集合。設(shè)計(jì)模塊就是承擔(dān)描述數(shù)據(jù)的檢驗(yàn)、整理、加工的需求和相應(yīng)過程及步驟。 通訊數(shù)據(jù)倉庫設(shè)計(jì)原則(1) 主題域設(shè)計(jì)原則 模型共劃分10個(gè)域,M域是其中一個(gè)單獨(dú)的域—企業(yè)管理域,DWA模型設(shè)計(jì)遵循主體域劃分原則。和逐步到位/逐步淘汰的退役。數(shù)據(jù)倉庫的威脅通常分為兩類,物理的和邏輯的。沒有用戶界面( UI)的數(shù)據(jù)倉庫對(duì)任何人都是沒用的,而一個(gè)尺寸不足,弱工程系統(tǒng)架構(gòu)的數(shù)據(jù)倉庫會(huì)因性能太差而不會(huì)被企業(yè)用戶采用。根據(jù)發(fā)掘階段收集到的需求,數(shù)據(jù)倉庫環(huán)境可能還要支持?jǐn)?shù)據(jù)集市,快照,和報(bào)告數(shù)據(jù)庫,因此,也要準(zhǔn)備為這些方面考慮環(huán)境。記分牌,圖形和數(shù)據(jù)透視表是BI的應(yīng)用例子,它們能刺激更多的數(shù)據(jù)探索,而這可能導(dǎo)致公司內(nèi)部戰(zhàn)略方向的改變。同時(shí)應(yīng)該明確說明哪些數(shù)據(jù)將被導(dǎo)入數(shù)據(jù)倉庫,哪些只會(huì)簡單地作為外部數(shù)據(jù)源引用。項(xiàng)目經(jīng)理作為一個(gè)獨(dú)立的專業(yè)人員,主要關(guān)心項(xiàng)目的及時(shí)上線、預(yù)算在控制范圍內(nèi),有預(yù)期的運(yùn)行效果。需求會(huì)議一方面是為了消除局方在進(jìn)行需求確認(rèn)時(shí)的數(shù)據(jù)倉庫的盲區(qū),更重要的一方面是讓局方知道建設(shè)數(shù)據(jù)倉庫開發(fā)的過程和困難,還有一方面就是能夠得到局方配合來完成項(xiàng)目及時(shí)準(zhǔn)確的實(shí)施。數(shù)據(jù)倉庫是按回答企業(yè)某方面的問題來分“主題”組織數(shù)據(jù)的,這是最有效的數(shù)據(jù)組織方式。在數(shù)據(jù)管理上,聯(lián)機(jī)事務(wù)處理和數(shù)據(jù)倉庫在應(yīng)用中相對(duì)獨(dú)立,使聯(lián)機(jī)事務(wù)處理系統(tǒng)本身更加簡潔高效,同時(shí)分析統(tǒng)計(jì)也更為便利。就像計(jì)算機(jī)最初是大型主機(jī),發(fā)展到更加通用的小型機(jī),現(xiàn)在則又有了更多的選擇。以去年問世的“地球模擬器”為例,而這個(gè)速度是由它的5120個(gè)處理器共同創(chuàng)造出來的。通過語言標(biāo)準(zhǔn)化和兼容性,中間件將大大提高先進(jìn)網(wǎng)絡(luò)應(yīng)用的易用性。(2) 冗余度低由于加入了集市群控制器,各數(shù)據(jù)集市中的數(shù)據(jù)被統(tǒng)一調(diào)度,統(tǒng)一規(guī)劃。獨(dú)立數(shù)據(jù)集市直接讀取運(yùn)作系統(tǒng)的文件或表,這極大限制了DSS的伸縮能力。對(duì)于數(shù)據(jù)集市這樣的規(guī)模,微軟的解決方案便可成為理想的選擇。(7)非結(jié)構(gòu)化信息的增長企業(yè)正面臨著非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的增長,包括圖像、聲音、視頻、XML以及其它的數(shù)據(jù)類型。(3)數(shù)據(jù)的表現(xiàn)數(shù)據(jù)表現(xiàn)是數(shù)據(jù)倉庫的門面。聯(lián)機(jī)分析和事務(wù)處理對(duì)系統(tǒng)的要求不同,同一個(gè)數(shù)據(jù)庫在理論上都難以做到兩全。 我們了解到元數(shù)據(jù)幾乎可以被稱為是數(shù)據(jù)倉庫乃至商業(yè)智能(BI)系統(tǒng)的“靈魂”,正是由于元數(shù)據(jù)在整個(gè)數(shù)據(jù)倉庫生命周期中有著重要的地位,各個(gè)廠商的都提到了關(guān)于對(duì)元數(shù)據(jù)的管理。 元數(shù)據(jù)元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。作為數(shù)據(jù)庫的一個(gè)分支,數(shù)據(jù)倉庫概念的提出,相對(duì)于數(shù)據(jù)庫從時(shí)間上就近得多。數(shù)據(jù)倉庫技術(shù)為解決充分有效的利用超大容量、多平臺(tái)數(shù)據(jù)資源這個(gè)問題提供了方法和手段,能夠充分利用現(xiàn)有的海量數(shù)據(jù)資源,并從中找出對(duì)通信的運(yùn)作和決策有價(jià)值的信息。 physical model construction process table and detailed audit, used to support the proposed requirement。(6) 大容量時(shí)間序列數(shù)據(jù)集合通常都非常大。 ?。?) 設(shè)計(jì)規(guī)則不同數(shù)據(jù)庫設(shè)計(jì)是盡量避免冗余,一般采用符合范式的規(guī)則來設(shè)計(jì),數(shù)據(jù)倉庫在設(shè)計(jì)是有意引入冗余,采用反范式的方式來設(shè)計(jì)。u 定義要進(jìn)入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù)。包括微軟的Repository,CA的Repository,Ardent的MetaStage和的WCC等。數(shù)據(jù)抽取可以定時(shí)進(jìn)行,但多個(gè)抽取操作執(zhí)行的時(shí)間、相互的順序、成敗對(duì)數(shù)據(jù)倉庫中信息的有效性則至關(guān)重要??蛻魯?shù)據(jù)集成提供了對(duì)客戶數(shù)據(jù)360176。 數(shù)據(jù)集市、集市群—行業(yè)的發(fā)展方向在數(shù)據(jù)倉庫產(chǎn)品方面,微軟是以其關(guān)系數(shù)據(jù)庫SQL Server作為它數(shù)據(jù)倉庫核心的。但獨(dú)立數(shù)據(jù)集市也存在一些問題:u 冗余數(shù)據(jù)。另一種比較理想的方式是,企業(yè)先就其最急需的領(lǐng)域建立獨(dú)立型數(shù)據(jù)集市,而后隨著需求的變化、實(shí)力的增強(qiáng)