【正文】
核 心 系 統(tǒng)其 他 系 統(tǒng)分 析 環(huán) 境報 表 環(huán) 境應 用 環(huán) 境操 作 型 數(shù) 據(jù) /標 準 化 數(shù) 據(jù)用 戶 環(huán) 境E T L數(shù) 據(jù)抽 取轉 換加 載報 表 / K P I靈 活 查 詢其 他 集 市數(shù) 據(jù) 準 備 區(qū)對 公 信 貸個 貸 系 統(tǒng)國 結 系 統(tǒng)人 力 系 統(tǒng)E D W數(shù) 據(jù) 倉 庫( E D W )企 業(yè) 級 數(shù) 據(jù) 模 型財 務 系 統(tǒng)數(shù) 據(jù)分 發(fā) 環(huán) 境報 表分 發(fā) 環(huán) 境通 用展 現(xiàn) 平 臺上圖是 EDW 系統(tǒng)執(zhí)行架構,其中包含 EDW 系統(tǒng)中涵蓋的功能框架以及框架之間的邏輯關系。? 數(shù)據(jù)落地區(qū):此部分內容說明數(shù)據(jù)落地的用途,同時對數(shù)據(jù)落地區(qū)應具備的功能進行了標準定義以及數(shù)據(jù)落地區(qū)與其他功能組件之間的關聯(lián)關系;? ETL:此部分內容描述 ETL 系統(tǒng)中數(shù)據(jù)抽取、轉換、加載等功能的需求,同時定義了 ETL 系統(tǒng)建設的標準以及 ETL 與系統(tǒng)中其他功能組件之間的關系;? 數(shù)據(jù)準備區(qū):此部分描述數(shù)據(jù)準備區(qū)應具備的功能,以及數(shù)據(jù)準備區(qū)在建設過程中的標準需求。在系統(tǒng)建設初期,源數(shù)據(jù)系統(tǒng)應提供能滿足初始業(yè)務需要的數(shù)據(jù)以及業(yè)務系統(tǒng)需要提供完整數(shù)據(jù)的時間窗口,在 EDW 系統(tǒng)擴展的過程中,各個源數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)將逐漸的加載到 EDW 系統(tǒng)當中。目前數(shù)據(jù)源包括 XX 銀行的多個業(yè)務系統(tǒng),主要有核心系統(tǒng)、個貸系統(tǒng)、對公信貸系統(tǒng)、國際業(yè)務系統(tǒng)、財務系統(tǒng)和各類渠道系統(tǒng)等。數(shù)據(jù)落地區(qū)應建立與各相關源數(shù)據(jù)系統(tǒng)的接口,將這些系統(tǒng)定期卸載的數(shù)據(jù)以固定的格式接收、存放到落地區(qū),考慮數(shù)據(jù)傳輸和加載的速度,源數(shù)據(jù)系統(tǒng)應以文本文件格式將數(shù)據(jù)定期傳輸給數(shù)據(jù)落地區(qū)進行處理。數(shù)據(jù)準備區(qū)的功能包括:格式轉換、排序去重/篩選、通用基礎清洗、連接10 / 47/合并/分割、業(yè)務轉換等 操作型存儲區(qū)操作型存儲區(qū)是數(shù)據(jù)倉庫系統(tǒng)一個重要的環(huán)節(jié)。從數(shù)據(jù)標準來看,該區(qū)的數(shù)據(jù)標準是遵循數(shù)據(jù)倉庫系統(tǒng)的標準。 數(shù)據(jù)貼源層可以繼續(xù)為行內現(xiàn)有的一些報表系統(tǒng)或者分析系統(tǒng)提供數(shù)據(jù),而數(shù)據(jù)標準層為數(shù)據(jù)倉庫中的企業(yè)數(shù)據(jù)模型的落地掃清了道路。 EDW 存儲區(qū)EDW 存儲區(qū)是面向主題的、集成的、面向企業(yè)的、最明細的數(shù)據(jù)存儲,其內容是依據(jù)最終用戶應用和分析需求來進行組織。對于每個數(shù)據(jù)層次,再按主題進行分類組織。數(shù)據(jù)層的內容相互促進發(fā)展,組成銀行完善的數(shù)據(jù)集合,為各種主題管理應用的構建提供良好的數(shù)據(jù)架構基礎。數(shù)據(jù)集市:在業(yè)務應用層中包含了應用系統(tǒng)中需要的應用集市、OLAP、靜態(tài)報表等數(shù)據(jù)集市。這些數(shù)據(jù)需要針對用戶的快速訪問和數(shù)據(jù)輸出進行優(yōu)化,優(yōu)化的方式可以通過對數(shù)據(jù)結構進行匯總和索引。應用環(huán)境:應用環(huán)境是為滿足業(yè)務需要在數(shù)據(jù) EDW 環(huán)境中配置的應用軟件包。報表環(huán)境:報表環(huán)境是于來產(chǎn)生和發(fā)布靜態(tài)報表的環(huán)境,包括:產(chǎn)生的靜態(tài)報表、OLAP 產(chǎn)生的報表、KPI 指標展現(xiàn)以及其他系統(tǒng)產(chǎn)生的報表。數(shù)據(jù)分發(fā)環(huán)境:在數(shù)據(jù)分發(fā)的過程中應提供大容量數(shù)據(jù)批量分發(fā)的能力。報表分發(fā)環(huán)境:報表的分發(fā)應可以滿足系統(tǒng)定義的安全性,如按照不同的用戶類型、不同的組織進行分發(fā),不同的用戶和組織只能看到屬于自己的報表的數(shù)據(jù),數(shù)據(jù)的分發(fā)將通過數(shù)據(jù)傳輸平臺進行。數(shù)據(jù)倉庫系統(tǒng)架構中的各個部分中都含有元數(shù)據(jù)信息,應對其進行主動式管理,以保證它正確的定義、收集和使用。應包括文件結構定義,數(shù)據(jù)庫字段名稱,數(shù)據(jù)模型中的長度和標準,以及在域域或域報表對應關系中的計算和公式等內容。因此必須采用適當?shù)陌踩呗砸员WC其系統(tǒng)和數(shù)據(jù)的安全性。? 機密性:所有的敏感數(shù)據(jù)必須被嚴格控制,禁止未授權訪問,并保障其安全性。針對上述 6 個方面,數(shù)據(jù)倉庫分系統(tǒng)應按照以下的 6 個方面的標準進行建設:應用層EDW 應用系統(tǒng)是建立在 OLAP 軟件平臺的基礎上,應用層應實現(xiàn)用戶訪問控制的功能,針對不同的用戶訪問不同的系統(tǒng)資源來保證整個應用系統(tǒng)的安全性控制。數(shù)據(jù)庫管理員應按照角色對數(shù)據(jù)庫用戶進行劃分,并且通過賦予角色權限的方式實現(xiàn)對用戶安全性訪問控制的管理,如:針對用戶組或耽擱用戶分配特定數(shù)據(jù)表訪問權限。對于系統(tǒng)主機應采用服務器加固的方法,來保證整個系統(tǒng)的安全性。XX 銀行數(shù)據(jù)倉庫環(huán)境建立在企業(yè)內部網(wǎng)絡中,不同功能的服務器應部署在不同網(wǎng)段中,網(wǎng)段之間相互隔離,對網(wǎng)段之間的訪問應通過防火墻并定義嚴格的訪問控制策略。物理層物理層安全保障物理設備(主機、路由器等)不受非法用戶攻擊。管理管理部分與上述的所有安全問題相關,對安全問題的管理必須由多個部門共同協(xié)作完成。ocationBeanR e q u e s t B e a nJ S PP a g e B e a nJ S PP a g e B e a nJ S PR e q u e s t B e a nA J A XA J A XA J A XA J A XA J A XF i l eB e a nB e a n通 用 展 現(xiàn) 平 臺報 表 / 復 雜報 表靈 活 查 詢系 統(tǒng) 管 理儀 表 盤數(shù) 據(jù) 集 市 層D A OD A OD A OConnectionPool框架引擎B OB OB O數(shù) 據(jù) 分 發(fā)權限統(tǒng)一管理統(tǒng)一用戶門戶(支持多種中間件) 儀表盤基 礎 模 型 層操 作 型 存 儲其 他 集 市 應 用供數(shù)服務應 用 服 務 層目的系統(tǒng)J D B C數(shù) 據(jù) 源 層技 術 元 數(shù) 據(jù)操 作 元 數(shù) 據(jù) 業(yè) 務 元 數(shù) 據(jù)安 全 管 理 體 系應 用 安 全數(shù) 據(jù) 安 全操 作 系 統(tǒng) 安 全網(wǎng) 絡 安 全數(shù) 據(jù) 消 費 傳 輸 通 道e x p o r tF i l e任務執(zhí)行代理日志管理引擎任務調度引擎任務執(zhí)行代理任務執(zhí)行代理任務執(zhí)行代理任務執(zhí)行代理偵測器E T L 調 度 管 理 和 監(jiān) 控 器依賴和觸發(fā)規(guī)則庫數(shù)據(jù)質量規(guī)則庫E T L 流 程 調 度E T L A u t o m a t i o n 資料 庫任 務日 志單 元1單 元2單 元n單 元1單 元2單 元n導 出數(shù) 據(jù) 文件貼 源 層標 準 化 層如上圖所示的 XX 銀行 EDW 的邏輯體系架構,這一架構是在聯(lián)科可擴展的EDW 系統(tǒng)框架的基礎上,結合 XX 銀行信息系統(tǒng)建設的實際情況而設計出來的多層、可擴展框架結構。在明確定義各層之間的接口后,多層框架結構具有高度的擴展能力和方便的系統(tǒng)開發(fā)和維護性能,符合目前流行的多層應用結構,適合 EDW 系統(tǒng)多階段、多層次的應用特點?!窘M成部分】15 / 47目前總行的數(shù)據(jù)源包括 XX 銀行的多個業(yè)務系統(tǒng),主要有核心系統(tǒng)、個貸系統(tǒng)、對公信貸系統(tǒng)、國際業(yè)務系統(tǒng)、財務系統(tǒng)和各類渠道系統(tǒng)等。? EDW 系統(tǒng)再將數(shù)據(jù)準備區(qū)的數(shù)據(jù)按照 EDW 數(shù)據(jù)模型的方式加載到數(shù)據(jù)存儲區(qū)中。? EDW 中的數(shù)據(jù)準備區(qū)和數(shù)據(jù)存儲區(qū)可以為為其它系統(tǒng)提供數(shù)據(jù)服務。【組成部分】上面的邏輯架構圖淡綠色色矩形部分為 ETL 調度管理技術架構圖,其作用是讓許多的任務在作業(yè)的執(zhí)行條件滿足時自動地執(zhí)行。由上面的技術架構圖可知,ETL 調度管里包含下列組件: ? 知識庫建立在 DB 中的一個數(shù)據(jù)庫,包含了與流程調度相關的一組表,保存 ETL 流程調度服務器、任務、任務之間的依賴觸發(fā)關系、任務組、調度計劃等多種類型的信息。? 任務調度引擎16 / 47接受偵測器的信息調度任務執(zhí)行(可以使本服務器任務也可以是其它服務器的任務) 。? 任務封裝在 Perl 程序中,執(zhí)行數(shù)據(jù)加載、整合、立方體生成等工作的一組程序。? 管理監(jiān)控器Java 應用程序,用于定義任務、任務組合觸發(fā)關系等信息,同時可以實時監(jiān)控任務執(zhí)行情況查看日志。? 結構簡單、伸縮性強。1) 加載數(shù)據(jù)2) 整合數(shù)據(jù)3) 數(shù)據(jù)質量檢查和清洗4) 數(shù)據(jù)轉換5) OLAP 數(shù)據(jù)生成6) 數(shù)據(jù)挖掘模型的執(zhí)行7) 定制報表的產(chǎn)生8) 定制頁面的產(chǎn)生9) 數(shù)據(jù)庫備份、告警等系統(tǒng)作業(yè)10) 調用其他 ETL/ELT 工具產(chǎn)生的任務11) 數(shù)據(jù)導出到指定的渠道系統(tǒng)17 / 47? 執(zhí)行的任務可以是另一個任務調度引擎觸發(fā)(如:EDW) 。 數(shù)據(jù)平臺層【功能與作用】作為本系統(tǒng)的數(shù)據(jù)核心部分,它負責存儲和管理來自各種源數(shù)據(jù)系統(tǒng)的數(shù)據(jù),并為訪問用戶提供數(shù)據(jù)服務?!窘M成部分】本層由操作型存儲區(qū)、倉庫存儲區(qū)和集市應用層四個部分組成。這些數(shù)據(jù)需要針對用戶的快速訪問和數(shù)據(jù)輸出進行優(yōu)化,優(yōu)化的方式可以通過對數(shù)據(jù)結構進行匯總和索引?!窘M成部分】包括:駕駛艙報表系統(tǒng)和靈活查詢以及其他應用集市系統(tǒng)。該層為用戶對中央數(shù)據(jù)的訪問提供各種方式的服務(C/S、B/S) ,從而實現(xiàn)訪問方式的多樣化和信息存取的透明化。報表集成開發(fā)環(huán)境核心功能和模塊組裝由核心模塊統(tǒng)一提供,只暴露給開發(fā)人員;第二個層次是管理模塊包括:報表信息、基本管理、代理、信息推送、連接信息,管理模塊為報表集成開發(fā)環(huán)境提供管理服務,它提供報表集成開發(fā)環(huán)境的用戶、權限等的統(tǒng)一管理,管理模塊也是報表集成開發(fā)環(huán)境必選模塊,它的很多功能調用由核心模塊提供,管理模塊包括 5 個子模塊;第三個層次是應用模塊包括:儀表盤、靈活查詢、數(shù)據(jù)錄入、報表、復雜報表,應用模塊提供報表集成開發(fā)環(huán)境最終用戶(非管理人員)的用戶體驗,可以和管理模塊相結合有選擇地靈活部署。該層位于用戶層和中間服務層之間,為用戶層成提供 HTTP 服務、門戶的單點登錄、用戶統(tǒng)一認證、提交用戶層請求到中間服務層,對用戶實施安全策略,為用戶管理報表、查詢文檔,提供個性化定制等。按照用戶使用 EDW 系統(tǒng)的方式和特點,可以劃分為業(yè)務分析人員、高級分析人員和管理決策人員。實際上,EDW 系統(tǒng)還包括進行系統(tǒng)建設的開發(fā)人員、系統(tǒng)運行人員和系統(tǒng)管理人員,這里所指的用戶層主要針對業(yè)務用戶進行描述。該類人員直接使用模塊化的應用界面訪問 EDW 系統(tǒng),生成或預覽預定義報表,進行相對固定的查詢以及多維分析。? 高級分析人員19 / 47是指總行各業(yè)務部門、各分行的較為高級的用戶。分析的方式包括自定義查詢、自定義報表、多維旋轉和穿透鉆取等等。? 管理決策人員主要包括各部門的領導、分行領導和總行領導。同時,EDW 系統(tǒng)將決策人員最為關心的信息主動發(fā)布到?jīng)Q策人員的訪問界面上,簡化信息訪問的方式,使得決策人員在第一時間獲得經(jīng)營管理的各種重要信息和指標。 消費數(shù)據(jù)傳輸通道在數(shù)據(jù)倉庫系統(tǒng)建立以后,會有很長一段時間舊有的報表系統(tǒng)和分析系統(tǒng)需要逐步遷移,在此期間,需要有一個消費數(shù)據(jù)傳輸通道來支持舊有系統(tǒng)的良好運轉。? 操作系統(tǒng)安全系統(tǒng)所有應用或數(shù)據(jù)庫服務器均采用 Unix 操作系統(tǒng),操作系統(tǒng)本身有著嚴密的系統(tǒng)安全認證與用戶權限管理體系,并具備登錄、審核以及資源訪問的審計與跟蹤。? 應用安全應用是直接面對用戶的,雖然應用系統(tǒng)能夠持續(xù)提供服務是涉及到系統(tǒng)20 / 47安全的問題,但是因為這些問題更多的是由系統(tǒng)的安全問題來保證的。 元數(shù)據(jù)管理體系在機構內關于數(shù)據(jù)的信息稱為“元數(shù)據(jù)(Metadata)” 。元數(shù)據(jù)倉庫(Meta Data Repository)對業(yè)務人員來說是很重要的,是業(yè)務人員與數(shù)據(jù)倉庫的數(shù)據(jù)交流的傳達手段。但對業(yè)務人員,他們需要一種手段和工具來理解他們存取的數(shù)據(jù)。在架構上,元數(shù)據(jù)系統(tǒng)包括:元數(shù)據(jù)應用、元數(shù)據(jù)報表、元數(shù)據(jù)分析、元數(shù)據(jù)集成系統(tǒng)、元數(shù)據(jù)展現(xiàn)系統(tǒng)、元數(shù)據(jù)管理系統(tǒng)、元數(shù)據(jù)維護系統(tǒng)。后續(xù)的數(shù)據(jù)加工、轉換通過 ETL Server 來完成,中間采取不落地的方式,將加工完畢后的數(shù)據(jù)放在數(shù)據(jù)準備區(qū)域。再將數(shù)據(jù)準備區(qū)的數(shù)據(jù)加載到數(shù)據(jù)存儲區(qū)中。為支持其他的業(yè)務需求,將近期(3060 天)的明細數(shù)據(jù)、流水數(shù)據(jù)集中存放在數(shù)據(jù)庫系統(tǒng)中,日常增量數(shù)據(jù)刷新數(shù)據(jù)庫系統(tǒng)。21 / 47 EDW 運維架構 運維架構概述下圖中給出了 EDW 的運維架構,是在 EDW 系統(tǒng)上線后,為了保持系統(tǒng)良好的穩(wěn)定性而定義的相關的管理需求。圖 1 運維邏輯體系架構運維架構中包含了如下組件:系統(tǒng)監(jiān)控管理組件、系統(tǒng)維護管理組件、備份恢復管理組件、故障切換管理組件、性能容量規(guī)劃組件和運維安全管理組件。管理的硬件和軟件包括所有開發(fā)、測試和生產(chǎn)環(huán)境中的硬件和軟件。? 備份恢復管理組件:備份/恢復管理組件處理系統(tǒng)中所有必須的備份和恢復操作。22 / 47? 故障切換管理組件:故障切換管理提供了管理和控制應用切換的機制。當發(fā)生故障或失敗時,該切換發(fā)生在主系統(tǒng)和備份系統(tǒng)之間。? 運維安全管理組件:運維安全管理組件通過制定和管理運維安全策略,并利用安全工具,維護信息系統(tǒng)資產(chǎn)(包括硬件、軟件、用戶數(shù)據(jù)、信息/數(shù)據(jù))的機密性、一致性和可用性。整個運維架構通過一些標準的流程實現(xiàn)生產(chǎn)環(huán)境運行管理,包括的流程主要是日常操作流程和特殊操作流程。特殊操作流程不會每天發(fā)生,這一流程的啟動通常是由于系統(tǒng)軟硬件升級、數(shù)據(jù)變更、新增應用等需求引起的。? 數(shù)據(jù)庫/數(shù)據(jù)倉庫管理:提供相關監(jiān)控信