【正文】
理類數(shù)據(jù)庫中的結(jié)點使用情況表中。應(yīng)該能接受收 SIGQUIT, SIGTERM, SIGHUP 信號,完成退出并清理進程資源。在管理庫的具體部署時,可能只部署在總行,所有 ETL Server 都訪問這個管理庫,分行的 ETL Server 通過跨越廣域網(wǎng)的數(shù)據(jù)庫連接訪問管理庫。每個處理域由一個或多個 ETL SERVER 和若干個 ETL CLIENT 組成。 元數(shù)據(jù)管理ETL 過程需要通過元數(shù)據(jù)的管理來實現(xiàn)數(shù)據(jù)流程的監(jiān)控以及作業(yè)的靈活調(diào)度。5. 日志對于經(jīng)常對歷史數(shù)據(jù)進行修改、刪除的業(yè)務(wù)系統(tǒng),并且修改沒有設(shè)置登記簿,可以通過讀取數(shù)據(jù)庫的日志來實現(xiàn)增量。Staging Area 的另一個應(yīng)用是僅存儲被更改的記錄。36 / 47? ETL4:屬于ETL轉(zhuǎn)換。其實現(xiàn)的困難在于 ETL 系統(tǒng)將面臨復(fù)雜的數(shù)據(jù)環(huán)境,包括巨大的加載數(shù)據(jù)量、錯綜復(fù)雜的數(shù)據(jù)關(guān)系和參差不齊的數(shù)據(jù)質(zhì)量,這些都使 ETL 的架構(gòu)和應(yīng)用設(shè)計面臨相當(dāng)?shù)奶魬?zhàn)。加工匯總數(shù)據(jù)層分為兩種不同數(shù)據(jù)形態(tài):1)匯總指標(biāo)-如平均余額等2)根據(jù)業(yè)務(wù)要求形成的分析加工數(shù)據(jù)-如理財卡帳務(wù)數(shù)據(jù)、客戶大額存取款等? 集市數(shù)據(jù)層數(shù)據(jù)模型集市數(shù)據(jù)層用于建立面向各個應(yīng)用主題的數(shù)據(jù)集市,不同的主題應(yīng)用在集市數(shù)據(jù)區(qū)下建立不同的數(shù)據(jù)集市,數(shù)據(jù)集市的數(shù)據(jù)模型根據(jù)應(yīng)用模型的需要進行設(shè)計。29 / 47 數(shù)據(jù)架構(gòu)分層設(shè)計數(shù)據(jù)庫統(tǒng)一存儲管理所轄數(shù)據(jù),由于數(shù)據(jù)類型比較多,數(shù)據(jù)庫表也比較多,如何有效的組織管理好全行多種業(yè)務(wù)的數(shù)據(jù)和信息,對下一步清晰的信息應(yīng)用、方便地使用數(shù)據(jù)是很關(guān)鍵的。數(shù)據(jù)通過放置在環(huán)境中系統(tǒng)元素一端的代理進行的收集,并由容量規(guī)劃組件進行分析,包括磁盤容量、內(nèi)存使用、處理器使用、數(shù)據(jù)庫、和網(wǎng)絡(luò)等。23 / 47? 生產(chǎn)調(diào)度:生產(chǎn)調(diào)度組件包括了一套應(yīng)用,用于調(diào)度和自動化網(wǎng)絡(luò)、系統(tǒng)和應(yīng)用管理(如 ETL)特有的任務(wù)。? 備份恢復(fù)管理組件:備份/恢復(fù)管理組件處理系統(tǒng)中所有必須的備份和恢復(fù)操作。但對業(yè)務(wù)人員,他們需要一種手段和工具來理解他們存取的數(shù)據(jù)。分析的方式包括自定義查詢、自定義報表、多維旋轉(zhuǎn)和穿透鉆取等等。【組成部分】包括:駕駛艙報表系統(tǒng)和靈活查詢以及其他應(yīng)用集市系統(tǒng)。? 任務(wù)調(diào)度引擎16 / 47接受偵測器的信息調(diào)度任務(wù)執(zhí)行(可以使本服務(wù)器任務(wù)也可以是其它服務(wù)器的任務(wù)) 。管理管理部分與上述的所有安全問題相關(guān),對安全問題的管理必須由多個部門共同協(xié)作完成。應(yīng)包括文件結(jié)構(gòu)定義,數(shù)據(jù)庫字段名稱,數(shù)據(jù)模型中的長度和標(biāo)準(zhǔn),以及在域域或域報表對應(yīng)關(guān)系中的計算和公式等內(nèi)容。數(shù)據(jù)層的內(nèi)容相互促進發(fā)展,組成銀行完善的數(shù)據(jù)集合,為各種主題管理應(yīng)用的構(gòu)建提供良好的數(shù)據(jù)架構(gòu)基礎(chǔ)。在系統(tǒng)建設(shè)初期,源數(shù)據(jù)系統(tǒng)應(yīng)提供能滿足初始業(yè)務(wù)需要的數(shù)據(jù)以及業(yè)務(wù)系統(tǒng)需要提供完整數(shù)據(jù)的時間窗口,在 EDW 系統(tǒng)擴展的過程中,各個源數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)將逐漸的加載到 EDW 系統(tǒng)當(dāng)中。統(tǒng)一的數(shù)據(jù)增強平臺也減少數(shù)據(jù)增強的復(fù)雜度。? 執(zhí)行架構(gòu)描述系統(tǒng)大的框架和模塊區(qū)域,以及之間的邏輯關(guān)系;是確定生產(chǎn)環(huán)境的建設(shè)要求及指導(dǎo)原則。下圖是 EDW 項目總體架構(gòu)的框架: 總體架構(gòu)的設(shè)計原則? 總體架構(gòu)在著重考慮實施要求的同時,需要為后續(xù)階段進行規(guī)劃,以保證項目最終能夠達到目標(biāo)架構(gòu)的設(shè)計;? 總體架構(gòu)的設(shè)計要基于包括 XX 銀行數(shù)據(jù)現(xiàn)狀分析、實施階段數(shù)據(jù)源情況分析、第一階段實施 EDW 設(shè)計建議做為參考;? 總體架構(gòu)設(shè)計架構(gòu)時充分考慮與現(xiàn)有系統(tǒng)兼容,充分利用已有成果,避免重復(fù)開發(fā)和建設(shè)。? 自動化原則:EDW 項目建設(shè)的核心任務(wù)之一是數(shù)據(jù)抽取、轉(zhuǎn)換、清洗和加載(ETL) ,在這個過程中應(yīng)采用自動化的設(shè)計原則,避免手工操作。所以該區(qū)一般分為兩個層次,第一個層次稱之為良好質(zhì)量的、統(tǒng)一格式的數(shù)據(jù)貼源層,第二個層次為統(tǒng)一的、規(guī)范的、遵循數(shù)據(jù)倉庫系統(tǒng)標(biāo)準(zhǔn)的數(shù)據(jù)標(biāo)準(zhǔn)層。 用戶環(huán)境用戶環(huán)境是 EDW 系統(tǒng)最終向用戶提供的某種應(yīng)用服務(wù)的集合,主要有三種應(yīng)用服務(wù)的表現(xiàn)形式:通用展現(xiàn)平臺:通過此平臺將報表、KPI 展現(xiàn)、靈活查詢、分析等多個應(yīng)用集成到一個平臺中,進行統(tǒng)一的展現(xiàn)和信息的管理,包括如:報表生命周期的管理等。系統(tǒng)層系統(tǒng)應(yīng)防止未授權(quán)訪問和系統(tǒng)調(diào)用,及時進行系統(tǒng)安全補丁的更新。? 在數(shù)據(jù)存儲區(qū)中進行基礎(chǔ)數(shù)據(jù)層、加工匯總層和應(yīng)用集市層的數(shù)據(jù)加載。? 可以啟動其它的 ETL 引擎的任務(wù)。所有用戶統(tǒng)一通過用戶門戶訪問 EDW 系統(tǒng)各類應(yīng)用,從而實現(xiàn)了 EDW 系統(tǒng)的應(yīng)用界面、安全管理統(tǒng)一,同時用戶可以對門戶進行個性化定制以方便自己使用。? 數(shù)據(jù)安全提供各種基于數(shù)據(jù)庫的安全保護機制。整個過程通過調(diào)度工具進行統(tǒng)一調(diào)度,集中管理,確保各項任務(wù)有序完成。日常操作流程是指 IT 用戶在日常為維護生產(chǎn)環(huán)境正常運轉(zhuǎn)需要做的工作,如:數(shù)據(jù)倉庫管理、系統(tǒng)監(jiān)控、備份恢復(fù)、容量規(guī)劃。? 最低程度地降低數(shù)據(jù)丟失。28 / 47? 高效原則數(shù)據(jù)模型面臨海量數(shù)據(jù)的加工和存儲,隨著時間的推移,數(shù)據(jù)將不斷累積,因此效率問題是直接影響系統(tǒng)可用性的關(guān)鍵因素。在基礎(chǔ)據(jù)模型中按照八大主題對銀行全行數(shù)據(jù)進行整合、分類組織和存儲,這八大主題包括總帳(GL)、客戶(CI)、存款(DEP)、貸款(LN)、銀行卡(CRD)、中間業(yè)務(wù)(NIN)、渠道(CHN)、公用(CM);每個主題下設(shè)計相應(yīng)的數(shù)據(jù)模型,最后構(gòu)成全行統(tǒng)一的基礎(chǔ)數(shù)據(jù)模型。EDW 數(shù)據(jù)采集、加工、發(fā)布的范圍包括:? 總行各應(yīng)用系統(tǒng)之間? 總行與分行應(yīng)用系統(tǒng)之間? 同一分行應(yīng)用系統(tǒng)間? 不同分行應(yīng)用系統(tǒng)間? 分布部署的同一應(yīng)用系統(tǒng)間EDW 數(shù)據(jù)服務(wù)具備的能力有:? EDW 快速提供批量數(shù)據(jù),可以滿足應(yīng)用系統(tǒng)準(zhǔn)實時的數(shù)據(jù)要求。對源數(shù)據(jù)做數(shù)據(jù)平衡檢查、稽核數(shù)據(jù)有效性,報告數(shù)據(jù)質(zhì)量問題。 ETL 設(shè)計方案 ETL 關(guān)鍵設(shè)計環(huán)節(jié) 接口層設(shè)計策略將數(shù)據(jù)源環(huán)境下的數(shù)據(jù)裝載進入 EDW 環(huán)境,需要在兩個不同環(huán)境的記錄系統(tǒng)之間建立一個接口。對于歷史數(shù)據(jù)加載的策略,我們可以采用時間窗口的分段的方法來處理歷史數(shù)據(jù)量大的表的裝載,即我們可以一個一個時間段來加載歷史數(shù)據(jù)。錯誤的恢復(fù)策略:? 每條記錄中有數(shù)據(jù) ETL 的時間戳,對小數(shù)據(jù)量的數(shù)據(jù)表,可以通過該時間戳清除掉本次加載的數(shù)據(jù)。任務(wù)調(diào)度模塊在 EDWH+EDWB 統(tǒng)一模塊中,調(diào)度是由部署在總行的調(diào)度 SERVER 統(tǒng)一完成調(diào)度工作,或者由部署在分行的調(diào)度 Server 完成本分行作業(yè)的調(diào)度。如果實際運行 JOB 的 ETL CLIENT 資源不足,經(jīng)常處于高負荷狀態(tài),則可以通過增加 ETL CLIENT 來提高運行效率。7. ETL SERVER 得到 ETL CLIENT 的反饋信息后,將其寫入日志,并設(shè)置JOB 的狀態(tài),同時釋放結(jié)點的資源。45 / 47 動態(tài)資源分配R e s o u r c e B r o k e rR e s o u r c eA g e n tN o d e 1R e s o u r c eA g e n tN o d e 2R e s o u r c eA g e n tN o d e NR e s o u r c eA g e n tD B S e r v e r. . . 節(jié)點資源實時信息T C P / I P T C P / I P T C P / I P T C P / I P更新E T L S e r v e rE T L C l i e n tE T L 域上圖為本系統(tǒng)的動態(tài)資源采集模塊的邏輯結(jié)構(gòu)圖,其目的是實時采集整個ETL 域中各節(jié)點的系統(tǒng)資源使用情況,以及檢測節(jié)點運行狀態(tài)是否正常,以作為動態(tài)資源分配的主要依據(jù)。? 數(shù)據(jù)庫模塊統(tǒng)一架構(gòu)中的數(shù)據(jù)庫模塊分為兩個部分:管理類數(shù)據(jù)庫和業(yè)務(wù)類數(shù)據(jù)庫。在實際部署中,調(diào)度模塊可以僅部署在總行,實施統(tǒng)一調(diào)度,也可能部署在分行,實施分布調(diào)度;而在每個 ETL 域的 ETL Server 上部署調(diào)度的Agent 模塊,調(diào)度 Server 負責(zé)任務(wù)的檢索、調(diào)度和分發(fā),調(diào)度 Agent 接收到調(diào)度 Server 的調(diào)度指令,調(diào)用作業(yè)主控模塊(JCI)執(zhí)行具體的作業(yè),并根據(jù) JCI的退出碼將作業(yè)的執(zhí)行情況反饋給調(diào)度 Server。 異常處理ETL 處理的異常主要包括:1) 硬件、操作系統(tǒng)、網(wǎng)絡(luò)導(dǎo)致異常;2) 數(shù)據(jù)源數(shù)據(jù)傳輸、質(zhì)量導(dǎo)致異常;3) ETL 過程處理導(dǎo)致異常;4) 目標(biāo)數(shù)據(jù)模型導(dǎo)致異常;5) 人工干預(yù)導(dǎo)致異常等;建議處理的方法包括:1) 手工干預(yù),重新調(diào)整 ETL 過程;2) 終止流程,通知管理員;3) 拒絕數(shù)據(jù),記錄原因;4) 清洗數(shù)據(jù),部分入庫;5) 監(jiān)控資源,反復(fù)嘗試ETL 恢復(fù)策略包括有:1) 每條記錄中有數(shù)據(jù) ETL 的時間戳,對小數(shù)據(jù)量的數(shù)據(jù)表,可以通過該40 / 47時間戳清除掉本次加載的數(shù)據(jù)。增量策略是正常的日常增量處理的策略,故障恢復(fù)策略是在日常增量處理出錯時的處理策略。 從業(yè)務(wù)系統(tǒng)抽取數(shù)據(jù),采用 ETL 平臺直接從業(yè)務(wù)系統(tǒng)抽取數(shù)據(jù),也可以先把業(yè)務(wù)系統(tǒng)的數(shù)據(jù)導(dǎo)出為文本文件再加載到臨時存儲區(qū)。對數(shù)據(jù)緩沖區(qū)數(shù)據(jù)標(biāo)準(zhǔn)化,統(tǒng)一數(shù)據(jù)表達格式,排序數(shù)據(jù),篩選重復(fù)數(shù)據(jù),合并或分割數(shù)據(jù)項,裝載入數(shù)據(jù)存儲區(qū)的基礎(chǔ)數(shù)據(jù)層。? EDW 模型化各系統(tǒng)數(shù)據(jù),可以滿足各應(yīng)用系統(tǒng)對全量數(shù)據(jù)、增量數(shù)據(jù)的需求,減少對重要交易系統(tǒng)的干擾。EDW 對源系統(tǒng)客戶號進行統(tǒng)一,提供統(tǒng)一的客戶號(ECIF 客戶編號) 。? 實用性原則處理大量的源系統(tǒng)數(shù)據(jù),將會占用大量的系統(tǒng)資源,因此必須仔細分析數(shù)據(jù)的實用性、指標(biāo)的使用頻率,以業(yè)務(wù)需求驅(qū)動為原則,對業(yè)務(wù)提出的基礎(chǔ)數(shù)據(jù)和指標(biāo)需求進行優(yōu)先級劃分,正確制定指標(biāo)的匯總粒度。備份恢復(fù)管理的主要任務(wù)及工具支持如下圖所示:25 / 47 故障切換管理故障切換管理組件提供了管理和控制應(yīng)用切換的機制,提供系統(tǒng)的高可用性。 運維架構(gòu)的邏輯框架 系統(tǒng)監(jiān)控管理在 EDW 系統(tǒng)中,需要監(jiān)控管理的系統(tǒng)元素可以分為如下五類:? 網(wǎng)絡(luò)/主機管理:用于監(jiān)控、控制和報告網(wǎng)絡(luò)及主機狀態(tài)。運維架構(gòu)主要是針對執(zhí)行架構(gòu)的數(shù)據(jù)導(dǎo)入層、數(shù)據(jù)服務(wù)層、中間服務(wù)層和訪問控制層服務(wù)器進行管理,面向的最終用戶是 IT 人員。所以就應(yīng)用級的安全策略更多的是保證對數(shù)據(jù)訪問的合法性。? 業(yè)務(wù)分析人員主要指總行各業(yè)務(wù)部門、各分行的業(yè)務(wù)用戶,如:客戶經(jīng)理。這些數(shù)據(jù)是按照在邏輯數(shù)據(jù)模型分主題存放的。? 總行 EDW 可以為分行 EDW 提供數(shù)據(jù)服務(wù)。網(wǎng)絡(luò)層網(wǎng)絡(luò)層安全是保證網(wǎng)絡(luò)節(jié)點之間數(shù)據(jù)傳遞的安全性,以及網(wǎng)絡(luò)環(huán)境不受惡意攻擊。給其他需要某個系統(tǒng)的數(shù)據(jù)提供數(shù)據(jù)交換功能。所以該存儲區(qū)在整個 EDW 系統(tǒng)起到了一個承上啟下的關(guān)鍵作用。? 安全性原則:EDW 項目建設(shè)中的數(shù)據(jù)遷移過程都必須保證數(shù)據(jù)的安全性,例如:在系統(tǒng)建設(shè)過程中應(yīng)對數(shù)據(jù)中敏感字段進行安全處理、同時整個系統(tǒng)還應(yīng)采用網(wǎng)絡(luò)隔離、用戶身份認證及訪問控制、數(shù)據(jù)庫安全、操作系統(tǒng)安全以及完善的安全審計機制。 總體架構(gòu)的設(shè)計特點? 權(quán)衡功能、性能、可擴展性、易用性、可管理性和性價比。這三個部分共同組成了 XX 銀行 EDW 系統(tǒng)。? 通過用戶入口支持用戶采用 Web 瀏覽器使用查詢和分析工具,統(tǒng)一的信息服務(wù)界面,提高系統(tǒng)易用性,減少技術(shù)支持工作量。? 數(shù)據(jù)落地區(qū):此部分內(nèi)容說明數(shù)據(jù)落地的用途,同時對數(shù)據(jù)落地區(qū)應(yīng)具備的功能進行了標(biāo)準(zhǔn)定義以及數(shù)據(jù)落地區(qū)與其他功能組件之間的關(guān)聯(lián)關(guān)系;? ETL:此部分內(nèi)容描述 ETL 系統(tǒng)中數(shù)據(jù)抽取、轉(zhuǎn)換、加載等功能的需求,同時定義了 ETL 系統(tǒng)建設(shè)的標(biāo)準(zhǔn)以及 ETL 與系統(tǒng)中其他功能組件之間的關(guān)系;? 數(shù)據(jù)準(zhǔn)備區(qū):此部分描述數(shù)據(jù)準(zhǔn)備區(qū)應(yīng)具備的功能,以及數(shù)據(jù)準(zhǔn)備區(qū)在建設(shè)過程中的標(biāo)準(zhǔn)需求。對于每個數(shù)據(jù)層次,再按主題進行分類組織。數(shù)據(jù)倉庫系統(tǒng)架構(gòu)中的各個部分中都含有元數(shù)據(jù)信息,應(yīng)對其進行主動式管理,以保證它正確的定義、收集和使用。物理層物理層安全保障物理設(shè)備(主機、路由器等)不受非法用戶攻擊。由上面的技術(shù)架構(gòu)圖可知,ETL 調(diào)度管里包含下列組件: ? 知識庫建立在 DB 中的一個數(shù)據(jù)庫,包含了與流程調(diào)度相關(guān)的一組表,保存 ETL 流程調(diào)度服務(wù)器、任務(wù)、任務(wù)之間的依賴觸發(fā)關(guān)系、任務(wù)組、調(diào)度計劃等多種類型的信息。這些數(shù)據(jù)需要針對用戶的快速訪問和數(shù)據(jù)輸出進行優(yōu)化,優(yōu)化的方式可以通過對數(shù)據(jù)結(jié)構(gòu)進行匯總和索引。? 高級分析人員19 / 47是指總行各業(yè)務(wù)部門、各分行的較為高級的用戶。元數(shù)據(jù)倉庫(Meta Data Repository)對業(yè)務(wù)人員來說是很重要的,是業(yè)務(wù)人員與數(shù)據(jù)倉庫的數(shù)據(jù)交流的傳達手段。管理的硬件和軟件包括所有開發(fā)、測試和生產(chǎn)環(huán)境中的硬件和軟件。? 應(yīng)用管理:處理客戶應(yīng)用中發(fā)生的事件。在故障或失敗事件中,故障切換管理組件將系統(tǒng)資源重路由到穩(wěn)定配置的備份系統(tǒng)中,直到主系統(tǒng)被恢復(fù)或替代。隨時間的增加,存儲數(shù)據(jù)越來越多。多個應(yīng)用相同的匯總要求,或者多個應(yīng)用在匯總計算的基礎(chǔ)部分有重復(fù)匯總的部分可以納入該區(qū)域進行匯總,形成應(yīng)用共享的中間匯總結(jié)果,如按客戶、機構(gòu)、產(chǎn)品、渠道等主題的一些公共匯總數(shù)據(jù)(包括每天或每個階段的業(yè)務(wù)量、業(yè)務(wù)額、平均額等數(shù)據(jù)的匯總) 。在這個原則下,EDW 可以對外提供應(yīng)用服務(wù),如:駕駛艙報表系統(tǒng)中的報表功能;某些時效性要求較高的即時 OLAP 分析;經(jīng)營關(guān)鍵指標(biāo) KPI 展示等。對操作型存儲區(qū)的貼源標(biāo)準(zhǔn)化數(shù)據(jù),按照業(yè)務(wù)轉(zhuǎn)換規(guī)則、通用數(shù)據(jù)清洗規(guī)則,加工數(shù)據(jù),裝載入數(shù)據(jù)倉庫區(qū)的FDM基礎(chǔ)層。