【正文】
ver 作為中央共享元數(shù)據(jù)庫(kù)負(fù)責(zé)存儲(chǔ)業(yè)務(wù)、技術(shù)和操作元數(shù)據(jù),Information Server 組件的各種開發(fā)和運(yùn)行元數(shù)據(jù)將會(huì)自動(dòng)存儲(chǔ)在 Metadata Server 中,通過 import/export manager 還可以將第三方各種元數(shù)據(jù)與 Metadata Server 進(jìn)行元數(shù)據(jù)交互,Metadata Server 還支持導(dǎo)入 CSV、XML、Glossary archive 和 InfoSphere Data Architect 等內(nèi)容。Metadata Workbench 允許用戶瀏覽、分析和管理在 Metadata Server 中的元數(shù)據(jù)并為企業(yè)用戶提供信息供應(yīng)鏈全程的數(shù)據(jù)流報(bào)告、數(shù)據(jù)沿襲和依賴性分析等。Information Server 其他組件(如 FastTrack/Information Analyzer/InfoSphere Data Architect 等)可以直接訪問 Metadata Server 獲取元數(shù)據(jù),DataStage 和 QualityStage 可以通過 DataStage Connectors 訪問 Metadata Server。如右下方所示,訪問業(yè)務(wù)元數(shù)據(jù)的方法有多種,可以通過 Business Glossary 瀏覽器瀏覽和搜索詞匯表,可以通過 Business Glossary Anywhere 客戶機(jī)瀏覽詞匯表內(nèi)容并支持屏幕取詞功能,可以通過 Business Glossary REST API(Representational State Transfer 應(yīng)用程序編程接口)編寫自己的程序來訪問和修改業(yè)務(wù)詞匯表內(nèi)容,還可以通過 Business Glossary Client for Eclipse 插件讓基于 Eclipse 的應(yīng)用程序直接訪問詞匯表內(nèi)容。Business Glossary 還支持與 Cognos BI 和 IBM Industry Models 等集成。圖 3 元數(shù)據(jù)管理體系結(jié)構(gòu)圖InfoSphere Business Glossary Anywhere 介紹IBM InfoSphere Business Glossary Anywhere 可以從在 Microsoft Windows 計(jì)算機(jī)上打開的任何文本文件直接訪問業(yè)務(wù)詞匯表。另外,InfoSphere Business Glossary Anywhere 附帶 IBM InfoSphere Business Glossary Client for Eclipse 和 IBM InfoSphere Business Glossary REST API。通過使用 IBM InfoSphere Business Glossary Anywhere,用戶可以在執(zhí)行其他基于計(jì)算機(jī)的任務(wù)的同時(shí)搜索業(yè)務(wù)詞匯表,不會(huì)丟失上下文或分散注意力。用戶可以通過鼠標(biāo)或鍵盤操作在 Microsoft Windows 桌面上打開的文檔中捕捉單詞或短語,然后在業(yè)務(wù)詞匯表內(nèi)容中搜索它。用戶不必另外打開并登錄 InfoSphere Business Glossary,就可以使用大多數(shù)業(yè)務(wù)詞匯表信息。InfoSphere Metadata Workbench 介紹IBM InfoSphere Metadata Workbench 是基于 Web 界面的元數(shù)據(jù)管理工具,對(duì) Metada Server 中的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)提供完整的管理并提供元數(shù)據(jù)的完整視圖,提供多種元數(shù)據(jù)導(dǎo)入導(dǎo)出功能。InfoSphere Metadata Workbench 可以在整個(gè)數(shù)據(jù)集成項(xiàng)目中跟蹤和維護(hù)信息的關(guān)系,從而提高 IT 對(duì)業(yè)務(wù)人員的透明性和 IT 的響應(yīng)能力。使用 InfoSphere Information Server 產(chǎn)品中不同的模塊用戶,可以通過 InfoSphere Metadata Workbench 查看 InfoSphere Information Server 元數(shù)據(jù)存儲(chǔ)庫(kù)中的元數(shù)據(jù)和數(shù)據(jù)資產(chǎn)。Metadata Workbench 可以提供豐富的元數(shù)據(jù)分析,為整個(gè)信息供應(yīng)鏈的元數(shù)據(jù)提供全程的數(shù)據(jù)流報(bào)告,提供基于字段或作業(yè)的數(shù)據(jù)沿襲(也就是數(shù)據(jù)世系分析或血緣分析)、影響分析和系統(tǒng)相關(guān)性分析等。例如某電信公司在前端展示工具 Cognos Report Studio 中展示的掉話率指標(biāo)明顯和實(shí)際不符,可以通過 Metadata Workbench 使用血緣分析上溯到數(shù)據(jù)源(數(shù)據(jù)倉(cāng)庫(kù)、ODS、ETL、網(wǎng)管系統(tǒng)、EOMS)并圖形化的顯示出該路徑上的所有對(duì)象,方便查找在哪個(gè)環(huán)節(jié)出現(xiàn)問題。數(shù)據(jù)流報(bào)告顯示數(shù)據(jù)從最開始的業(yè)務(wù)系統(tǒng)(粒度到列級(jí)別)、復(fù)制、ETL、ODS 或數(shù)據(jù)倉(cāng)庫(kù)到前端展示報(bào)告或 Dashboad 完整的轉(zhuǎn)移路徑,包括其中對(duì)數(shù)據(jù)執(zhí)行的處理的類型等。數(shù)據(jù)流報(bào)告方便業(yè)務(wù)人員了解信息的起源以及具體的轉(zhuǎn)移過程,有助于進(jìn)行數(shù)據(jù)世系分析,滿足法律遵從性和可審計(jì)性需求。比如可以方便的找出前端展示報(bào)告中的某個(gè)字段的來源,某個(gè) Datastage 作業(yè)將數(shù)據(jù)移動(dòng)到什么位置等。數(shù)據(jù)世系分析可以跟蹤整個(gè)企業(yè)的數(shù)據(jù)流(即便數(shù)據(jù)沒有保存在 Metadata Server 中),可以通過創(chuàng)建擴(kuò)展映射和擴(kuò)展數(shù)據(jù)源來跟蹤數(shù)據(jù)流,為數(shù)據(jù)流中的任何資產(chǎn)創(chuàng)建擴(kuò)展的數(shù)據(jù)世系分析報(bào)告。結(jié)束語本文詳細(xì)介紹了大數(shù)據(jù)治理統(tǒng)一流程參考模型的第三步:“實(shí)施元數(shù)據(jù)管理”,并詳細(xì)講述了在大數(shù)據(jù)時(shí)代如何實(shí)施元數(shù)據(jù)管理,隨后介紹了元數(shù)據(jù)管理成熟度模型,幫助企業(yè)可以參考該模型衡量自己當(dāng)前元數(shù)據(jù)管理水平,最后簡(jiǎn)單介紹了 IBM 在元數(shù)據(jù)管理方面的產(chǎn)品:業(yè)務(wù)元數(shù)據(jù)管理工具 IBM InfoSphere Business Glossary、業(yè)務(wù)詞匯表小工具 InfoSphere Business Glossary Anywhere 和技術(shù)元數(shù)據(jù)管理工具 InfoSphere Metadata Workbench。在本系列文章的下一部分將重點(diǎn)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第四步“定義業(yè)務(wù)問題”、第五步“獲得主管支持”、第六步“執(zhí)行成熟度評(píng)估”、第七步“構(gòu)建路線圖”、第八步“建立組織藍(lán)圖”和第九步“了解數(shù)據(jù)”等內(nèi)容,并繼續(xù)介紹 IBM 信息服務(wù)器中的 InfoSphere Information Analyze、InfoSphere Federation Server、InfoSphere Replication Server 和 InfoSphere Change Data Capture 等。InfoSphere Information Analyze 是一款數(shù)據(jù)質(zhì)量分析工具軟件,用來在項(xiàng)目初期對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)質(zhì)量分析,以便真正地了解源數(shù)據(jù)的結(jié)構(gòu)、質(zhì)量和數(shù)據(jù)分布等,提早發(fā)現(xiàn)數(shù)據(jù)的缺失、錯(cuò)誤、重復(fù)和不一致等問題,為后面的數(shù)據(jù)復(fù)制、ETL 等過程提供支持,以便降低項(xiàng)目實(shí)施風(fēng)險(xiǎn)。參考文獻(xiàn)[1] Sunil Soares,“Big Data Governance”, Part 7 ;[2] 本章參考了 IBM 相關(guān)產(chǎn)品的信息中心、白皮書、方案建議書以及其他各種資料。第四部分:大數(shù)據(jù)治理統(tǒng)一流程參考模型的第四步到第九步如果想要成功地實(shí)施大數(shù)據(jù)治理計(jì)劃,需要了解信息供應(yīng)鏈中的各個(gè)環(huán)節(jié)的數(shù)據(jù)模型、主外鍵關(guān)系等。本部分主要介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第四步“定義業(yè)務(wù)問題”、第五步“獲得主管支持”、第六步“執(zhí)行成熟度評(píng)估”、第七步“構(gòu)建路線圖”、第八步“建立組織藍(lán)圖”和第九步“了解數(shù)據(jù)”等內(nèi)容。第四步:定義業(yè)務(wù)問題如何準(zhǔn)確的定義和描述業(yè)務(wù)問題是數(shù)據(jù)治理計(jì)劃成功的關(guān)鍵,企業(yè)可以從對(duì)特定問題或領(lǐng)域進(jìn)行數(shù)據(jù)治理的緊迫程度以及數(shù)據(jù)治理能夠帶來的價(jià)值來綜合衡量,對(duì)排名靠前的問題或領(lǐng)域優(yōu)先進(jìn)行數(shù)據(jù)治理,這樣能充分獲得業(yè)務(wù)職能部門以及 IT 部門的支持,從而保證數(shù)據(jù)治理計(jì)劃的成功。數(shù)據(jù)治理初始范圍確定后,執(zhí)行具體的數(shù)據(jù)治理工作,等成功后再考慮擴(kuò)展至其他領(lǐng)域??偨Y(jié)以往很多企業(yè)進(jìn)行數(shù)據(jù)治理失敗的原因時(shí)可以發(fā)現(xiàn)很多經(jīng)常出現(xiàn)的癥狀,比如:l 企業(yè)未從數(shù)據(jù)治理中獲得任何價(jià)值;l 數(shù)據(jù)治理過于長(zhǎng)期,和企業(yè)專注短期目標(biāo)不符;l IT 部門應(yīng)對(duì)數(shù)據(jù)質(zhì)量負(fù)責(zé);l IT 部門認(rèn)為數(shù)據(jù)治理過于復(fù)雜,無法順利落地;l 企業(yè)為數(shù)據(jù)管理員分配了其他職責(zé)。分析以上問題出現(xiàn)的根源,可以發(fā)現(xiàn)數(shù)據(jù)治理計(jì)劃失敗的根本原因在于與業(yè)務(wù)價(jià)值缺乏關(guān)聯(lián),IT 部門獨(dú)自進(jìn)行數(shù)據(jù)治理,沒有和相關(guān)業(yè)務(wù)部門進(jìn)行聯(lián)動(dòng)。數(shù)據(jù)治理需要所有利益相關(guān)方參與,可以從業(yè)務(wù)角度(而不是技術(shù)角度)總結(jié)出各種數(shù)據(jù)治理的價(jià)值,從而吸引相關(guān)業(yè)務(wù)領(lǐng)域高層領(lǐng)導(dǎo)的支持,從而保證數(shù)據(jù)治理可以獲得更高的業(yè)務(wù)收益。舉例說明如何定義業(yè)務(wù)問題,很多上市公司財(cái)報(bào)都被監(jiān)管機(jī)構(gòu)要求提供其數(shù)據(jù)來源并證明其數(shù)據(jù)可信,而報(bào)告本身所使用的數(shù)據(jù)流經(jīng)信息供應(yīng)鏈多個(gè)組件(如立方體、數(shù)據(jù)集市或數(shù)據(jù)倉(cāng)庫(kù)、ODS、ETL、數(shù)據(jù)源等)并在各個(gè)組件間進(jìn)行特定轉(zhuǎn)換,如果沒有方便易用的數(shù)據(jù)沿襲分析,公司無法準(zhǔn)確向監(jiān)管機(jī)構(gòu)描述其數(shù)據(jù)來源,如果沒有嚴(yán)格的審計(jì)分析報(bào)告(記錄數(shù)據(jù)都經(jīng)過哪些訪問和變更),公司無法向監(jiān)管機(jī)構(gòu)證明其數(shù)據(jù)可信。另外,安全與隱私同樣是企業(yè)關(guān)注的重點(diǎn),比如如何保護(hù)個(gè)人可標(biāo)識(shí)信息(PII),如何限定對(duì)敏感信息的訪問等。第五步:獲得主管支持?jǐn)?shù)據(jù)治理計(jì)劃獲得主管支持至關(guān)重要,通常需要?jiǎng)?chuàng)建虛擬數(shù)據(jù)治理工作團(tuán)隊(duì)、獲取來自 IT 部門和業(yè)務(wù)部門內(nèi)部高級(jí)管理層的支持以及識(shí)別數(shù)據(jù)治理的所有者等子步驟。l 創(chuàng)建虛擬數(shù)據(jù)治理工作團(tuán)隊(duì):通過跨部門的虛擬數(shù)據(jù)治理團(tuán)隊(duì)解決各個(gè)業(yè)務(wù)條塊各自關(guān)心的業(yè)務(wù)問題。l 獲取來自 IT 部門和業(yè)務(wù)部門內(nèi)部高級(jí)管理層的支持:越早越頻繁地引入利益相關(guān)方參與并獲取利益相關(guān)方高層的支持,數(shù)據(jù)治理計(jì)劃越容易成功。l 識(shí)別數(shù)據(jù)治理的所有者:數(shù)據(jù)治理可以根據(jù)業(yè)務(wù)條塊單獨(dú)進(jìn)行以及跨業(yè)務(wù)部門(需要業(yè)務(wù)部門和 IT 部門參與)統(tǒng)一進(jìn)行。按業(yè)務(wù)條塊單獨(dú)進(jìn)行的好處是業(yè)務(wù)部門非常熟悉其業(yè)務(wù)問題可以快速上手,缺點(diǎn)是難以解決跨業(yè)務(wù)條塊的數(shù)據(jù)治理問題??鐦I(yè)務(wù)部門統(tǒng)一進(jìn)行數(shù)據(jù)治理的好處是可保證整個(gè)企業(yè)數(shù)據(jù)治理的一致性,缺點(diǎn)是協(xié)調(diào)工作比較多,進(jìn)展不如按業(yè)務(wù)條塊快速。同時(shí)越來越多的企業(yè)傾向于委任數(shù)據(jù)治理的綜合所有者進(jìn)行統(tǒng)一的數(shù)據(jù)治理協(xié)調(diào)和管理,該所有者可能是首席信息安全官(CISO)、首席信息官(CIO)、首席風(fēng)險(xiǎn)官(CRO)、首席合規(guī)官(CCO)和首席隱私官(CPO)等,也可能是全職的首席數(shù)據(jù)官(CDO)。第六步:執(zhí)行成熟度評(píng)估根據(jù)能力成熟度模型(CMM)提供的分類方法,成熟度可以分為 5 個(gè)等級(jí),1 級(jí)為初始級(jí),此時(shí)流程通常是臨時(shí)的,整體環(huán)境不夠穩(wěn)定;2 級(jí)為受管級(jí),成功是可重復(fù)發(fā)生的,但可能無法針對(duì)組織中所有項(xiàng)目重復(fù)流程,存在基本的項(xiàng)目管理和流程規(guī)則,但仍有超出預(yù)期成本和時(shí)間的風(fēng)險(xiǎn);3 級(jí)為定義級(jí),建立了標(biāo)準(zhǔn)流程集,通過組織的標(biāo)準(zhǔn)流程集定制標(biāo)準(zhǔn)、流程描述和項(xiàng)目過程,以適應(yīng)特定項(xiàng)目或組織單位;4 級(jí)為定量管理級(jí),對(duì)流程進(jìn)行定量度量和控制,所選的子流程大大提高了整體流程績(jī)效;5 級(jí)為優(yōu)化級(jí),在該級(jí)明確了組織的定量流程改進(jìn)目標(biāo),并不斷優(yōu)化以適應(yīng)變化的業(yè)務(wù)目標(biāo)。IBM 數(shù)據(jù)治理成熟度模型如圖 1 所示,共包含 11 個(gè)類別來度量數(shù)據(jù)治理能力,分別隸屬于四個(gè)相互關(guān)聯(lián)的組 [1]。l 成果(Outes):數(shù)據(jù)治理計(jì)劃預(yù)期結(jié)果,通常致力于降低風(fēng)險(xiǎn)和提升價(jià)值等,而降低成本和提高收入反過來又促進(jìn)了實(shí)現(xiàn)這些結(jié)果。l 數(shù)據(jù)風(fēng)險(xiǎn)管理及合規(guī)性(Data Risk Managementamp。Compliance):確定數(shù)據(jù)治理與風(fēng)險(xiǎn)管理關(guān)聯(lián)度,用來量化、跟蹤、避免或轉(zhuǎn)移風(fēng)險(xiǎn)等。l 價(jià)值創(chuàng)造(Value Creation):確定數(shù)據(jù)資產(chǎn)是否幫助企業(yè)創(chuàng)造更大價(jià)值。l 支持條件(Enablers):l 組織結(jié)構(gòu)和意識(shí)(Organizational Structures amp。 Awareness):主要用來評(píng)估企業(yè)針對(duì)數(shù)據(jù)治理是否擁有合適的數(shù)據(jù)治理委員會(huì)、數(shù)據(jù)治理工作組和全職的數(shù)據(jù)治理人員,是否建立了數(shù)據(jù)治理章程以及高級(jí)主管對(duì)數(shù)據(jù)的重視程度等。l 管理工作(Stewardship):是指質(zhì)量控制規(guī)程,用來管理數(shù)據(jù)以實(shí)現(xiàn)資產(chǎn)增值和風(fēng)險(xiǎn)控制等。l 策略(Policy):為企業(yè)如何管理數(shù)據(jù)在高級(jí)別指明方向。l 核心規(guī)程(Core Disciplines):l 數(shù)據(jù)質(zhì)量管理(Data Quality Management):主要指用來提高數(shù)據(jù)質(zhì)量,保證數(shù)據(jù)準(zhǔn)確性、一致性和完整性的各種方法。l 信息生命周期管理(Information Lifecycle Management):主要指對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)信息化全生命周期管理相關(guān)的策略、流程和分類等。l 信息安全與隱私(Information Security and Privacy):主要指保護(hù)數(shù)據(jù)資產(chǎn)、降低風(fēng)險(xiǎn)的各種策略、實(shí)踐和控制方法。l 支持規(guī)程(Supporting Disciplines):l 數(shù)據(jù)架構(gòu)(Data Architecture):是指系統(tǒng)的體系結(jié)構(gòu)設(shè)計(jì),支持向適當(dāng)用戶提供和分配數(shù)據(jù)。l 分類與元數(shù)據(jù)(Classification and Metadata):是指用于業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)以及元模型、存儲(chǔ)庫(kù)創(chuàng)建通用語義定義的方法和工具。l 審計(jì)信息記錄與報(bào)告(Audit Information Logging and Reporting):是指與數(shù)據(jù)審計(jì)、內(nèi)部控制、合規(guī)和監(jiān)控超級(jí)用戶等有關(guān)的管理流程。圖1 IBM 數(shù)據(jù)治理成熟度模型IBM 數(shù)據(jù)治理成熟度模型框架提供了衡量當(dāng)前狀態(tài)和未來狀態(tài)之間差距的參考,比如某用戶其數(shù)據(jù)治理成熟度評(píng)估結(jié)果如圖 2 所示,成熟度級(jí)別與能力成熟度模型一一對(duì)應(yīng)。圖2 數(shù)據(jù)治理成熟度評(píng)估示例第七步:構(gòu)建路線圖路線圖是關(guān)于人員、流程和技術(shù)方案的短期和中長(zhǎng)期計(jì)劃,通常,企業(yè)需要制定未來 1 到 2 年數(shù)據(jù)治理計(jì)劃的路線圖。根據(jù)數(shù)據(jù)治理成熟度的評(píng)估結(jié)果(11 類數(shù)據(jù)治理成熟度的當(dāng)前狀態(tài))以及與未來目標(biāo)的差距,列出彌補(bǔ)這些差距所需要關(guān)鍵人員、流程和技術(shù)計(jì)劃并根據(jù)計(jì)劃的優(yōu)先級(jí)制定路線圖。隨著大數(shù)據(jù)對(duì)企業(yè)越來越重要,信息治理計(jì)劃需要將大數(shù)據(jù)納入路線圖之中。第八步:建立組織藍(lán)圖企業(yè)需要組建具有足夠權(quán)限的數(shù)據(jù)治理組織架構(gòu)以便