【正文】
隨著大數(shù)據(jù)對(duì)企業(yè)越來越重要,信息治理計(jì)劃需要將大數(shù)據(jù)納入路線圖之中。圖2 數(shù)據(jù)治理成熟度評(píng)估示例第七步:構(gòu)建路線圖路線圖是關(guān)于人員、流程和技術(shù)方案的短期和中長(zhǎng)期計(jì)劃,通常,企業(yè)需要制定未來 1 到 2 年數(shù)據(jù)治理計(jì)劃的路線圖。l 審計(jì)信息記錄與報(bào)告(Audit Information Logging and Reporting):是指與數(shù)據(jù)審計(jì)、內(nèi)部控制、合規(guī)和監(jiān)控超級(jí)用戶等有關(guān)的管理流程。l 支持規(guī)程(Supporting Disciplines):l 數(shù)據(jù)架構(gòu)(Data Architecture):是指系統(tǒng)的體系結(jié)構(gòu)設(shè)計(jì),支持向適當(dāng)用戶提供和分配數(shù)據(jù)。l 信息生命周期管理(Information Lifecycle Management):主要指對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)信息化全生命周期管理相關(guān)的策略、流程和分類等。l 策略(Policy):為企業(yè)如何管理數(shù)據(jù)在高級(jí)別指明方向。 Awareness):主要用來評(píng)估企業(yè)針對(duì)數(shù)據(jù)治理是否擁有合適的數(shù)據(jù)治理委員會(huì)、數(shù)據(jù)治理工作組和全職的數(shù)據(jù)治理人員,是否建立了數(shù)據(jù)治理章程以及高級(jí)主管對(duì)數(shù)據(jù)的重視程度等。l 價(jià)值創(chuàng)造(Value Creation):確定數(shù)據(jù)資產(chǎn)是否幫助企業(yè)創(chuàng)造更大價(jià)值。l 數(shù)據(jù)風(fēng)險(xiǎn)管理及合規(guī)性(Data Risk Managementamp。IBM 數(shù)據(jù)治理成熟度模型如圖 1 所示,共包含 11 個(gè)類別來度量數(shù)據(jù)治理能力,分別隸屬于四個(gè)相互關(guān)聯(lián)的組 [1]。同時(shí)越來越多的企業(yè)傾向于委任數(shù)據(jù)治理的綜合所有者進(jìn)行統(tǒng)一的數(shù)據(jù)治理協(xié)調(diào)和管理,該所有者可能是首席信息安全官(CISO)、首席信息官(CIO)、首席風(fēng)險(xiǎn)官(CRO)、首席合規(guī)官(CCO)和首席隱私官(CPO)等,也可能是全職的首席數(shù)據(jù)官(CDO)。按業(yè)務(wù)條塊單獨(dú)進(jìn)行的好處是業(yè)務(wù)部門非常熟悉其業(yè)務(wù)問題可以快速上手,缺點(diǎn)是難以解決跨業(yè)務(wù)條塊的數(shù)據(jù)治理問題。l 獲取來自 IT 部門和業(yè)務(wù)部門內(nèi)部高級(jí)管理層的支持:越早越頻繁地引入利益相關(guān)方參與并獲取利益相關(guān)方高層的支持,數(shù)據(jù)治理計(jì)劃越容易成功。第五步:獲得主管支持?jǐn)?shù)據(jù)治理計(jì)劃獲得主管支持至關(guān)重要,通常需要?jiǎng)?chuàng)建虛擬數(shù)據(jù)治理工作團(tuán)隊(duì)、獲取來自 IT 部門和業(yè)務(wù)部門內(nèi)部高級(jí)管理層的支持以及識(shí)別數(shù)據(jù)治理的所有者等子步驟。舉例說明如何定義業(yè)務(wù)問題,很多上市公司財(cái)報(bào)都被監(jiān)管機(jī)構(gòu)要求提供其數(shù)據(jù)來源并證明其數(shù)據(jù)可信,而報(bào)告本身所使用的數(shù)據(jù)流經(jīng)信息供應(yīng)鏈多個(gè)組件(如立方體、數(shù)據(jù)集市或數(shù)據(jù)倉庫、ODS、ETL、數(shù)據(jù)源等)并在各個(gè)組件間進(jìn)行特定轉(zhuǎn)換,如果沒有方便易用的數(shù)據(jù)沿襲分析,公司無法準(zhǔn)確向監(jiān)管機(jī)構(gòu)描述其數(shù)據(jù)來源,如果沒有嚴(yán)格的審計(jì)分析報(bào)告(記錄數(shù)據(jù)都經(jīng)過哪些訪問和變更),公司無法向監(jiān)管機(jī)構(gòu)證明其數(shù)據(jù)可信。分析以上問題出現(xiàn)的根源,可以發(fā)現(xiàn)數(shù)據(jù)治理計(jì)劃失敗的根本原因在于與業(yè)務(wù)價(jià)值缺乏關(guān)聯(lián),IT 部門獨(dú)自進(jìn)行數(shù)據(jù)治理,沒有和相關(guān)業(yè)務(wù)部門進(jìn)行聯(lián)動(dòng)。數(shù)據(jù)治理初始范圍確定后,執(zhí)行具體的數(shù)據(jù)治理工作,等成功后再考慮擴(kuò)展至其他領(lǐng)域。本部分主要介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第四步“定義業(yè)務(wù)問題”、第五步“獲得主管支持”、第六步“執(zhí)行成熟度評(píng)估”、第七步“構(gòu)建路線圖”、第八步“建立組織藍(lán)圖”和第九步“了解數(shù)據(jù)”等內(nèi)容。參考文獻(xiàn)[1] Sunil Soares,“Big Data Governance”, Part 7 ;[2] 本章參考了 IBM 相關(guān)產(chǎn)品的信息中心、白皮書、方案建議書以及其他各種資料。在本系列文章的下一部分將重點(diǎn)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第四步“定義業(yè)務(wù)問題”、第五步“獲得主管支持”、第六步“執(zhí)行成熟度評(píng)估”、第七步“構(gòu)建路線圖”、第八步“建立組織藍(lán)圖”和第九步“了解數(shù)據(jù)”等內(nèi)容,并繼續(xù)介紹 IBM 信息服務(wù)器中的 InfoSphere Information Analyze、InfoSphere Federation Server、InfoSphere Replication Server 和 InfoSphere Change Data Capture 等。數(shù)據(jù)世系分析可以跟蹤整個(gè)企業(yè)的數(shù)據(jù)流(即便數(shù)據(jù)沒有保存在 Metadata Server 中),可以通過創(chuàng)建擴(kuò)展映射和擴(kuò)展數(shù)據(jù)源來跟蹤數(shù)據(jù)流,為數(shù)據(jù)流中的任何資產(chǎn)創(chuàng)建擴(kuò)展的數(shù)據(jù)世系分析報(bào)告。數(shù)據(jù)流報(bào)告方便業(yè)務(wù)人員了解信息的起源以及具體的轉(zhuǎn)移過程,有助于進(jìn)行數(shù)據(jù)世系分析,滿足法律遵從性和可審計(jì)性需求。例如某電信公司在前端展示工具 Cognos Report Studio 中展示的掉話率指標(biāo)明顯和實(shí)際不符,可以通過 Metadata Workbench 使用血緣分析上溯到數(shù)據(jù)源(數(shù)據(jù)倉庫、ODS、ETL、網(wǎng)管系統(tǒng)、EOMS)并圖形化的顯示出該路徑上的所有對(duì)象,方便查找在哪個(gè)環(huán)節(jié)出現(xiàn)問題。使用 InfoSphere Information Server 產(chǎn)品中不同的模塊用戶,可以通過 InfoSphere Metadata Workbench 查看 InfoSphere Information Server 元數(shù)據(jù)存儲(chǔ)庫中的元數(shù)據(jù)和數(shù)據(jù)資產(chǎn)。InfoSphere Metadata Workbench 介紹IBM InfoSphere Metadata Workbench 是基于 Web 界面的元數(shù)據(jù)管理工具,對(duì) Metada Server 中的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)提供完整的管理并提供元數(shù)據(jù)的完整視圖,提供多種元數(shù)據(jù)導(dǎo)入導(dǎo)出功能。用戶可以通過鼠標(biāo)或鍵盤操作在 Microsoft Windows 桌面上打開的文檔中捕捉單詞或短語,然后在業(yè)務(wù)詞匯表內(nèi)容中搜索它。另外,InfoSphere Business Glossary Anywhere 附帶 IBM InfoSphere Business Glossary Client for Eclipse 和 IBM InfoSphere Business Glossary REST API。Business Glossary 還支持與 Cognos BI 和 IBM Industry Models 等集成。Information Server 其他組件(如 FastTrack/Information Analyzer/InfoSphere Data Architect 等)可以直接訪問 Metadata Server 獲取元數(shù)據(jù),DataStage 和 QualityStage 可以通過 DataStage Connectors 訪問 Metadata Server。Business Glossary 與 Information Server 其他組件以及第三方產(chǎn)品交互如圖 3 所示,Business Glossary 負(fù)責(zé)對(duì)業(yè)務(wù)元數(shù)據(jù)進(jìn)行管理,Metadata Server 作為中央共享元數(shù)據(jù)庫負(fù)責(zé)存儲(chǔ)業(yè)務(wù)、技術(shù)和操作元數(shù)據(jù),Information Server 組件的各種開發(fā)和運(yùn)行元數(shù)據(jù)將會(huì)自動(dòng)存儲(chǔ)在 Metadata Server 中,通過 import/export manager 還可以將第三方各種元數(shù)據(jù)與 Metadata Server 進(jìn)行元數(shù)據(jù)交互,Metadata Server 還支持導(dǎo)入 CSV、XML、Glossary archive 和 InfoSphere Data Architect 等內(nèi)容。圖 2 IBM InfoSphere Business Glossary 業(yè)務(wù)術(shù)語管理分類通過使用 Business Glossary 解決方案可以幫企業(yè)帶來很多價(jià)值,比如:l 獲取業(yè)務(wù)術(shù)語并進(jìn)行分類,基于 Web 的業(yè)務(wù)元數(shù)據(jù)生成、管理和共享;l 把業(yè)務(wù)術(shù)語及其分類與 IT 資產(chǎn)關(guān)聯(lián),為信息技術(shù)資產(chǎn)提供業(yè)務(wù)環(huán)境;l 識(shí)別數(shù)據(jù)使用者讓業(yè)務(wù)術(shù)語可被訪問,讓每個(gè)用戶可立刻訪問有內(nèi)涵的信息;l 讓 IT 項(xiàng)目向數(shù)據(jù)管理看齊,創(chuàng)建和管理業(yè)務(wù)術(shù)語及關(guān)系,同時(shí)鏈接到物理數(shù)據(jù)源。產(chǎn)品為用戶提供關(guān)于數(shù)據(jù)資源的以下信息:l 數(shù)據(jù)的商業(yè)意義和說明;l 數(shù)據(jù)和流程的管家;l 保證的業(yè)務(wù)等級(jí);l 獲準(zhǔn)使用的術(shù)語;用戶可根據(jù)可控詞匯表定義的語義來組織并查找 InfoSphere Business Glossary,您可使用 Web 控制臺(tái)來創(chuàng)建可控詞匯表。元數(shù)據(jù)應(yīng)該由了解信息資產(chǎn)對(duì)業(yè)務(wù)的意義和重要性的人員進(jìn)行管理。業(yè)務(wù)詞匯表(業(yè)務(wù)元數(shù)據(jù))包含與企業(yè)相關(guān)的詞匯、詞匯業(yè)務(wù)含義以及詞匯與信息資產(chǎn)(技術(shù)元數(shù)據(jù))的關(guān)系,可以有效幫助企業(yè)用戶了解其業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)的對(duì)應(yīng)的業(yè)務(wù)含義。在處理數(shù)據(jù)集成項(xiàng)目中的變動(dòng)時(shí),強(qiáng)大的影響分析工具可以幫助數(shù)據(jù)分析師和開發(fā)人員做出更好的決策。這個(gè)瀏覽工具可以提高對(duì)最重要的信息的信任程度。另外,這個(gè)工具的數(shù)據(jù)專員功能可以提升責(zé)任感,支持?jǐn)?shù)據(jù)治理策略。InfoSphere Business Glossary 是一個(gè)基于 web 的交互式工具,可以幫助用戶創(chuàng)建、管理和共享業(yè)務(wù)詞匯表和分類系統(tǒng)??梢酝ㄟ^使用元數(shù)據(jù)服務(wù)訪問數(shù)據(jù)以及完成分析、建模、清理和轉(zhuǎn)換等數(shù)據(jù)集成任務(wù)。這可以增加重用的機(jī)會(huì),加快項(xiàng)目的速度,提高信息的一致性,增強(qiáng)信息治理。另外,可以通過便于發(fā)布的共享服務(wù)在面向服務(wù)架構(gòu)中使用這些功能。l 這些功能的基礎(chǔ)是一個(gè)共用的元數(shù)據(jù)和并行處理基礎(chǔ)設(shè)施,它為整個(gè)平臺(tái)提供支持和自動(dòng)化??梢钥珥?xiàng)目重用信息檢驗(yàn)、訪問和處理規(guī)則,這會(huì)提高一致性、增強(qiáng)對(duì)數(shù)據(jù)的管控并提高 IT 項(xiàng)目的效率。這些包幫助公司通過企業(yè)數(shù)據(jù)倉庫或 ERP 廠商業(yè)務(wù)智能化解決方案集成來自這些企業(yè)應(yīng)用程序的數(shù)據(jù),構(gòu)建分析解決方案。InfoSphere Information Server 可以提高從事數(shù)據(jù)集成項(xiàng)目的開發(fā)團(tuán)隊(duì)的生產(chǎn)力,改進(jìn)這些開發(fā)團(tuán)隊(duì)之間以及開發(fā)人員與提出需求的業(yè)務(wù)用戶之間的協(xié)作,促進(jìn)項(xiàng)目團(tuán)隊(duì)內(nèi)部和之間的重用,這些都會(huì)產(chǎn)生價(jià)值??蛻艏瓤梢圆渴鹜暾?InfoSphere Information Server 以處理整個(gè)企業(yè)數(shù)據(jù)集成生命周期,也可以使用單獨(dú)的集成產(chǎn)品并根據(jù)需要添加其他組件。還可以通過 InfoSphere Information Services Director 交付基礎(chǔ)設(shè)施“隨需”使用 InfoSphere Information Server 數(shù)據(jù)集成功能,從而補(bǔ)充 Enterprise Application Integration(EAI)、Business Process Management(BPM)、Enterprise Information Integration(EII) 和 Application Servers 集成基礎(chǔ)設(shè)施。這些產(chǎn)品由一個(gè)全面的集成服務(wù)平臺(tái)支持,提供全程數(shù)據(jù)集成、元數(shù)據(jù)管理、任何數(shù)據(jù)源與任何平臺(tái)上的任何應(yīng)用程序之間的連接以及通過并行處理技術(shù)無限制地?cái)U(kuò)展。InfoSphere Information Server 讓客戶可以跨分析、運(yùn)營(yíng)和事務(wù)環(huán)境應(yīng)用一致的可重復(fù)的流程以解決企業(yè)級(jí)數(shù)據(jù)問題,不受數(shù)據(jù)量、復(fù)雜性或延遲的限制。InfoSphere Information Server 幫助業(yè)務(wù)人員和 IT 人員進(jìn)行協(xié)作,理解來自任何來源的任何類型的信息的含義、結(jié)構(gòu)和內(nèi)容。IBM InfoSphere Information Server 元數(shù)據(jù)管理組件介紹IBM InfoSphere Information Server 可以幫助組織從分散在其系統(tǒng)中的各種復(fù)雜信息中獲取更多價(jià)值。元數(shù)據(jù)中的任何變化將觸發(fā)業(yè)務(wù)工作流,以便其他業(yè)務(wù)系統(tǒng)進(jìn)行相應(yīng)的修改。和其他中間件和應(yīng)用系統(tǒng)的交換,通過基于CWM的適配器方式進(jìn)行連接。業(yè)務(wù)詞匯表(業(yè)務(wù)元數(shù)據(jù))包含與企業(yè)相關(guān)的詞匯、詞匯業(yè)務(wù)含義以及詞匯與信息資產(chǎn)(技術(shù)元數(shù)據(jù))的關(guān)系,可以有效幫助企業(yè)用戶了解其業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)對(duì)應(yīng)的業(yè)務(wù)含義。和其他中間件和應(yīng)用系統(tǒng)的交互,仍然通過橋(bridge)的方式進(jìn)行,中央存儲(chǔ)庫中的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)之間還是通過手工方式進(jìn)行映射。l L3:元數(shù)據(jù)集中管理在L2的基礎(chǔ)上做了改進(jìn),增強(qiáng)了元數(shù)據(jù)的集中控制,局部業(yè)務(wù)單元或開發(fā)小組如不事先通知其他人,將無法對(duì)元數(shù)據(jù)進(jìn)行修改。缺點(diǎn)是,元數(shù)據(jù)仍然在各業(yè)務(wù)系統(tǒng)上維護(hù),然后更新到中央存儲(chǔ)庫,各業(yè)務(wù)豎井之間仍然使用不同的命名法,經(jīng)常會(huì)造成相同的名字代表不同意義的事情,而同一件事情則使用了多個(gè)不同的名字,有些沒有納入業(yè)務(wù)系統(tǒng)管理的元數(shù)據(jù)則容易缺失。業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)之間全部或部分通過手工方式做了關(guān)聯(lián)。由于各個(gè)業(yè)務(wù)系統(tǒng)處于一個(gè)個(gè)豎井之中,元數(shù)據(jù)之間互通互聯(lián)困難,如果需要獲取其他系統(tǒng)的元數(shù)據(jù),除了調(diào)閱各種文檔外,對(duì)分散在各種中間件和業(yè)務(wù)系統(tǒng)中的技術(shù)元數(shù)據(jù)需要通過橋(bridge)的方式實(shí)現(xiàn)互通互聯(lián)。l L1:從屬于業(yè)務(wù)系統(tǒng)在這個(gè)階段,隨著各個(gè)業(yè)務(wù)系統(tǒng)自動(dòng)化構(gòu)建完成,相應(yīng)的元數(shù)據(jù)也隨著需求整理、設(shè)計(jì)、開發(fā)、實(shí)施和維護(hù)等過程被各個(gè)業(yè)務(wù)系統(tǒng)孤立的全部或部分管理起來。在實(shí)施元數(shù)據(jù)管理的過程中,可以參照元數(shù)據(jù)管理的成熟度模型確定企業(yè)當(dāng)前元數(shù)據(jù)管理所在層次,并根據(jù)業(yè)務(wù)需要制定路線圖實(shí)現(xiàn)元數(shù)據(jù)管理水平的提升。將業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)進(jìn)行鏈接,可以通過操作元數(shù)據(jù)(如流計(jì)算或 ETL 工具所生成的數(shù)據(jù))監(jiān)測(cè)大數(shù)據(jù)的流動(dòng);可以通過數(shù)據(jù)世系分析(血緣分析)在整個(gè)信息供應(yīng)鏈中實(shí)現(xiàn)數(shù)據(jù)的正向追溯或逆向追溯,了解數(shù)據(jù)都經(jīng)歷了哪些變化,查看字段在信息供應(yīng)鏈各組件間轉(zhuǎn)換是否正確等;可以通過影響分析可以了解具體某個(gè)字段的變更會(huì)對(duì)信息供應(yīng)鏈中其他組件中的字段造成哪些影響等。及時(shí)跟進(jìn)和理解各種大數(shù)據(jù)技術(shù)中的元數(shù)據(jù),提供對(duì)其連續(xù)、及時(shí)地支持,比如 MPP 數(shù)據(jù)庫、流計(jì)算引擎、Apache Hadoop/企業(yè)級(jí) Hadoop、NoSQL 數(shù)據(jù)庫以及各種數(shù)據(jù)治理工具如審計(jì)/安全工具、信息生命周期管理工具等。對(duì)大數(shù)據(jù)平臺(tái)中的結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管理可以遵循公共倉庫元模型(CWM)構(gòu)建元數(shù)據(jù)體系結(jié)構(gòu),以便方便的實(shí)現(xiàn)各個(gè)組件間元數(shù)據(jù)的交互;對(duì)大數(shù)據(jù)平臺(tái)中的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管理,因?yàn)闃I(yè)內(nèi)還沒有通用的公共元模型,企業(yè)可以嘗試采用基于自定義模型驅(qū)動(dòng)的方式構(gòu)建中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)。這樣就通過構(gòu)建各種本體,在整個(gè)企業(yè)范圍提供一個(gè)完整的共享詞匯表,保證每個(gè)元數(shù)據(jù)元素在信息供應(yīng)鏈中每個(gè)組件的語義上保持一致,實(shí)現(xiàn)是語義等效。針對(duì)大數(shù)據(jù)的業(yè)務(wù)元數(shù)據(jù),依舊可以通