【正文】
其中。(3). 由資料探勘和資料檢核專家(資訊技術(shù)人員)根據(jù)結(jié)構(gòu)化歸納或資料偏差偵測(cè)結(jié)果,持續(xù)調(diào)整資料探勘演算法,直到令人滿意的評(píng)估結(jié)果產(chǎn)生。各個(gè)資料來源的資料量非常龐大,如果單靠人工方式來檢核,所要付出的代價(jià)是相當(dāng)昂貴的,因此採用自動(dòng)化機(jī)制進(jìn)行檢核,可以加速效率。而資訊技術(shù)人員則根據(jù)業(yè)務(wù)分析人員所歸納出的業(yè)務(wù)知識(shí)與品質(zhì)需求,發(fā)展相對(duì)應(yīng)的程式模組及系統(tǒng)工具,用來發(fā)覺、偵測(cè)或是過濾可能發(fā)生的資料品質(zhì)問題。 圖3說明一個(gè)公部門資訊整合加上資料品質(zhì)管理平臺(tái)的架構(gòu)及流程。政府部門應(yīng)該以「民眾觀點(diǎn)」發(fā)展,提供主題導(dǎo)向(subjectoriented)的整合與服務(wù),才能提昇為民服務(wù)的水準(zhǔn),然欲達(dá)成資訊基礎(chǔ)面的整合,尚有相當(dāng)多課題待克服,但綜觀現(xiàn)行實(shí)務(wù)應(yīng)用上,資料品質(zhì)的課題是其中之一。4. 環(huán)保部門資訊整合之資料品質(zhì)管控以下介紹我們所建議的環(huán)保部門資料品質(zhì)管控程序,以往政府部門大都依個(gè)別機(jī)構(gòu)的權(quán)責(zé)劃分資訊處理作業(yè),也就是從「政府觀點(diǎn)」發(fā)展,不論各政府機(jī)關(guān)間,或是機(jī)關(guān)內(nèi)部各單位間,係以獨(dú)立方式進(jìn)行業(yè)務(wù)電腦化流程,於是形成許多「煙囪式」(stovepiped)系統(tǒng)。圖2:資料品質(zhì)定義之階層圖一般而言,資料品質(zhì)的概念是屬於多維度的,而品質(zhì)參數(shù)的訂定也最好要符合各種不同的資料型態(tài),來自各個(gè)不同的應(yīng)用領(lǐng)域中,都有著共同的品質(zhì)參數(shù)用以評(píng)估其資料品質(zhì)的需求。匯入資料倉儲(chǔ)的資料量多寡應(yīng)視應(yīng)用為基準(zhǔn),而非將所有資訊源中的資料完全整合匯入系統(tǒng)中。因此在詮釋性層面中包含了資料格式(syntax)與資料語意(semantics)等兩個(gè)品質(zhì)因子,用來定義資料項(xiàng)的屬性。乍看之下,資料的存取性與安全性考量在某些情形下是相衝突的,但若完全無法取得這些保密性資料,則分析人員將無法研究解決資料不適用的問題,資料的需求管理者也無法作出相關(guān)的決策。由這項(xiàng)定義繼續(xù)延伸,必須再明確推衍出使資料適於使用的基本要素,基於這項(xiàng)需求,可將資料品質(zhì)再細(xì)分成四個(gè)層面(dimension)來討論分析[13],每個(gè)層面又可再細(xì)分為若干個(gè)資料品質(zhì)參數(shù)(data quality parameter),資料品質(zhì)參數(shù)的主要作用是讓使用者評(píng)估資料倉儲(chǔ)中的資料品質(zhì)[14]。 2. 資料品質(zhì)淨(jìng)化規(guī)則與自動(dòng)化作業(yè)工具尚待強(qiáng)化。3. 品質(zhì)聲明(quality statement):這些聲明包含資料品質(zhì)測(cè)量的結(jié)果以及採用何種方式來展現(xiàn)給終端使用者,例如階層式的自動(dòng)化控制迴圈就可以聚集低階層的品質(zhì),再將結(jié)果以三種不同的顏色(綠色代表品質(zhì)良好、黃色代表有部分瑕庛、紅色代表品質(zhì)低劣)讓使用者很容易辨別以及了解。表1:結(jié)合資料品質(zhì)的資料模型測(cè)站名稱懸浮固體(mg/L)大腸桿菌群(CFU/100ml)PH值輸入日期校核者大直橋中山橋 : :46::24000010::::2005120720051212 : :KevinRichard::attributes for data valueattributes for data quality但是這種方式會(huì)改變?cè)假Y料儲(chǔ)存方式,同時(shí)還要修改SQL的查詢語言結(jié)構(gòu)使其包含對(duì)品質(zhì)資料的處理,因此對(duì)品質(zhì)因子的設(shè)定、儲(chǔ)存及擷取必須做進(jìn)一步的處理,以免造成資料因新增或刪除所形成的異常現(xiàn)象。附有品質(zhì)因子的資料欄位可聯(lián)結(jié)至相關(guān)的品質(zhì)資訊,其儲(chǔ)存結(jié)構(gòu)改變了原始關(guān)聯(lián)資料庫中資料欄位值必須是單一值的限制,使每項(xiàng)有品質(zhì)因子的資料欄位都以下列序?qū)Ψ绞絻?chǔ)存資料。綜上論述,資料品質(zhì)的優(yōu)劣不只是資料倉儲(chǔ)系統(tǒng)成敗的關(guān)鍵,更攸關(guān)國家人民的福祉,但是,在建置資料倉儲(chǔ)的過程中資料品質(zhì)的維護(hù)與提升,通常需要耗費(fèi)相當(dāng)大的人力及時(shí)間成本,所以,發(fā)展自動(dòng)化、有效率且極具正確性的資料品質(zhì)管控系統(tǒng)及相關(guān)作業(yè)流程機(jī)制等,益顯重要。在實(shí)作及應(yīng)用方面, Helfert and Herrmann以瑞士某家銀行的資料倉儲(chǔ)系統(tǒng)為例,提出一個(gè)維持高資料品質(zhì)的方法(以詮釋資料為基礎(chǔ)之資料品質(zhì)系統(tǒng))[4]。Jarke et al倡議一個(gè)以擴(kuò)充性儲(chǔ)存庫為基礎(chǔ)的一種資料倉儲(chǔ)架構(gòu),但此架構(gòu)主要專注在資料倉儲(chǔ)系統(tǒng)設(shè)計(jì)及建置階段的品質(zhì)控管,相對(duì)的也較少注意到資料倉儲(chǔ)內(nèi)的資料品質(zhì)問題。本文第二節(jié)回顧資料品質(zhì)相關(guān)文獻(xiàn),第三節(jié)描述階層性資料品質(zhì)模式,第四節(jié)以環(huán)保部門資訊整合之資料品質(zhì)管控作為探討實(shí)例,第五節(jié)為結(jié)論。據(jù)估計(jì)約有六成以上的資料倉儲(chǔ)系統(tǒng)宣告失敗,其主要的原因是沒有充分的時(shí)間與努力來解決系統(tǒng)中的資料品質(zhì)問題[9]。一般來說,資料倉儲(chǔ)可視為一種整合性的資料儲(chǔ)存體,其內(nèi)部所儲(chǔ)存的資料是由多個(gè)分散式、自主性及異質(zhì)性的資訊源中,萃取並整合而來的,由此相對(duì)地更突顯出資料倉儲(chǔ)中資料品質(zhì)問題的重要性。在資料擷取的階段中,原有的資料必須經(jīng)由檢視,找出其中問題或錯(cuò)誤,並且儘可能解決這些問題。的一份調(diào)查報(bào)告顯示[8],美國企業(yè)因資料品質(zhì)的問題,每年損失6千億美元。事實(shí)上,資料品質(zhì)的問題在傳統(tǒng)資料庫與整合性資訊系統(tǒng)(或資料倉儲(chǔ))有相當(dāng)差異,在資料整合過程中,來源資料因?yàn)槭褂谜咻斎脲e(cuò)誤或組織環(huán)境隨著時(shí)間的推移而改變,這些都會(huì)影響所存放資料的品質(zhì)。由於單一資料來源的資料品質(zhì)控管程序與多個(gè)資料來源的控管程序差異甚大,現(xiàn)行資料倉儲(chǔ)相關(guān)技術(shù)可否有效提昇資料整合後的資料品質(zhì)問題,頗值得探討。Data Warehousing Institute(Eliction, Transform, Load,ETL)作業(yè)程序,將各個(gè)不同來源的資料整合匯入資料倉儲(chǔ)。一個(gè)主要的因素是資料來源本身充滿了許多有問題的資料,是以如何有效地處理資料整合系統(tǒng)或是資料倉儲(chǔ)環(huán)境所衍生的資料品質(zhì)問題,已是當(dāng)前學(xué)術(shù)界與實(shí)務(wù)界亟為關(guān)注的課題。因此儲(chǔ)存在資料倉儲(chǔ)中的資料通常是歷史性資料,具有時(shí)序上的變化,是以資料品質(zhì)的問題會(huì)