【文章內(nèi)容簡介】
層次,不過到目前為止,還沒有形成專門用于表示這種層次性的統(tǒng)一術(shù)語,例如,有的用類和域表示這種層次,而 ISO TC211則用數(shù)據(jù)質(zhì)量元素及子元素來表達。不同的應(yīng)用領(lǐng)域?qū)?shù)據(jù)質(zhì)量的描述也是不同的,因此,建立反映應(yīng)用領(lǐng)域特點的數(shù)據(jù)質(zhì)量框架,是數(shù)據(jù)質(zhì)量評估所要解決的首要問題。數(shù)據(jù)質(zhì)量評估是面向應(yīng)用的,同樣的數(shù)據(jù)在不同的應(yīng)用背景下的接受度是不同的,例如對于數(shù)據(jù)挖掘,同樣的數(shù)據(jù)在一個挖掘主題下表現(xiàn)良好,而在另一個挖掘主題下卻得不到有意義的結(jié)果。因此,需求分析實際上是維度選擇的過程,數(shù)據(jù)質(zhì)量評估從一個或幾個維度出發(fā),以動態(tài)或靜態(tài)的方式審視數(shù)據(jù)。所謂動態(tài)的評估方式,是指從數(shù)據(jù)產(chǎn)生機制上對數(shù)據(jù)質(zhì)量進行評估,而靜態(tài)方式只考慮數(shù)據(jù)本身。雖然動態(tài)的評估方式能夠更徹底全面地對數(shù)據(jù)質(zhì)量做出評價,但在很多的應(yīng)用背景下,如數(shù)據(jù)挖掘,往往受條件限制,無法得知數(shù)據(jù)產(chǎn)生機制的信息。面向數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量評估DMQDA(Data Mining Oriented Data Quality Assessment)是具有實際意義的,因為數(shù)據(jù)挖掘常常是一個龐大的工程,需要投入較多的時間、人力和物力,所以在數(shù)據(jù)挖掘工程真正開始之前,對數(shù)據(jù)挖掘的可行性分析顯得尤為重要,而為數(shù)據(jù)挖掘可行性提供指導正是數(shù)據(jù)質(zhì)量評估的意義所在。雖然數(shù)據(jù)質(zhì)量的評估方法會隨著其應(yīng)用背景的變化而變化,但拋開與應(yīng)用背景相關(guān)的內(nèi)容,可以從中抽取數(shù)據(jù)質(zhì)量評估的核心方法論,即數(shù)據(jù)質(zhì)量評估的一般方法。如果使用定性分析的方法,采用數(shù)據(jù)質(zhì)量的廣義概念,可以歸納出缺陷數(shù)據(jù)的兩個來源,一個是來源于面向?qū)嵺`的原因,另一個是面向結(jié)構(gòu)的原因,其中,前者源自用戶通過系統(tǒng)獲取或者操作了帶有缺陷的數(shù)據(jù),而后者的原因在于與用戶的需求和設(shè)計滿足需求的物理數(shù)據(jù)實施時產(chǎn)生了數(shù)據(jù)不匹配。因此,基于以上所述的兩個原因,現(xiàn)代數(shù)據(jù)質(zhì)量的一般概念主要包含兩個方面的內(nèi)容:一方面,要注重從面向?qū)嵺`方面來衡量數(shù)據(jù)質(zhì)量,即從數(shù)據(jù)的用戶的角度出發(fā),來判定數(shù)據(jù)質(zhì)量,強調(diào)用戶的滿意度,或者也可以站在數(shù)據(jù)的生產(chǎn)者和管理者的位置來考慮數(shù)據(jù)質(zhì)量問題。另一方面,要注重從面向系統(tǒng)的角度來評價數(shù)據(jù)質(zhì)量,因為數(shù)據(jù)質(zhì)量是一個綜合性的概念,所以要建立一套行之有效的數(shù)據(jù)質(zhì)量管理體系,應(yīng)該從數(shù)據(jù)質(zhì)量的基本要素,如準確性、適用性、完整性、一致性、可比性、適時性等多個不同的角度來評價數(shù)據(jù)質(zhì)量的優(yōu)劣。只有對信息系統(tǒng)的質(zhì)量水平有了正確的認識并且了解問題產(chǎn)生的原因,才可以實質(zhì)性地提高數(shù)據(jù)生產(chǎn)質(zhì)量,在數(shù)據(jù)流動的各個環(huán)節(jié)進行質(zhì)量控制。在這種意義上,從數(shù)據(jù)的用戶或數(shù)據(jù)共享的角度對數(shù)據(jù)質(zhì)量進行描述,除去如準確性等本征質(zhì)量指標外,數(shù)據(jù)的可得性、是否表達得清晰易懂、滿足用戶要求的程度、動態(tài)的數(shù)據(jù)質(zhì)量等也應(yīng)成為衡量數(shù)據(jù)質(zhì)量的重要方面。圖21數(shù)據(jù)質(zhì)量維度的層次關(guān)系有效的數(shù)據(jù)質(zhì)量工程依賴質(zhì)量措施的確定,在面向?qū)嵺`和面向結(jié)構(gòu)方面可以用四個維度來概括數(shù)據(jù)質(zhì)量評價的框架,這四個維度分別是:數(shù)據(jù)值質(zhì)量、數(shù)據(jù)表示質(zhì)量、數(shù)據(jù)模型質(zhì)量和數(shù)據(jù)體系質(zhì)量。注意,這里的數(shù)據(jù)質(zhì)量維度是指考察數(shù)據(jù)質(zhì)量的各個層次,而非前文中提到的考察數(shù)據(jù)質(zhì)量的指標,前者是層級關(guān)系,后者是并列關(guān)系,本小節(jié)之外提到的數(shù)據(jù)質(zhì)量維度均指的是后者。四個數(shù)據(jù)質(zhì)量維度的層次關(guān)系如圖21所示,數(shù)據(jù)質(zhì)量評估的一般方法就是從這四個數(shù)據(jù)質(zhì)量維度展開對數(shù)據(jù)質(zhì)量的全面評估。數(shù)據(jù)質(zhì)量維度把信息系統(tǒng)中存儲并加以維護的數(shù)據(jù)質(zhì)量作為事實結(jié)合體,由具體實體和一些屬性構(gòu)成。其中,數(shù)據(jù)表示質(zhì)量這一維度一般是面向數(shù)據(jù)的消費用戶的,指的是存儲數(shù)據(jù)值的表示質(zhì)量。對數(shù)據(jù)消費用戶而言,存儲于信息系統(tǒng)中準確的數(shù)據(jù)值的不正確表示可能會導致數(shù)據(jù)的消費擁護這一端的產(chǎn)生數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)值質(zhì)量指的是系統(tǒng)所存儲數(shù)據(jù)的實際的質(zhì)量,這個數(shù)據(jù)質(zhì)量維度是最為本質(zhì)的,該維度上的數(shù)據(jù)質(zhì)量問題必然波及其它質(zhì)量維度。數(shù)據(jù)模型質(zhì)量維度關(guān)注的是數(shù)據(jù)模型是否合理,其邏輯上代表與數(shù)據(jù)實體、關(guān)聯(lián)屬性及兩者之間關(guān)系相關(guān)的用戶需求,數(shù)據(jù)結(jié)構(gòu)規(guī)范的質(zhì)量數(shù)據(jù)模型對于用戶和系統(tǒng)開發(fā)人員之間的溝通至關(guān)重要。數(shù)據(jù)體系結(jié)構(gòu)質(zhì)量這一維度是最靠近系統(tǒng)的體系結(jié)構(gòu)這一端的質(zhì)量維度,它解決的是數(shù)據(jù)的體系結(jié)構(gòu)問題,并對跨功能系統(tǒng)的開發(fā)和操作中涉及的數(shù)據(jù)管理活動進行協(xié)調(diào)。該質(zhì)量維度的主要特點是站在系統(tǒng)整體框架的高度,提供在組織范圍內(nèi)的用戶對數(shù)據(jù)的需求和滿足這些需求的具體系統(tǒng)之間的有效聯(lián)系,從而實現(xiàn)系統(tǒng)間的數(shù)據(jù)共享。電信企業(yè)擁有龐大的客戶數(shù)量,客戶群體的構(gòu)成較為復雜。電話費和數(shù)據(jù)通信費是電信企業(yè)最重要的收入來源,電信企業(yè)只有及時、足額地收取這些費用,才能保證自身的正常運營。近幾年來,隨著電信行業(yè)內(nèi)壟斷格局的打破以及競爭的加劇,各大運營商也紛紛開始降低開戶的門檻,以吸納更多的客戶。然而,門檻降低了,隨之而來的卻是客戶誠信度的降低,客戶惡意拖欠話費的現(xiàn)象日益增多,惡意欠費的隊伍日益龐大,每年都會給電信運營商造成巨大的損失。惡意欠費現(xiàn)象已經(jīng)成為電信企業(yè)發(fā)展的主要困擾,究其緣由,主要有以下幾方面的原因:第一,低廉的開戶費是孕育惡意欠費的溫床,尤其是2001年7月1日國家財政部、計委、信息產(chǎn)業(yè)部發(fā)文取消固定電話的初裝費,以及手機入網(wǎng)的零手續(xù)費之后,電信開戶幾乎沒有手續(xù)費。第二,房屋、門市、鋪面的出租給伺機惡意欠費者提供了方便,因為這些出租戶同時也會連同電話一起出租給住戶,而住戶則會在搬遷之前的兩三個月大量消費電話費,當電信部門上門催繳時,卻發(fā)現(xiàn)已經(jīng)人去樓空。第三,我國在加入WTO以后,電信業(yè)也要與國際接軌,電信服務(wù)質(zhì)量也一直成為各大媒體關(guān)注的熱點和焦點,于是,電信企業(yè)在欠費問題的解決上慎之又慎,這也在一定程度上縱容了惡意欠費行為。第四,新電信條例給蓄意欠費者提供可乘之機,2000年新頒布的《中華人民共和國》規(guī)定,用戶欠費在達到三個月后方可停機,一些欠費者抓住機會,在三個月內(nèi)拼命消費,然后一走了之,留下巨額無法收回的欠款,電信條例實質(zhì)上便成為這些惡意欠費者的“擋箭牌”。就欠費的治理來講,方法有很多,其中,如何根據(jù)電信客戶的歷史行為表現(xiàn)準確地預測其將來的欠費行為是比較科學和有效地,因此這也是電信企業(yè)降低惡意欠費率的關(guān)鍵任務(wù)。電信企業(yè)擁有大量寶貴的數(shù)據(jù)資源,其中包含了客戶的基本資料、行為信息、價值信息等數(shù)據(jù),因此,利用數(shù)據(jù)挖掘中的分類技術(shù),可以對客戶的欠費行為做出預測。然而,欠費挖掘不同于一般的分類問題,因為欠費的客戶相對于全體客戶,畢竟只占很小的比例,所以欠費挖掘?qū)儆诜瞧胶夥诸悊栴}。非平衡分類問題在實際問題中占有一定的比例,因此在這個領(lǐng)域已經(jīng)有一些研究成果,雖然這些研究成果不足以完全解決這個問題。所謂不平衡分類問題,是指訓練樣本數(shù)量在類分布不平衡的模式分類問題。具體地說就是某些的樣本數(shù)量遠遠少于其它類。這里將具有少量樣本的那些類稱為正類,將具有大量樣本的那些類稱為負類。物以稀為貴,正類的信息、通常是人們關(guān)注的焦點,因為它往往包含了人們感興趣的行為信息。在許多實際的模式分類問題中,同樣存在樣本數(shù)量稀少的類,它們雖然很重要,但是用傳統(tǒng)的分類方法,卻難以被正確分類。當使用傳統(tǒng)的機器學習算法來解決這些不平衡分類問題時,往往會出現(xiàn)正類的預測準確率大大低于負類,得到的分類器具有很大的偏向性,從而導致分類器性能的大幅度下降。因此,雖然總體的分類準確率很高,很多本來屬于正類的樣本被錯分到負類,加之正類樣本數(shù)本來就稀少,造成大部分的正類都被預測錯誤,使得實際問題難以得到解決。在實際應(yīng)用中,非平衡問題很常見。非平衡問題有本質(zhì)非平衡和非本質(zhì)非平衡之分。對于本質(zhì)非平衡問題,其原始數(shù)據(jù)本身的分布就存在不平衡,例如對信用卡非法交易的檢測,這些問題都以稀有類的信息、為關(guān)注的重點,如在信用卡非法交易記錄的監(jiān)測問題中,非法交易記錄是監(jiān)測的目標,但訓練數(shù)據(jù)中包含大量正常的信用卡交易記錄,只有很少的一部分屬于非法交易,使用普通的模式分類方法,非法交易記錄的檢測率很低。非本質(zhì)非平衡問題源自數(shù)據(jù)收集過程中因為人為因素而造成的數(shù)據(jù)不平衡現(xiàn)象,例如由于個人隱私或者高昂的數(shù)據(jù)采集代價等因素,某些類的樣本數(shù)量過少。除此之外,還有一些非平衡問題來自多類(MultiClass)問題和多標號(MultiLabel)問題的分解,這種分解事為了解決有些分類器,如支持向量機(Support vector Machine),無法直接解決多分類問題,必須將原始問題分解成一系列二分類問題才能夠間接地解決,這樣很容易導致原來平衡分類問題變得不平衡,原來非平衡分類問題變得更加不平衡,嚴重影響分類器的實際性能。對于非平衡問題,已有學者提出一些解決的策略,這些策略大致可以分為兩大類:一類是從訓練集入手,通過改變訓練集樣本分布,降低不平衡程度。另一類是從學習的算法入手,根據(jù)算法在解決不平衡問題時的缺陷,適當?shù)貙λ惴右愿倪M,使之適應(yīng)不平衡分類問題。降低訓練集非平衡程度的方法主要包括訓練集重采樣方法和訓練集劃分方法。學習算法改進層面的策略主要包括分類器集成、代價敏感學習和特征選擇的方法等。下面對這些方法做一簡要介紹。(l)重采樣方法重采樣方法是解決非平衡分類最常用的方法。重采樣的基本思想是指通過增加正類訓練樣本數(shù)的上采樣(UpSampling)和減少負類樣本數(shù)的下采樣(Downsampling),使原來不平衡的樣本分布變得平衡或較原來平衡,從而提高分類器對稀有類的預測準確率。最原始的上采樣方法是復制正類的樣本,但這樣做一方面容易導致過學習,另一方面對提高正類的預測準確率沒有太大的幫助。較為先進一些的上采樣方法則采用一些啟發(fā)式的技巧,有選擇地復制正類樣本,或者重新生成新的正類樣本。例如,Chawl等人提出的SMOTE算法就是一種簡單有效的上采樣方法,該方法首先為每個正類樣本隨機選出幾個與其鄰近的樣本,并且在該樣本與這些鄰近樣本的連線上隨機取點,從而生成沒有重復的新的正類合成樣本。下采樣通過舍棄部分負類樣本的方法來降低它的不平衡程度。例如,Kubat和Matwin采用單邊采樣方式,去除大類中的噪聲、邊界和冗余樣本。盡管重采樣的方法在一些數(shù)據(jù)集上的應(yīng)用效果不錯,但也存在一些本質(zhì)缺陷。上采樣的方法并不增加任何新的數(shù)據(jù)樣本,只是重復一些已有的數(shù)據(jù)樣本或增加一些人工生成的正類樣本,這樣做一方面增加了訓練時間,另一方面,上采樣對某些正類樣本的復制,或在它周圍合成新的正類樣本,這會造成分類器過分注重這些正類樣本,導致過學習。上采樣不能從本質(zhì)上解決正類樣本的稀缺性和數(shù)據(jù)表示的不完備性,因而有人指出,它的性能表現(xiàn)較下采樣要差。但是同時也有學者指出,下采樣在去除負類樣本時,容易去除負類樣本中包含的某些重要的信息,同樣存在很大的弊端,盡管存在“些啟發(fā)式的下采樣方法,能夠做到只去除冗余樣本和噪聲樣本,但在大多數(shù)情況下,這類樣本只占樣本總量的一小部分,因此,這種方法能夠調(diào)整的不平衡程度是十分有限的。(2)訓練集劃分方法對訓練數(shù)據(jù)集進行劃分,是另一類可以有效降低訓練數(shù)據(jù)集非平衡程度方法。Chan和Stolfo首先根據(jù)代價敏感學習的需要,學習到一個合理的類別樣本分布比例。然后將負類樣本隨機劃分成一系列不相交子集,這些子集的大小由正類樣本集的數(shù)量和預先學習得到的樣本分布比例來決定。接下來分別將這些不相交的子集和正類樣本互相結(jié)合,由此組成一系列平衡的分類子問題,針對這些子問題單獨訓練得到一系列子分類器。最后通過元學習 (Meta Leaning),將這些子分類器的輸出進一步學習,從而得到組合分類器,以實現(xiàn)最終的分類。另外,Lu和Ito提出了最小最大模塊化(Min Max Modular)神經(jīng)網(wǎng)絡(luò)模型,該模型利用最小最大化集成的規(guī)則,可以有效將子分類器