freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘技術(shù)及在電信行業(yè)中的應(yīng)用-在線瀏覽

2024-09-09 06:36本頁(yè)面
  

【正文】 信運(yùn)營(yíng)商比利時(shí)電信(Belga)購(gòu)買(mǎi)了新型Teradata Warehouse數(shù)據(jù)倉(cāng)庫(kù)解決方案,使用數(shù)據(jù)倉(cāng)庫(kù)建立了客戶信息系統(tǒng),其數(shù)據(jù)倉(cāng)庫(kù)中擁有超過(guò)數(shù)據(jù)挖掘手段,1萬(wàn)億字節(jié)的歷史數(shù)據(jù),其中包含了詳細(xì)的電話通信記錄。圖14某市電信經(jīng)營(yíng)分系統(tǒng)的邏輯模型相對(duì)于國(guó)外的相對(duì)較為成熟的應(yīng)用,電信數(shù)據(jù)挖掘在國(guó)內(nèi)的研究與應(yīng)用還處于剛剛起步的階段,但也不乏一些較為成功的實(shí)例。除此以外,近年來(lái),中國(guó)電信運(yùn)營(yíng)業(yè)的 BOSS(Business amp。作為中國(guó)的兩大主流運(yùn)營(yíng)商,中國(guó)電信和中國(guó)移動(dòng)高舉BOSS建設(shè)大旗,其目的是為了提高計(jì)費(fèi)結(jié)算、營(yíng)業(yè)帳務(wù)、客戶服務(wù)、決策支持等能力,希望通過(guò)固定報(bào)表、專題分析、多維分析、數(shù)據(jù)挖掘等多種數(shù)據(jù)分析的手段幫助電信企業(yè)有效遏制存量流失、激發(fā)收入增量,其經(jīng)營(yíng)方式也將實(shí)現(xiàn)從粗放式到精細(xì)化的轉(zhuǎn)變,順應(yīng)了現(xiàn)代的經(jīng)營(yíng)管理理念。這些數(shù)據(jù)質(zhì)量問(wèn)題主要表現(xiàn)為數(shù)據(jù)不正確、數(shù)據(jù)不一致、數(shù)據(jù)不完整等方面,亟需一套方案對(duì)數(shù)據(jù)質(zhì)量進(jìn)行有效管理。針對(duì)數(shù)據(jù)質(zhì)量問(wèn)題的各個(gè)環(huán)節(jié),其中包括數(shù)據(jù)清洗、數(shù)據(jù)整合、相似記錄檢測(cè)、數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量過(guò)程控制和管理等,業(yè)界的學(xué)者已進(jìn)行了大量的學(xué)術(shù)研究以及實(shí)際應(yīng)用方面的探索。數(shù)據(jù)質(zhì)量評(píng)估((Data Quality Assessment)是數(shù)據(jù)質(zhì)量管理(Data Quality Management的重要組成部分,承擔(dān)著發(fā)現(xiàn)數(shù)據(jù)問(wèn)題的重任,是改善數(shù)據(jù)質(zhì)量的驅(qū)動(dòng)力和風(fēng)向標(biāo)。因此,需求分析實(shí)際上是維度選擇的過(guò)程,數(shù)據(jù)質(zhì)量評(píng)估從一個(gè)或幾個(gè)維度出發(fā),以動(dòng)態(tài)或靜態(tài)的方式審視數(shù)據(jù)。雖然動(dòng)態(tài)的評(píng)估方式能夠更徹底全面地對(duì)數(shù)據(jù)質(zhì)量做出評(píng)價(jià),但在很多的應(yīng)用背景下,如數(shù)據(jù)挖掘,往往受條件限制,無(wú)法得知數(shù)據(jù)產(chǎn)生機(jī)制的信息。但是,數(shù)據(jù)質(zhì)量評(píng)估至少應(yīng)包含以下兩個(gè)方面的基本評(píng)估指標(biāo),(1) 數(shù)據(jù)對(duì)用戶來(lái)說(shuō)必須是可以信賴的,其中包括精確性、完整性、有效性、一致性、唯一性等指標(biāo),其具體含義列舉如下A. 精確性(Accurate):數(shù)據(jù)是否客觀真實(shí),是否存在虛假。C. 有效性(valid):數(shù)據(jù)是否滿足用戶定義的條件或處于一定的域值范圍內(nèi)。E. 唯一性(unique):數(shù)據(jù)中是否存在重復(fù)。B. 時(shí)間性(Timely):數(shù)據(jù)是當(dāng)前的還是歷史的。對(duì)于關(guān)系數(shù)據(jù)庫(kù)來(lái)講,一個(gè)表或視圖代表一個(gè)數(shù)據(jù)集。R:與評(píng)估指標(biāo)集I相對(duì)應(yīng)的規(guī)則,規(guī)則既可使用規(guī)范化的自然語(yǔ)言表達(dá),也可使用形式化的語(yǔ)言來(lái)書(shū)寫(xiě),以便轉(zhuǎn)換成程序腳本。E:對(duì)規(guī)則R給出的期望值,為介于0到100之間的實(shí)數(shù),是在評(píng)估之前對(duì)規(guī)則R所期望得到的結(jié)果。隨著電信行業(yè)內(nèi)部競(jìng)爭(zhēng)的加劇,數(shù)據(jù)挖掘作為知識(shí)發(fā)現(xiàn)的有效工具已得到廣泛應(yīng)用。因此,合理量化這種影響,對(duì)數(shù)據(jù)質(zhì)量做出評(píng)估,這對(duì)分析數(shù)據(jù)挖掘的可行性具有重要意義。文獻(xiàn)1從不同的角度提出了數(shù)據(jù)質(zhì)量的評(píng)估方法,文獻(xiàn)2設(shè)計(jì)了一個(gè)數(shù)據(jù)質(zhì)量分析和瀏覽的工具,文獻(xiàn)3從用戶的角度描述了對(duì)數(shù)據(jù)質(zhì)量評(píng)估的要求,文獻(xiàn)4給出了一種基于屬性的數(shù)據(jù)質(zhì)量評(píng)估模型?;趯?shí)際經(jīng)驗(yàn),每個(gè)行業(yè)、每個(gè)應(yīng)用都有自己的特點(diǎn),對(duì)數(shù)據(jù)的評(píng)估方法也應(yīng)有所差別,只能夠相互借鑒,但不能夠完全照搬,應(yīng)該“量身定制”。二、數(shù)據(jù)質(zhì)量評(píng)估技術(shù)與方法本章首先敘述了面向數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量評(píng)估的意義以及數(shù)據(jù)質(zhì)量評(píng)估的一般方法,然后針對(duì)欠費(fèi)挖掘主題,敘述了電信行業(yè)欠費(fèi)的現(xiàn)狀與危害,以及欠費(fèi)挖掘的現(xiàn)實(shí)意義,并對(duì)電信欠費(fèi)挖掘中的非平衡問(wèn)題、缺失問(wèn)題、離群?jiǎn)栴}的研究成果作了簡(jiǎn)要回顧,介紹了解決這些問(wèn)題的常用算法,為后續(xù)提出面向電信欠費(fèi)挖掘的數(shù)據(jù)質(zhì)量評(píng)估策略作鋪墊。然而,由于電信企業(yè)數(shù)據(jù)采集系統(tǒng)人為和非人為的擾動(dòng),造成各個(gè)數(shù)據(jù)源的數(shù)據(jù)質(zhì)量參差不齊,加之?dāng)?shù)據(jù)倉(cāng)庫(kù)的ETL機(jī)制本身的某些問(wèn)題,導(dǎo)致在數(shù)據(jù)集成時(shí)發(fā)生數(shù)據(jù)缺失和錯(cuò)誤,造成數(shù)據(jù)的整體質(zhì)量不高,從而對(duì)數(shù)據(jù)挖掘的結(jié)果產(chǎn)生影響。數(shù)據(jù)質(zhì)量是一個(gè)相對(duì)的概念。20世紀(jì)80年代以來(lái),國(guó)際上普遍認(rèn)為,數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)基本上是圍繞著以提高數(shù)據(jù)準(zhǔn)確性為出發(fā)點(diǎn)和原則的。上世紀(jì)90年代,美國(guó)的麻省理工學(xué)院開(kāi)展了全面數(shù)據(jù)質(zhì)量管理TDQM(Total Data Quality Management)的活動(dòng),該活動(dòng)借鑒了物理產(chǎn)品質(zhì)量管理體系的成功經(jīng)驗(yàn),提出了以信息生產(chǎn)系統(tǒng)生產(chǎn)的數(shù)據(jù)產(chǎn)品為基礎(chǔ)的質(zhì)量管理體系。在數(shù)據(jù)生產(chǎn)過(guò)程中形成的質(zhì)量維度,如準(zhǔn)確性(Accuracy)、完整性(Completeness)、一致性(Consistence)等,已經(jīng)成為數(shù)據(jù)質(zhì)量評(píng)估的基本要求。目前,尚未形成系統(tǒng)化的數(shù)據(jù)質(zhì)量評(píng)估指標(biāo),數(shù)據(jù)質(zhì)量評(píng)估往往只零散地針對(duì)系統(tǒng)中比較重要的質(zhì)量指標(biāo),如一致性問(wèn)題、復(fù)雜性問(wèn)題、完整性問(wèn)題等來(lái)進(jìn)行。數(shù)據(jù)質(zhì)量的描述通??梢苑譃椴煌膶哟?,不過(guò)到目前為止,還沒(méi)有形成專門(mén)用于表示這種層次性的統(tǒng)一術(shù)語(yǔ),例如,有的用類和域表示這種層次,而 ISO TC211則用數(shù)據(jù)質(zhì)量元素及子元素來(lái)表達(dá)。數(shù)據(jù)質(zhì)量評(píng)估是面向應(yīng)用的,同樣的數(shù)據(jù)在不同的應(yīng)用背景下的接受度是不同的,例如對(duì)于數(shù)據(jù)挖掘,同樣的數(shù)據(jù)在一個(gè)挖掘主題下表現(xiàn)良好,而在另一個(gè)挖掘主題下卻得不到有意義的結(jié)果。所謂動(dòng)態(tài)的評(píng)估方式,是指從數(shù)據(jù)產(chǎn)生機(jī)制上對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,而靜態(tài)方式只考慮數(shù)據(jù)本身。面向數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量評(píng)估DMQDA(Data Mining Oriented Data Quality Assessment)是具有實(shí)際意義的,因?yàn)閿?shù)據(jù)挖掘常常是一個(gè)龐大的工程,需要投入較多的時(shí)間、人力和物力,所以在數(shù)據(jù)挖掘工程真正開(kāi)始之前,對(duì)數(shù)據(jù)挖掘的可行性分析顯得尤為重要,而為數(shù)據(jù)挖掘可行性提供指導(dǎo)正是數(shù)據(jù)質(zhì)量評(píng)估的意義所在。如果使用定性分析的方法,采用數(shù)據(jù)質(zhì)量的廣義概念,可以歸納出缺陷數(shù)據(jù)的兩個(gè)來(lái)源,一個(gè)是來(lái)源于面向?qū)嵺`的原因,另一個(gè)是面向結(jié)構(gòu)的原因,其中,前者源自用戶通過(guò)系統(tǒng)獲取或者操作了帶有缺陷的數(shù)據(jù),而后者的原因在于與用戶的需求和設(shè)計(jì)滿足需求的物理數(shù)據(jù)實(shí)施時(shí)產(chǎn)生了數(shù)據(jù)不匹配。另一方面,要注重從面向系統(tǒng)的角度來(lái)評(píng)價(jià)數(shù)據(jù)質(zhì)量,因?yàn)閿?shù)據(jù)質(zhì)量是一個(gè)綜合性的概念,所以要建立一套行之有效的數(shù)據(jù)質(zhì)量管理體系,應(yīng)該從數(shù)據(jù)質(zhì)量的基本要素,如準(zhǔn)確性、適用性、完整性、一致性、可比性、適時(shí)性等多個(gè)不同的角度來(lái)評(píng)價(jià)數(shù)據(jù)質(zhì)量的優(yōu)劣。在這種意義上,從數(shù)據(jù)的用戶或數(shù)據(jù)共享的角度對(duì)數(shù)據(jù)質(zhì)量進(jìn)行描述,除去如準(zhǔn)確性等本征質(zhì)量指標(biāo)外,數(shù)據(jù)的可得性、是否表達(dá)得清晰易懂、滿足用戶要求的程度、動(dòng)態(tài)的數(shù)據(jù)質(zhì)量等也應(yīng)成為衡量數(shù)據(jù)質(zhì)量的重要方面。注意,這里的數(shù)據(jù)質(zhì)量維度是指考察數(shù)據(jù)質(zhì)量的各個(gè)層次,而非前文中提到的考察數(shù)據(jù)質(zhì)量的指標(biāo),前者是層級(jí)關(guān)系,后者是并列關(guān)系,本小節(jié)之外提到的數(shù)據(jù)質(zhì)量維度均指的是后者。數(shù)據(jù)質(zhì)量維度把信息系統(tǒng)中存儲(chǔ)并加以維護(hù)的數(shù)據(jù)質(zhì)量作為事實(shí)結(jié)合體,由具體實(shí)體和一些屬性構(gòu)成。對(duì)數(shù)據(jù)消費(fèi)用戶而言,存儲(chǔ)于信息系統(tǒng)中準(zhǔn)確的數(shù)據(jù)值的不正確表示可能會(huì)導(dǎo)致數(shù)據(jù)的消費(fèi)擁護(hù)這一端的產(chǎn)生數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)模型質(zhì)量維度關(guān)注的是數(shù)據(jù)模型是否合理,其邏輯上代表與數(shù)據(jù)實(shí)體、關(guān)聯(lián)屬性及兩者之間關(guān)系相關(guān)的用戶需求,數(shù)據(jù)結(jié)構(gòu)規(guī)范的質(zhì)量數(shù)據(jù)模型對(duì)于用戶和系統(tǒng)開(kāi)發(fā)人員之間的溝通至關(guān)重要。該質(zhì)量維度的主要特點(diǎn)是站在系統(tǒng)整體框架的高度,提供在組織范圍內(nèi)的用戶對(duì)數(shù)據(jù)的需求和滿足這些需求的具體系統(tǒng)之間的有效聯(lián)系,從而實(shí)現(xiàn)系統(tǒng)間的數(shù)據(jù)共享。電話費(fèi)和數(shù)據(jù)通信費(fèi)是電信企業(yè)最重要的收入來(lái)源,電信企業(yè)只有及時(shí)、足額地收取這些費(fèi)用,才能保證自身的正常運(yùn)營(yíng)。然而,門(mén)檻降低了,隨之而來(lái)的卻是客戶誠(chéng)信度的降低,客戶惡意拖欠話費(fèi)的現(xiàn)象日益增多,惡意欠費(fèi)的隊(duì)伍日益龐大,每年都會(huì)給電信運(yùn)營(yíng)商造成巨大的損失。第二,房屋、門(mén)市、鋪面的出租給伺機(jī)惡意欠費(fèi)者提供了方便,因?yàn)檫@些出租戶同時(shí)也會(huì)連同電話一起出租給住戶,而住戶則會(huì)在搬遷之前的兩三個(gè)月大量消費(fèi)電話費(fèi),當(dāng)電信部門(mén)上門(mén)催繳時(shí),卻發(fā)現(xiàn)已經(jīng)人去樓空。第四,新電信條例給蓄意欠費(fèi)者提供可乘之機(jī),2000年新頒布的《中華人民共和國(guó)》規(guī)定,用戶欠費(fèi)在達(dá)到三個(gè)月后方可停機(jī),一些欠費(fèi)者抓住機(jī)會(huì),在三個(gè)月內(nèi)拼命消費(fèi),然后一走了之,留下巨額無(wú)法收回的欠款,電信條例實(shí)質(zhì)上便成為這些惡意欠費(fèi)者的“擋箭牌”。電信企業(yè)擁有大量寶貴的數(shù)據(jù)資源,其中包含了客戶的基本資料、行為信息、價(jià)值信息等數(shù)據(jù),因此,利用數(shù)據(jù)挖掘中的分類技術(shù),可以對(duì)客戶的欠費(fèi)行為做出預(yù)測(cè)。非平衡分類問(wèn)題在實(shí)際問(wèn)題中占有一定的比例,因此在這個(gè)領(lǐng)域已經(jīng)有一些研究成果,雖然這些研究成果不足以完全解決這個(gè)問(wèn)題。具體地說(shuō)就是某些的樣本數(shù)量遠(yuǎn)遠(yuǎn)少于其它類。物以稀為貴,正類的信息、通常是人們關(guān)注的焦點(diǎn),因?yàn)樗巳藗兏信d趣的行為信息。當(dāng)使用傳統(tǒng)的機(jī)器學(xué)習(xí)算法來(lái)解決這些不平衡分類問(wèn)題時(shí),往往會(huì)出現(xiàn)正類的預(yù)測(cè)準(zhǔn)確率大大低于負(fù)類,得到的分類器具有很大的偏向性,從而導(dǎo)致分類器性能的大幅度下降。在實(shí)際應(yīng)用中,非平衡問(wèn)題很常見(jiàn)。對(duì)于本質(zhì)非平衡問(wèn)題,其原始數(shù)據(jù)本身的分布就存在不平衡,例如對(duì)信用卡非法交易的檢測(cè),這些問(wèn)題都以稀有類的信息、為關(guān)注的重點(diǎn),如在信用卡非法交易記錄的監(jiān)測(cè)問(wèn)題中,非法交易記錄是監(jiān)測(cè)的目標(biāo),但訓(xùn)練數(shù)據(jù)中包含大量正常的信用卡交易記錄,只有很少的一部分屬于非法交易,使用普通的模式分類方法,非法交易記錄的檢測(cè)率很低。除此之外,還有一些非平衡問(wèn)題來(lái)自多類(MultiClass)問(wèn)題和多標(biāo)號(hào)(MultiLabel)問(wèn)題的分解,這種分解事為了解決有些分類器,如支持向量機(jī)(Support vector Machine),無(wú)法直接解決多分類問(wèn)題,必須將原始問(wèn)題分解成一系列二分類問(wèn)題才能夠間接地解決,這樣很容易導(dǎo)致原來(lái)平衡分類問(wèn)題變得不平衡,原來(lái)非平衡分類問(wèn)題變得更加不平衡,嚴(yán)重影響分類器的實(shí)際性能。另一類是從學(xué)習(xí)的算法入手,根據(jù)算法在解決不平衡問(wèn)題時(shí)的缺陷,適當(dāng)?shù)貙?duì)算法加以改進(jìn),使之適應(yīng)不平衡分類問(wèn)題。學(xué)習(xí)算法改進(jìn)層面的策略主要包括分類器集成、代價(jià)敏感學(xué)習(xí)和特征選擇的方法等。(l)重采樣方法重采樣方法是解決非平衡分類最常用的方法。最原始的上采樣方法是復(fù)制正類的樣本,但這樣做一方面容易導(dǎo)致過(guò)學(xué)習(xí),另一方面對(duì)提高正類的預(yù)測(cè)準(zhǔn)確率沒(méi)有太大的幫助。例如,Chawl等人提出的SMOTE算法就是一種簡(jiǎn)單有效的上采樣方法,該方法首先為每個(gè)正類樣本隨機(jī)選出幾個(gè)與其鄰近的樣本,并且在該樣本與這些鄰近樣本的連線上隨機(jī)取點(diǎn),從而生成沒(méi)有重復(fù)的新的正類合成樣本。例如,Kubat和Matwin采用單邊采樣方式,去除大類中的噪聲、邊界和冗余樣本。上采樣的方法并不增加任何新的數(shù)據(jù)樣本,只是重復(fù)一些已有的數(shù)據(jù)樣本或增加一些人工生成的正類樣本,這樣做一方面增加了訓(xùn)練時(shí)間,另一方面,上采樣對(duì)某些正類樣本的復(fù)制,或在它周圍合成新的正類樣本,這會(huì)造成分類器過(guò)分注重這些正類樣本,導(dǎo)致過(guò)學(xué)習(xí)。但是同時(shí)也有學(xué)者指出,下采樣在去除負(fù)類樣本時(shí),容易去除負(fù)類樣本中包含的某些重要的信息,同樣存在很大的弊端,盡管存在“些啟發(fā)式的下采樣方法,能夠做到只去除冗余樣本和噪聲樣本,但在大多數(shù)情況下,這類樣本只占樣本總量的一小部分,因此,這種方法能夠調(diào)整的不平衡程度是十分有限的。Chan和Stolfo首先根據(jù)代價(jià)敏感學(xué)習(xí)的需要,學(xué)習(xí)到一個(gè)合理的類別樣本分布比例。接下來(lái)分別將這些不相交的子集和正類樣本互相結(jié)合,由此組成一系列平衡的分類子問(wèn)題,針對(duì)這些子問(wèn)題單獨(dú)訓(xùn)練得到一系列子分類器。另外,Lu和Ito提出了最小最大模塊化(Min Max Modular)神經(jīng)網(wǎng)絡(luò)模型,該模型利用最小最大化集成的規(guī)則,可以有效將子分類器組合起來(lái),使組合分類器容易實(shí)現(xiàn)并列學(xué)習(xí)和增量學(xué)習(xí)。已經(jīng)有實(shí)驗(yàn)結(jié)果表明,訓(xùn)練集劃分方法比重采樣方法和代價(jià)敏感學(xué)習(xí)方法能夠更有效地解決數(shù)據(jù)集的非平衡問(wèn)題。Kotsiantis和Pintelas將習(xí)訓(xùn)練數(shù)
點(diǎn)擊復(fù)制文檔內(nèi)容
物理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1