freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)-展示頁(yè)

2025-05-27 00:05本頁(yè)面
  

【正文】 內(nèi)容為: ( 1)降維處理。對(duì)重復(fù)數(shù)據(jù)的處理在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下特別重要,因?yàn)樵诰哂卸鄠€(gè)數(shù)據(jù)源的時(shí)候可能會(huì)產(chǎn)生大量的重復(fù)記錄。還有可以對(duì)與其他數(shù)據(jù)格式不一致的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,使之格式符合數(shù)據(jù)挖掘的需要。 數(shù)據(jù)預(yù)處理的研究現(xiàn)狀 數(shù)據(jù)清洗研究?jī)?nèi)容主要涉及以下幾方面: ( 1)對(duì)數(shù)據(jù)集進(jìn)行檢測(cè)。 目前 , 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘在理論和應(yīng)用上都獲得了極大的發(fā)展 , 數(shù)據(jù)預(yù)處理作為其重要的 、 必不可少的組成部分 , 技術(shù)也隨之快速發(fā)展 。包括平滑處理、聚集處理、數(shù)據(jù)泛化處理、規(guī)格化、屬性構(gòu)造。 數(shù)據(jù)變換 (data transformation)主要是將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式,如將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)比較小的特定區(qū)間。 數(shù)據(jù)集成 (data integration)就是將來(lái)至多個(gè)數(shù)據(jù)源的數(shù)據(jù)合并到一起,形成一致的數(shù)據(jù)存儲(chǔ),如將不同數(shù)據(jù)庫(kù)中的數(shù)據(jù)集成入一個(gè)數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)。 圖 形式 。同時(shí)來(lái)自不同的應(yīng)用系統(tǒng)中的數(shù)據(jù)由于合并而普遍存在數(shù)據(jù)的重復(fù)和信息的冗余現(xiàn)象。 ( 3)雜亂性 (不一致性 )。不正確的數(shù)據(jù)也可能是由命名約定或所用的數(shù)據(jù)代碼不一致,或輸入字段 (如時(shí)間 )的格式不一致而導(dǎo)致的。產(chǎn)生的原因很多。 ( 2)含噪聲。指的是數(shù)據(jù)記錄中可能會(huì)出現(xiàn)有些數(shù)據(jù)屬性的值丟失或不確定的情況,還有可能缺失必需的數(shù)據(jù)。 數(shù)據(jù)預(yù)處理概述 數(shù)據(jù)預(yù)處理的必要性 現(xiàn)實(shí)世界采集到的大量的各種各樣的數(shù)據(jù)是不符合挖掘算法進(jìn)行知識(shí)獲取研究所要求的規(guī)范和標(biāo)準(zhǔn)的。 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的應(yīng)用產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)不一定是規(guī)范化的,它以不同的形式存儲(chǔ)在不同的地方。 現(xiàn)在人們已經(jīng)積累了大量的數(shù)據(jù)預(yù)處理技術(shù)。低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù) 第 6章 數(shù)據(jù)預(yù)處理技術(shù) 主講人:孫水華 副教授 信息科學(xué)與工程學(xué)院 目 錄 ? 數(shù)據(jù)預(yù)處理概述 ? 數(shù)據(jù)清理 ? 數(shù)據(jù)集成 ? 數(shù)據(jù)變換 ? 數(shù)據(jù)歸約 ? 小 結(jié) 數(shù)據(jù)預(yù)處理 (data preprocessing)是指在對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘主要的處理以前,先對(duì)原始數(shù)據(jù)進(jìn)行必要的清洗、集成、轉(zhuǎn)換、離散和歸約等等一系列的處理工作,以達(dá)到挖掘算法進(jìn)行知識(shí)獲取研究所要求的最低規(guī)范和標(biāo)準(zhǔn)。 現(xiàn)實(shí)世界的數(shù)據(jù)庫(kù)往往易受噪聲、丟失數(shù)據(jù)和不一致數(shù)據(jù)的侵?jǐn)_,因?yàn)閿?shù)據(jù)庫(kù)太大 (常常多達(dá)數(shù)千兆字節(jié),甚至更多 ),并且多半來(lái)自多個(gè)異構(gòu)數(shù)據(jù)源。這就需要進(jìn)行數(shù)據(jù)預(yù)處理,從而提高數(shù)據(jù)質(zhì)量,進(jìn)而提高挖掘結(jié)果的質(zhì)量。如何恰當(dāng)選擇和應(yīng)用這些技術(shù)得到更有效的數(shù)據(jù),是一個(gè)值得探討的問(wèn)題。根據(jù)“垃圾進(jìn),垃圾出”原理,這些低質(zhì)量的數(shù)據(jù)進(jìn)入系統(tǒng)將會(huì)導(dǎo)致昂貴的操作費(fèi)用和系統(tǒng)漫長(zhǎng)的響應(yīng)時(shí)間,并且對(duì)從數(shù)據(jù)集中抽取的模式的正確性和導(dǎo)出規(guī)則的準(zhǔn)確性產(chǎn)生巨大的影響,更嚴(yán)重的是會(huì)使得決策支持系統(tǒng)產(chǎn)生錯(cuò)誤的分析結(jié)果,誤導(dǎo)決策。主要具有以下特征: ( 1)不完整性。這是由于系統(tǒng)設(shè)計(jì)時(shí)存在的缺陷或者使用過(guò)程中一些人為因素所造成的,如有些數(shù)據(jù)缺失只是因?yàn)檩斎霑r(shí)認(rèn)為是不重要的;相關(guān)數(shù)據(jù)沒(méi)有記錄可能是由于理解錯(cuò)誤,或者因?yàn)樵O(shè)備故障;與其他記錄不一致的數(shù)據(jù)可能已經(jīng)刪除;歷史記錄或修改的數(shù)據(jù)可能被忽略等等。指的是數(shù)據(jù)具有不正確的屬性值,包含錯(cuò)誤或存在偏離期望的離群值。比如收集數(shù)據(jù)的設(shè)備可能出故障;人或計(jì)算機(jī)的錯(cuò)誤可能在數(shù)據(jù)輸入時(shí)出現(xiàn);數(shù)據(jù)傳輸中也可能出現(xiàn)錯(cuò)誤。實(shí)際使用的系統(tǒng)中,還可能存在大量的模糊信息,有些數(shù)據(jù)其至還具有一定的隨機(jī)性。原始數(shù)據(jù)是從各個(gè)實(shí)際應(yīng)用系統(tǒng)中獲取的,由于各應(yīng)用系統(tǒng)的數(shù)據(jù)缺乏統(tǒng)一標(biāo)準(zhǔn)的定義,數(shù)據(jù)結(jié)構(gòu)也有較大的差異,因此各系統(tǒng)間的數(shù)據(jù)存在較大的不一致性,往往不能直接拿來(lái)使用。 常見的數(shù)據(jù)預(yù)處理方法有:數(shù)據(jù)清洗 、 數(shù)據(jù)集成 、數(shù)據(jù)變換和數(shù)據(jù)歸約 。 數(shù)據(jù)預(yù)處理的基本方法 數(shù)據(jù)清理 數(shù)據(jù)集成 數(shù)據(jù)變換 數(shù)據(jù)歸納 2,32,100,59,48 , 屬性 屬性 圖 數(shù)據(jù)預(yù)處理的典型形式 數(shù)據(jù)清理 (data cleaning)處理例程通常包括:填補(bǔ)遺漏的數(shù)據(jù)值、平滑有噪聲數(shù)據(jù)、識(shí)別或除去異常值,以及解決不一致問(wèn)題。之后,有時(shí)還需要進(jìn)行數(shù)據(jù)清理以便消除可能存在的數(shù)據(jù)冗余。這一點(diǎn)對(duì)那些基于距離的挖掘算法尤為重要。 數(shù)據(jù)歸約 (data reduction)在不影響挖掘結(jié)果的前提下,通過(guò)數(shù)值聚集、刪除冗余特性的辦法壓縮數(shù)據(jù),提高挖掘模式的質(zhì)量,降低時(shí)間復(fù)雜度。 現(xiàn)階段數(shù)據(jù)預(yù)處理技術(shù)中研究最多的是數(shù)據(jù)清洗和數(shù)據(jù)歸約技術(shù) 。現(xiàn)階段主要有以下方法:可以采用統(tǒng)計(jì)學(xué)的方法來(lái)對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,計(jì)算屬性值的各種數(shù)值,如考慮屬性值之間差別大小,方差等。 ( 2)對(duì)數(shù)據(jù)集中重復(fù)的對(duì)象進(jìn)行消除,也就是對(duì)重復(fù)記錄的清理。 ( 3)對(duì)缺失數(shù)據(jù)的補(bǔ)齊,研究者大多采用可靠的算法將與缺失的值最相似的值替換缺失值的方法,包括貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、 k最臨近分類、粗糙集理論等,這些方法大都需要判斷缺失記錄與完整記錄之間的記錄相似度,這是其核心問(wèn)題。主要采用刪除冗余屬性的方法,若用手工方法去除冗余屬性就需要用到專家知識(shí)。 ( 2)從數(shù)據(jù)集中選擇較小的數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量,需要用到數(shù)值歸約技術(shù),主要采用直方圖、聚類等技術(shù)。通過(guò)屬性約簡(jiǎn)算法之后可以得到關(guān)鍵屬性,減少冗余屬性,從而減少得到?jīng)Q策結(jié)果所需要的時(shí)間。這種方法可以通過(guò)簡(jiǎn)化運(yùn)算量,但大多是遞歸的,需要花費(fèi)大量的時(shí)間在每一步的數(shù)據(jù)排序上。有監(jiān)督過(guò)程是在領(lǐng)域?qū)<业闹笇?dǎo)下,分析收集的數(shù)據(jù),去除明顯錯(cuò)誤的噪聲數(shù)據(jù)和重復(fù)記錄,填補(bǔ)缺值數(shù)據(jù);無(wú)監(jiān)督過(guò)程是用樣本數(shù)據(jù)訓(xùn)練算法,使其獲得一定的經(jīng)驗(yàn),并在以后的處理過(guò)程中自動(dòng)采用這些經(jīng)驗(yàn)完成數(shù)據(jù)清洗工作。比如,銀行房屋貸款信用風(fēng)險(xiǎn)評(píng)估中的客戶數(shù)據(jù),其中的一些屬性可能沒(méi)有記錄值,如客戶的家庭月總收入。 ( 1)忽略元組。除非元組有多個(gè)屬性缺少值,否則該方法不是很有效。 ( 2)人工填寫缺失值。 ( 3)使用一個(gè)全局常量填充缺失值。但這種方法因?yàn)榇罅康牟捎猛粋€(gè)屬性值可能會(huì)誤導(dǎo)挖掘程序得出有偏差甚至錯(cuò)誤的結(jié)論,因此要小心使用。例如,已知重慶市某銀行的貸款客戶的平均家庭月總收入為 9000元,則使用該值替換客戶收入中的缺失值。例如,將銀行客戶按信用度分類,就可以用
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1