freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)質(zhì)量論文:應(yīng)用于數(shù)據(jù)質(zhì)量核查的幾項數(shù)據(jù)挖掘技術(shù)研究(已修改)

2025-07-05 03:51 本頁面
 

【正文】 數(shù)據(jù)質(zhì)量論文:應(yīng)用于數(shù)據(jù)質(zhì)量核查的幾項數(shù)據(jù)挖掘技術(shù)研究【中文摘要】質(zhì)量低劣的數(shù)據(jù)已經(jīng)成為影響企業(yè)正確決策的關(guān)鍵因素,成為制約信息服務(wù)的瓶頸。因此,如何高效的管理數(shù)據(jù),提高數(shù)據(jù)質(zhì)量,使其成為決策部門的有效依據(jù),是具有較高研究價值和實際意義的問題。本文由此背景出發(fā),根據(jù)不同類型的數(shù)據(jù)錯誤,采用相應(yīng)檢測方法,并通過實現(xiàn)具體程序,驗證方法的有效性。本文首先介紹了數(shù)據(jù)質(zhì)量的定義、分類、評價指標(biāo)以及數(shù)據(jù)質(zhì)量提高技術(shù)。然后總結(jié)了數(shù)據(jù)清洗技術(shù)的原理方法。最后針對不同的數(shù)據(jù)錯誤類型,給出了相應(yīng)的解決方法。本文重點給出了異常數(shù)據(jù)和相似重復(fù)記錄的檢測方法。本文充分考慮數(shù)據(jù)內(nèi)部之間的聯(lián)系,采用基于關(guān)聯(lián)規(guī)則的思想對異常數(shù)據(jù)進(jìn)行檢測。首先,將數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使其滿足關(guān)聯(lián)規(guī)則挖掘的條件;然后,在訓(xùn)練集中找出所有的頻繁項集,由頻繁項集生成關(guān)聯(lián)規(guī)則,并將其放入規(guī)則庫;最后,將測試集中的記錄與規(guī)則庫中的規(guī)則進(jìn)行比對,以此判斷記錄是否異常。通過實驗證明此方法檢測異常數(shù)據(jù)效果良好。本文采用基于權(quán)值分組的方法來檢測相似重復(fù)記錄。根據(jù)識別事物的能力給不同的屬性分配相應(yīng)的權(quán)值,以此提高檢測精度;根據(jù)關(guān)鍵字段將大數(shù)據(jù)集分割成不相交的小數(shù)據(jù)集,再在小數(shù)據(jù)集中檢測相似重復(fù)記錄,以減少匹配次數(shù);采用位置編碼方法計算字段相似度,解決了英文縮寫問題和中文字符匹配問題;使用多趟查找技術(shù)克服了字符敏感問題。實驗證明此方法能夠快速準(zhǔn)確的檢測相似重復(fù)記錄?!居⑽恼緿ata in poor quality has bee a key factor for enterprise to do the right decision, and a bottleneck of information service. Therefore, how to manage data efficiently and
點擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1