freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與處理datamininganddataprocessing(編輯修改稿)

2025-08-15 17:51 本頁面
 

【文章內(nèi)容簡介】 。 (d)數(shù)據(jù)變換:根據(jù)知識發(fā)現(xiàn)的任務對經(jīng)過預處理的數(shù)據(jù)再處理,主要是通過投影或利用數(shù)據(jù)庫的其它操作減少數(shù)據(jù)量。 (e)確定 KDD目標:根據(jù)用戶的要求,確定KDD要發(fā)現(xiàn)的知識類型。 (f)選擇算法:根據(jù)步驟 5確定的任務,選擇合適的知識發(fā)現(xiàn)算法,包括選取合適的模型和參數(shù)。 (g)數(shù)據(jù)挖掘:這是整個 KDD過程中很重要的一個步驟。運用前面的選擇算法,從數(shù)據(jù)庫中提取用戶感興趣的知識,并以一定的方式表示出來。 (h)模式解釋:對在數(shù)據(jù)挖掘步驟中發(fā)現(xiàn)的模式(知識)進行解釋。通過機器評估剔除冗余或無關模式,若模式不滿足,再返回到前面某些處理步驟中反復提取。 (i)知識評價:將發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn)給用戶。其中也包括對知識一致性的檢查,以確信本次發(fā)現(xiàn)的知識不會與以前發(fā)現(xiàn)的知識相抵觸。 2 數(shù)據(jù)挖掘 (1)數(shù)據(jù)挖掘:通過分析每個數(shù)據(jù),從 大量 數(shù)據(jù)中 尋找 其規(guī)律的技術。 注 :數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。 注 :(a)數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識; (b)發(fā)現(xiàn)的知識要可接受、可理解、可運用; (c)并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題。 2 數(shù)據(jù)挖掘 (2)商業(yè)角度的定義 定義:數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術,其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關鍵性數(shù)據(jù)。 理解:數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。 2 數(shù)據(jù)挖掘 (3)數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別 注: (a)數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析 (如查詢、報表、聯(lián)機應用分析 )的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識 . (b)數(shù)據(jù)挖掘所得到的信息應具有先未知,有效和可實用三個特征。 (c)先前未知的信息是指該信息是預先未曾預料到的,數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。 案例:南京的房價與離婚率是同步的。 2 數(shù)據(jù)挖掘 傳統(tǒng)數(shù)據(jù)分析工具 (DSS/EIS) 數(shù)據(jù)挖掘工具 工具特點 回顧型的、驗證型的 預測型的、發(fā)現(xiàn)型的 分析重點 已經(jīng)發(fā)生了什么 預測未來的情況、解釋發(fā)生的原因 分析目的 從最近的銷售文件中列出最大客戶 鎖定未來的可能客戶,以減少未來的銷售成本 數(shù)據(jù)集大小 數(shù)據(jù)維、維中屬性數(shù)、維中數(shù)據(jù)均是少量的 數(shù)據(jù)維、維中屬性數(shù)、維中數(shù)據(jù)均是龐大的 啟動方式 企業(yè)管理人員、系統(tǒng)分析員、管理顧問啟動與控制 數(shù)據(jù)與系統(tǒng)啟動,少量的人員指導 技術狀況 成熟 統(tǒng)計分析工具已成熟,其他工具正在發(fā)展中 2 數(shù)據(jù)挖掘 (4)數(shù)據(jù)挖掘和數(shù)據(jù)倉庫 (a)數(shù)據(jù)挖掘不必非得建立一個數(shù)據(jù)倉庫 (DW,Data Warehouse) ,數(shù)據(jù)倉庫不是必需的。 (b)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘。 2 數(shù)據(jù)挖掘 (5)數(shù)據(jù)挖掘和在線分析處理 (OLAP) 注: (a)OLAP(OnLine Analytic Processing)基于假設,然后用 OLAP檢索數(shù)據(jù)庫來驗證這個假設是否正確。 例:一個分析師想找到導致貸款拖欠的原因,他可能先假定:低收入的人信用度也低,然后用 OLAP來驗證他這個假設。若該假設沒被證實,他可能去察看那些高負債的賬戶,如果還不行,他也許要把收入和負債一起考慮,一直進行下去,直到找到他想要的結(jié)果或放棄。 缺點:如果分析的變量達到幾十或上百個,那么再用OLAP手動分析驗證這些假設將是一件非常困難和痛苦的事情。 2 數(shù)據(jù)挖掘 (b)DM不基于假設,數(shù)據(jù)挖掘與 OLAP不同的地方 :數(shù)據(jù)挖掘不是用于驗證某個假定的模式 (模型 )的正確性,而是在數(shù)據(jù)庫中自己尋找模型。 例:一個用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風險因素。數(shù)據(jù)挖掘工具可能幫他找到高負債和低收入是引起這個問題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來沒有想過或試過的其他因素,比如年齡。 (c)二者關系:數(shù)據(jù)挖掘和 OLAP具有一定的互補性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動之前,驗證一下的行動的影響,那么 OLAP工具能回答你的這些問題。知識發(fā)現(xiàn)的早期階段,OLAP工具有利于探索數(shù)據(jù),重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。加快知識發(fā)現(xiàn)的過程。 2 數(shù)據(jù)挖掘 (6)三個步驟:數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示。 注: (a)數(shù)據(jù)準備:從相關的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集 。 (b)規(guī)律尋找:用某種方法將數(shù)據(jù)集所含的規(guī)律找出來 。 (c)規(guī)律表示:盡可能以用戶可理解的方式(如可視化 )將找出的規(guī)律表示出來。 2 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘過程模型 注: ETL(ExtractionTransformationLoading):數(shù)據(jù)提取、轉(zhuǎn)換和加載 | 數(shù)據(jù)準備 | 規(guī)律尋找 | 規(guī)律表示 | 結(jié)果評價 | 2 數(shù)據(jù)挖掘 源數(shù)據(jù) 集成數(shù)據(jù) 目標數(shù)據(jù) 預處理數(shù)據(jù) 商業(yè)模式 知識 應用方案 業(yè)務對象 確定挖掘?qū)ο? 準備數(shù)據(jù) 建立模型 數(shù)據(jù)挖掘 結(jié)果分析 知識應用階段 2 數(shù)據(jù)挖掘 注:數(shù)據(jù)挖掘包含有以下幾個方面的含義 : (a)核心是 “ 大量 ” 和 “ 尋找 ” 。 “ 大量 ” 數(shù)據(jù)含義 :能夠形成規(guī)律 。傳統(tǒng)數(shù)據(jù)分析工具和技術、經(jīng)驗和直覺等失效。 “ 尋找 ” 規(guī)律 :規(guī)律隱含在大量數(shù)據(jù)之中。
點擊復制文檔內(nèi)容
法律信息相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1