freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘基本概念與應(yīng)用-wenkub

2023-05-28 00:20:24 本頁面
 

【正文】 數(shù)據(jù)挖掘:多學(xué)科的匯合 數(shù)據(jù)挖掘 數(shù)據(jù)庫技術(shù) 統(tǒng)計(jì)學(xué) 其它學(xué)科 信息科學(xué) 機(jī)器學(xué)習(xí) 可視化 人工智能 科學(xué)計(jì)算 數(shù)據(jù)挖掘是一個(gè)過程 “ from data mining to knowledge discovery in database”. U. fayyad, and (1996) 數(shù)據(jù)挖掘過程中的數(shù)據(jù)預(yù)處理 ? 數(shù)據(jù)清洗 ? 填充缺失值 , 修均噪聲數(shù)據(jù) , 識(shí)別或刪除孤立點(diǎn) , 并解決數(shù)據(jù)不一致問題 ? 主要分析方法:分箱( Binning)、聚類、回歸 ? 數(shù)據(jù)集成 ? 多個(gè)數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成 ? 數(shù)據(jù)變換 ? 規(guī)范化與匯總 ? 數(shù)據(jù)簡化 ? 減少數(shù)據(jù)量的同時(shí) , 還可以得到相同或相近的分析結(jié)果 ? 主要分析方法:抽樣、主成分分析 ? 數(shù)據(jù)離散化 ? 數(shù)據(jù)簡化的一部分 , 但非常重要 (尤其對(duì)于數(shù)值型數(shù)據(jù)來說 ) 數(shù)據(jù)挖掘過程中的數(shù)據(jù)探索 ? 探索性數(shù)據(jù)分析( Exploratory Data Analysis, EDA) ? 探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系 ? 對(duì)數(shù)據(jù)集沒有各種嚴(yán)格假定 ? “玩”數(shù)據(jù) ? 主要任務(wù) ? 數(shù)據(jù)可視化( a picture is worth a thousand words) ? 殘差分析(數(shù)據(jù)=擬合 + 殘差) ? 數(shù)據(jù)的重新表達(dá)(什么樣的尺度-對(duì)數(shù)抑或平方根-會(huì)簡化分析?) ? 方法的耐抗性(對(duì)數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值) ? 常見方法 ? 統(tǒng)計(jì)量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等 ? 統(tǒng)計(jì)圖,如餅圖、直方圖、散點(diǎn)圖、箱尾圖等 ? 模型,如聚類 什么不是數(shù)據(jù)挖掘? ? 定量分析( Quantitative Analysis)的需要存在企業(yè)管理運(yùn)行的各個(gè)側(cè)面或環(huán)節(jié),但并非所有的定量分析問題都可以歸結(jié)到數(shù)據(jù)挖掘范疇的問題。 ? 簡單的報(bào)表、圖表及多維分析仍是日常分析工作的主要內(nèi)容 ? 小樣本數(shù)據(jù)的分析傳統(tǒng)統(tǒng)計(jì)分析方法更成熟有效,如趨勢(shì)預(yù)測(cè) ? 某些特定業(yè)務(wù)問題無法用數(shù)據(jù)挖掘算法加以解決,例如 ? 資源最優(yōu)配置問題是個(gè)運(yùn)籌學(xué)問題 ? 某些物流管理問題或者供應(yīng)鏈管理問題是個(gè)隨機(jī)規(guī)劃問題 ? 營銷預(yù)演本質(zhì)是個(gè)系統(tǒng)仿真問題 報(bào)告內(nèi)容 ? 數(shù)據(jù)挖掘的基本概念 ? 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析 ? 數(shù)據(jù)挖掘的基本算法 ? 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ? ? 總結(jié)與討論 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的聯(lián)系 ? 從處理數(shù)據(jù)數(shù)據(jù)挖掘中采用了大量統(tǒng)計(jì)學(xué)的思想、方法和工具 ? 聚類分析(無監(jiān)督學(xué)習(xí)過程,統(tǒng)計(jì)分析中的主要技術(shù)) KMeans Self Organizing Map (SOM) ? 數(shù)據(jù)分類(有監(jiān)督學(xué)習(xí)過程) 統(tǒng)計(jì)分類技術(shù):距離判別,費(fèi)雪判別,貝葉斯判別 數(shù)據(jù)挖掘中的分類技術(shù) :決策樹,神經(jīng)網(wǎng)絡(luò) ? 其他方法 相關(guān)分析 主成分分析 回歸分析 序列分析 統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的區(qū)別 ? 數(shù)據(jù) ? 樣本數(shù)量不同(在統(tǒng)計(jì)學(xué)中樣本數(shù)量大于 30,則成為大樣本) ? 數(shù)據(jù)來源和質(zhì)量不同 ? 數(shù)據(jù)挖掘既可以處理結(jié)構(gòu)化數(shù)據(jù),也可以處理非結(jié)構(gòu)化和異型數(shù)據(jù) ? 方法 ? 數(shù)據(jù)挖掘的前提是占有大量數(shù)據(jù),統(tǒng)計(jì)中的實(shí)驗(yàn)設(shè)計(jì)、抽樣設(shè)計(jì)并不適用 ? 有些數(shù)據(jù)挖掘的分析方法是統(tǒng)計(jì)學(xué)中沒有的,如強(qiáng)調(diào)實(shí)時(shí)分析 ? 統(tǒng)計(jì)分析方法在對(duì)大規(guī)模數(shù)據(jù)處理時(shí)占用系統(tǒng)的資源和時(shí)間太多,不適宜采用,因此數(shù)據(jù)挖掘大量采用神經(jīng)網(wǎng)絡(luò)、遺傳算法等人工智能方法 ? 模型(模式) ? 模型(統(tǒng)計(jì)學(xué)) VS 模式(數(shù)據(jù)挖掘) ? 統(tǒng)計(jì)建模強(qiáng)調(diào)模型的普適性,數(shù)據(jù)挖掘強(qiáng)調(diào)從數(shù)據(jù)中發(fā)現(xiàn)模式 ? 算法 ? 統(tǒng)計(jì)學(xué)強(qiáng)調(diào)模型,運(yùn)算量居于次要地位 ? 數(shù)據(jù)挖掘的精華在于結(jié)果的未知性,強(qiáng)調(diào)探索性分析,與之對(duì)應(yīng)的是算法而不是模型 ? 方法論 ? 統(tǒng)計(jì)學(xué):以數(shù)學(xué)為基礎(chǔ),每種方法有嚴(yán)格的證明體系 ? 數(shù)據(jù)挖掘:采用實(shí)驗(yàn)方法,不具有很強(qiáng)的嚴(yán)謹(jǐn)性 數(shù)據(jù)挖掘相對(duì)于統(tǒng)計(jì)學(xué)的特點(diǎn) ? 使用數(shù)據(jù)挖掘工具無須具備太專業(yè)的統(tǒng)計(jì)知識(shí),處理大量的實(shí)際數(shù)據(jù)更有優(yōu)勢(shì),使得數(shù)據(jù)挖掘人員可以集中精力在業(yè)務(wù)建模方面 ? 數(shù)據(jù)挖掘從大型數(shù)據(jù)庫提取所需數(shù)據(jù),利用專屬計(jì)算機(jī)軟件進(jìn)行分析,更能滿足企業(yè)的需求 ? 從理論的角度來看,數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)不同,其目的在于方便企業(yè)的末端使用者應(yīng)用,而非為統(tǒng)計(jì)學(xué)家提供檢驗(yàn)工具 報(bào)告內(nèi)容 ? 數(shù)據(jù)挖掘的基本概念 ? 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析 ? 數(shù)據(jù)挖掘的基本算法 ? 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ? ? 總結(jié)與討論 數(shù)據(jù)挖掘的基本算法幾個(gè)基本概念 ? 模型( Model) vs 模式( Pattern) ? 數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化( Generalize)到總體( Population)上去 ? 模型:對(duì)數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的所有點(diǎn),例如聚類分析 ? 模式:對(duì)數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個(gè)子集,例如關(guān)聯(lián)分析 ? 算法( Algorithm):一個(gè)定義完備( welldefined)的過程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出 ? 描述型挖掘( Descriptive) vs 預(yù)測(cè)型挖掘( Predictive) ? 描述型挖掘:對(duì)數(shù)據(jù)進(jìn)行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征 ? 預(yù)測(cè)型挖掘:根據(jù)觀察到的對(duì)象特征值來預(yù)測(cè)它的其他特征值 ? 描述型挖掘可以是目的,也可以是手段 幾類基本的挖掘算法 ?
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1