freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

資料探勘datamining(編輯修改稿)

2025-11-03 09:45 本頁面
 

【文章內(nèi)容簡介】 程 ? 資料探勘常用的技術(shù) ? 資料探勘的模型 ? 資料探勘的應(yīng)用 ? 資料探勘的工具 ? 資料探勘未來的發(fā)展與挑戰(zhàn) 26 知識發(fā)現(xiàn)的過程 資料前置處理 資料倉儲建立 資料探勘 樣式評估 結(jié)果展示 知識庫 使用者 多維度資料庫 資料庫 原始資料 資料收集 資料庫 27 資料收集 ? 知識發(fā)現(xiàn)的第一個步驟 ? 原始資料來源 ?資料庫系統(tǒng) ?Excel表格 ?文字檔 ?網(wǎng)際網(wǎng)路 ?問卷調(diào)查 … 等等 28 資料前置處理 ? 原因 ?真實的資料非常雜亂,且收集資料的工具並沒有做精確的檢查,導(dǎo)致收集到的資料,並不見得全都可用 ? 資料探勘有 80%時間花費在前置作業(yè) ?包含資料的淨化 、 格式轉(zhuǎn)換、表格的連結(jié)等前置作業(yè) 29 資料倉儲的建立 ? 決策支援系統(tǒng)的基礎(chǔ) ? 含整合資料、詳細資料 、 總合性(summarized)資料 、 歷史性資料 、 描述資料 、綱要資料 ?線上分析處理 ( OnLine Analytical Processing, OLAP) ?統(tǒng)計 、 分析功能 ?可由關(guān)聯(lián)式資料庫建構(gòu) ? Sybase、 Oracle、 Redbrick等 ?OLAP 提供多維度結(jié)構(gòu) (multidimensional structures) ? 使用者依據(jù)不同維度,例如產(chǎn)品、地區(qū) 、 其它更透徹的觀察角度做統(tǒng)計 30 資料探勘 ? 用統(tǒng)計與模型化的方法 ? 資料倉儲所提供的資訊,供資料探勘做進ㄧ步挖掘,而萃取隱藏知識後,再轉(zhuǎn)到知識庫 ? 資料探勘是 知識發(fā)現(xiàn) 的一部分 ? 知識發(fā)現(xiàn)的過程會影響資料探勘的成功 31 樣式評估 ? 樣式評估 (pattern evaluation) ?評估所挖掘的知識是不是真的有用 ? ?過濾沒用的資訊,最後剩下有價值的知識供給使用者 ? 範例 ?「天氣好,旅遊人數(shù)就多;天氣差,旅遊人數(shù)就少」,這樣的探勘結(jié)果我們可能認為它“有趣”的程度並不高,因為它是屬於一般常識 32 結(jié)果展示 ? 複雜的探勘結(jié)果要讓使用者看懂並不容易 ?需要圖形化介面,把有趣的知識做好的呈現(xiàn) ?例如: Microsoft SQL Server 2020的圖形化介面非常豐富 ? 用類似油表的燈號,讓使用者看到現(xiàn)在的預(yù)算消耗量是加滿油的狀態(tài)、還是沒有油的狀態(tài) 33 第一章 資料探勘簡介 ? 緣起 ? 何謂資料探勘 ? 資料探勘的演進 ? 資料探勘與其他系統(tǒng)的比較 ? 知識發(fā)現(xiàn)的過程 ? 資料探勘常用的技術(shù) ? 資料探勘的模型 ? 資料探勘的應(yīng)用 ? 資料探勘的工具 ? 資料探勘未來的發(fā)展與挑戰(zhàn) 34 資料探勘常用的技術(shù) ? 傳統(tǒng)技術(shù) ?以統(tǒng)計分析為代表 ? 包括敘述統(tǒng)計、機率論、迴歸分析、類別資料分析 ? 用高等統(tǒng)計學含括的變因分析 (factor analysis)精簡變數(shù) ? 用區(qū)隔分析 (discriminated analysis) 來做分類 ? 用群集分析 (cluster analysis) ?對象 ? 大多是變數(shù)繁多且筆數(shù)龐大的資料 35 資料探勘常用的技術(shù) (續(xù) ) ? 改良技術(shù) ?類神經(jīng)網(wǎng)路 (artificial neural work) ?決策樹 (decision tree) ?基因演算法 (geic algorithms) ?規(guī)則推論法 (rules induction) ?模糊理論 (fuzzy logic) 36 類神經(jīng)網(wǎng)路 ? 何謂類神經(jīng)網(wǎng)路 ?模仿生物神經(jīng)網(wǎng)路,用大量人工神經(jīng)元 (neuron)模擬 ?高速的運算功能,有記憶、學習、容錯能力 ? 運算方法 ?用許多參數(shù)建立一個模式,過程中需要提供資料給網(wǎng)路,能夠產(chǎn)生 一組 最佳結(jié)果的加權(quán)值 (weights) ? 訓(xùn)練方法-回溯 (backpropagation) ? 特性 ?預(yù)測根據(jù)不明確 ?對於測詴資料可以做相當正確的預(yù)測,但對於真實資料的預(yù)測,準確性差 37 類神經(jīng)網(wǎng)路 運算範例 ? n維的輸入向量 x,透過矩陣相乘 (scalar product)和非線性函數(shù)映射的方法,對應(yīng)到變數(shù) y mk f 權(quán)重加總 輸入向量 x 輸出 y 活化函數(shù) (Activation Function) 權(quán)重向量 w 229。 w0 w1 wn x0 x1 xn 38 決策樹 ? 何謂決策樹 ?用樹狀結(jié)構(gòu)產(chǎn)生規(guī)則 ?內(nèi)部節(jié)點 (internal node)?某項屬性的測詴 ?分支 (brache)?被測詴屬性當中一個可能的值 ?葉節(jié)點 (leaf node)?布林函數(shù) ? 運算方法 ?樹的每個節(jié)點都是判斷式,判斷所輸入資料是否等於某個屬性值,構(gòu)成樹狀結(jié)構(gòu) ? 特性 ?適用於所有的分類問題 ?不一定較準確,但容易了解 39 決策樹範例 購買筆記型電腦 婚姻年齡收入否 是 否 否 是單身 已婚 30 = 30低中高婚姻年齡收入否 是 否 否 是單身 已婚低中高40 基因演算法 ? 1960 年代 John Von Neumann ?提出一個「自我複製」 (selfreproducing) 的理論,奠定了基因演算法的基礎(chǔ) ? 美國密西根大學教授 John Holland ?延續(xù)此觀念,於 1970 年發(fā)展出簡單基因演算法( Simple Geic Algorithms 簡稱 SGA),使 基因演算法的架構(gòu)有了初步的雛型 41 基因演算法 (續(xù) ) ? 基因演算法 (最佳化空間搜尋法 ) ?適合解決最佳化問題 ?「物競天擇」、「適者生存,不適者淘汰」 ? 運算方法 ?選擇 (selection)、複製 (reproduction)、 交配(crossover)、 突變 (mutation)進行演化,求最佳解 ? 特性 ?高度的問題獨立性 ?不容易陷入局部最佳化 (local optimum),而向整體最佳解收斂 (global optimum) 42 透過適應(yīng)函數(shù) Fitness function 對每一個個體進行評估,並賦予每一個個體一個適應(yīng)值 Fitness value 選擇 Selection 複製 Reproduction
點擊復(fù)制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1