freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數據挖掘分類和預測-全文預覽

2024-09-17 12:12 上一頁面

下一頁面
  

【正文】 0號 復旦大學計算機與信息技術系 02165555410, 13601675231 謝 謝! 。 – 常用技術:神經元網絡、 K均值、最近鄰 … 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 98 四、數據挖掘應用 業(yè)務建摸 ? 異常檢測 – 及時發(fā)現有欺詐嫌疑的異常行為,正確進行欺詐問題的評估,對欺詐者實施控制和強制措施。 – 分析客戶使用分銷渠道的情況和分銷渠道的容量 ;建立利潤評測模型;客戶關系優(yōu)化;風險控制等 ? 電子商務 – 網上商品推薦;個性化網頁;自適應網站 … ? 生物制藥、基因研究 – DNA序列查詢和匹配; 識別基因序列的共發(fā)生性 … ? 電信 – 欺詐甄別;客戶流失 … ? 保險、零售。Choice(主要用于保險業(yè) ) ?HNC( 欺詐行為偵測) ?Unica Model 1(主要用于市場營銷 ) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 86 二、數據挖掘軟件的發(fā)展 綜合的數據挖掘解決方案 (復旦的工作) 各行業(yè)電子商務網站 算 法 層 商 業(yè) 邏 輯 層 行 業(yè) 應 用 層 商業(yè)應用 商業(yè)模型 挖掘算法 CRM 產品推薦 客戶細分 客戶流失 客戶利潤 客戶響應 關聯規(guī)則、序列模式、分類、聚集、神經元網絡、偏差分析 … WEB挖掘 網站結構優(yōu)化 網頁推薦 商品推薦 。比如 , 平行坐標可視化( parallelcoordinate visualization)。 – 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在( ubiquitous) 計算設備產生的各種類型的數據 第四代數據挖掘原型或商業(yè)系統(tǒng)尚未見報導, PKDD2020上 Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文, Kargupta是馬里蘭巴爾的摩州立大學( University of Maryland Baltimore County) 正在研制的 CAREER數據挖掘項目的負責人,該項目研究期限是 2020年 4月到 2020年 4月,目的是開發(fā)挖掘分布式和異質數據( Ubiquitous設備)的第四代數據挖掘系統(tǒng)。 ?數據挖掘與統(tǒng)計學 ?數據挖掘與人工智能 ?數據挖掘與數據庫技術 數據挖掘與 KDD 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 63 一、數據挖掘概念 原由 國民經濟和社會的信息化 ?社會信息化后,社會的運轉是軟件的運轉 ?社會信息化后,社會的歷史是數據的歷史 因此政府提出 “信息化”和“發(fā)展軟件產業(yè)” 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 64 一、數據挖掘概念 原由 數據挖掘 數據庫越來越大 有價值的知識 可怕的數據 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 65 一、數據挖掘概念 原由 數據爆炸,知識貧乏 苦惱 : 淹沒在數據中 。4/5P(high|n)6/9P(false|p)P(xk|C) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 37 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 38 ? 樣本 X = rain, hot, high, false ? P(X|p) 種類字段:屬性值、類標簽、頻率 ? 對數值字段進行分割計算: 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 28 Sliq分類算法 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 29 Sliq分類算法 ? 對種類字段進行分割: ? 通過對數據的掃描生成類分布表 ? 尋找分割集合 187。 類標簽 187。 Shim) ? RainForest (VLDB’98 — Gehrke, Ramakrishnan amp。 那么這個分割的Gini就是 ? 提供最小 Ginisplit 就被選擇作為分割的標準 (對于每個屬性都要遍歷所有可以的分割方法 ). ???? nj p jTgini 1 21)()()()( 2211 Tg i n iNNTg i n iNNTg i n i s p l i t ??2020年 9月 16日星期三 Data Mining: Concepts and Techniques 18 幾種經典算法介紹 ? CART min(P(c1),P(c2)) 2P(c1)P(c2) [P(c1)logP(c1)]+[P(c2)logP(c2)] (ID3) ? (ID3) ? 對種類字段處理時,缺省是對每個值作為一個分割 ? Gain和 Gain Ratio ? CHAID ? 在 Overfitting前停止樹的生成 ? 必須都是種類字段 ? 選擇分割。 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 7 ? 數據清洗 – 對數據進行預處理,消除噪音和丟失值。 ? 測試集和訓練集是獨立的。 典型應用 – 信用評分 – Direct Marketing – 醫(yī)療診斷 – ………… 分類和預測 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 3 分類的兩個步驟 ? 模型創(chuàng)建 : 對一個類別已經確定的數據創(chuàng)建模型 – 每一條記錄都屬于一個確定的類別,我們使用類標簽屬性記錄類別。使用該模型對新的數據進行分類 預測 : – 對連續(xù)性字段進行建模和預測。 ? 準確率:正確被模型分類的測試樣本的百分比。 – 提供一組屬性,然后尋找出訓練集中存在類別或者聚集。那么熵就是 (entropy), ? 從而這個信息增益就是 ?? ??? ?1),()(i iiii npInpnpAE)(),()( AEnpIAG ai n ??2020年 9月 16日星期三 Data Mining: Concepts and Techniques 16 使用信息增益進行屬性選擇 (例 ) ? Class P: buys_puter = ―yes‖ ? Class N: buys_puter = ―no‖ ? I(p, n) = I(9, 5) = ? Compute the entropy for age: Hence Similarly age p i n i I ( p i, n i)=3 0 2 3 0 .9 7 13 0 … 4 0 4 0 04 0 3 2 0 .9 7 1)2,3(I145)0,4(I144)3,2(I145)age(E????)_()()(???r a t i n gcr editG a i ns t u d entG a i ni n eG a i n)age(E)n,p(I)age(G a i n ???2020年 9月 16日星期三 Data Mining: Concepts and Techniques 17 Gini Index (IBM IntelligentMiner) ? 集合 T包含 N個類別的記錄,那么其 Gini指標就是 pj 類別 j出現的頻率 ? 如果集合 T分成兩部分 N1 and N2 。 ? 在數據挖掘中為什么使用決策樹 ? – 相對比較快的學習速度 (和其它學習方法比較來說 ) – 能夠轉換成容易理解的分類規(guī)則 – 能夠使用 SQL語句查詢數據庫 – 分類的準確率也不差 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 24 Scalable Decision Tree Induction 數據挖掘中提出的方法 ? SLIQ (EDBT’96 — Mehta et al.) ? SPRINT (VLDB’96 — J. Shafer et al.) ? PUBLIC (VLDB’98 — Rastogi amp。 索引 ? 類列表( class list): 187。 數值字段:類標簽、頻率 187?!璓(high|p)3/9P(hot|n)2/5或超過預先指定的周期數 . ? 防止訓練過度 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 54 神經網絡的解釋 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 55 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 56 解釋過程 ? 對隱藏節(jié)點進行聚類 ,對于所有給定的輸入 ,輸出值分成幾個類 . ? 導出與輸出節(jié)點 O的一系列規(guī)則 ? 導出與輸入節(jié)點 I的一系列規(guī)則 ? 得到關于輸入和輸出的規(guī)則 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 57 靈敏度分析 ? 用于評估一個給定的變量對網絡輸出的影響 .改變該變量的輸入 ,其他變量固定 ,監(jiān)測網絡的輸出 . ? 得到的規(guī)則形如 :IF X 減少 5%, THEN Y 增加 8%的規(guī)則 . 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 58 基于關聯規(guī)則的分類 其他分類方法 K最臨近分類 基于案例的推理 遺傳算法 粗糙集算法 模糊集算法 預測 線性回歸和多元回歸 非線性回歸 其他回歸模型 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 59 分類法的準確性 評估分類法的準確率 提高分類法的準確率 準確率足夠判定
點擊復制文檔內容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1