freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

[計算機軟件及應用]數據挖掘和知識發(fā)現綜述-資料下載頁

2025-01-19 17:31本頁面
  

【正文】 ocess 7. DM的分類 8. 興趣度 9. KDD的基本思想 10. DM 5要素 — 語言 難點 KDD技術 KDD系統(tǒng) 16. 數據挖掘十大成果(算法) 數據挖掘十大問題 2022/2/16 6 88 DMQL—A Data Mining Query Language ? Motivation ? DMQL support adhoc and interactive data mining ? like SQL ? 后面章節(jié)有深入的講解 ? 補充 :本質上是解釋器 : 先完成 基本功能模塊, 用一個解釋語言 條用基本功能, 實現循環(huán),分支 ,子程序 2022/2/16 6 88 KDD的技術要求和難點 ? (1)復雜對象 , RDB, 多媒體數據,超文本,空間數據, ? 時態(tài)數據,事務數據,文本文件,電子表格等。 ? (2)大庫、高效 。氣象、天文、地震 每天千兆級,一天內處理完。 ? (3)結果應非平凡、有意義的、可理解 。 ? 例如,規(guī)則 R2明確易懂,意義 ∶ 事件支持度較大,有 20%行車為快車;置信度高,肇事車中 80%是開快車的,快車的肇事率為( 80%/20%)/100=4%。如將快車率壓縮到 10%,則總肇事率將下降到 %+4%=%。 2022/2/16 6 88 KDD的技術要求和難點 (續(xù) ) ? (4)靈活變焦 。 查各個部門的總計值 , 或聚焦于某一部門細節(jié) 。 ? 下查 ( Drilling down) , 上訪 ( Scroll up) , 可視化技術 。 ? (5) 保護隱私和數據安全 。 挖欲藏信息 , 對安全是威脅 。 2022/2/16 6 88 提綱 1. 國外教學經驗和我們的安排 2. 動機, 背景 3. 數據庫進展回顧 5PPT 4. 什么是 DM 5. 挖掘什么 6. KDD Process 7. DM的分類 8. 興趣度 9. KDD的基本思想 10. DM 5要素 — 語言 難點 KDD技術 KDD系統(tǒng) 16. 數據挖掘十大成果(算法) 數據挖掘十大問題 2022/2/16 6 88 主要的 KDD技術 ? 淺淺嘗嘗味道 以后深入分析 ? 關聯(lián)規(guī)則的挖掘 , ? 分類知識的挖掘 , ? 基于決策樹的分類 ? 聚類分析 , ? 其它 KDD技術 2022/2/16 70、 88 關聯(lián)規(guī)則的挖掘 ? 例 超級市場銷售系統(tǒng) , 記錄 5 個顧客的購物單。流水號 所購物品清單1 啤酒、薄餅、牛奶2 烤鴨、薄餅、面醬3 啤酒、烤鴨、薄餅、面醬4 面醬5 烤鴨、面醬 經理想知道 商品間關聯(lián),顧客買了面醬就會買烤鴨? 要求挖掘出 支持度 ? 2 (既至少出現兩次)的商品間的關聯(lián)。 2022/2/16 7 88 關聯(lián)規(guī)則的挖掘 (例子分析 ) ? 著名的 Ap r i or i 算法或 DHP 算法,多次掃描數據庫,依次得出如圖 3 的表格 ( 支持度 2 的項已經略去 )單項統(tǒng)計 支持度{ 啤酒 } 2{ 烤鴨 } 3{ 面餅 } 3{ 面醬 } 4解釋∶單項統(tǒng)計中看出 60 % 的顧客買了烤鴨、 60 % 的顧客買了面餅、 80 % 的顧客買了面醬2022/2/16 7 88 關聯(lián)規(guī)則的挖掘 (例子分析 續(xù) ) ? 雙項統(tǒng)計 支持度{ 啤酒,面餅 } 2{ 烤鴨,面餅 } 2{ 烤鴨,面醬 } 3{ 面餅,面醬 } 2從雙項統(tǒng)計中看出, 60 % 的顧客買了烤鴨和面醬。三項統(tǒng)計 支持度{ 烤鴨,面餅,面醬 }2 圖 34 0% 的顧客同時買了烤鴨、面餅和面醬。于是可得出下列三條規(guī)則:2022/2/16 7 88 關聯(lián)規(guī)則的挖掘 (挖掘結果的應用 ) ? R1: 烤鴨 ?面餅 、 面醬 。 支持度 40%, 置信度為 % ? R2: 面餅 ?烤鴨 、 面醬 。 支持度 40%, 置信度為 % ? R3: 面醬 ?面餅 、 烤鴨 。 支持度 40%, 置信度為 50% ? KDD結果不一定是因果關系 。 運用之妙成乎于人 。 ? 例如 ∶ ? 用 R1, 將烤鴨降價以促銷面餅 、 面醬 , 很可能會破產 ? 用 R2 將面餅降價 , 以促銷烤鴨 , 可能會發(fā)財; ? 用 R3, 引不起顧客的熱情 。 ? 2022/2/16 7 88 分類知識的挖掘 ? 例 住房分配 (監(jiān)督下分類 Supervised Classification) ? (1)輸入 ∶ 訓練數據集 (符合群眾利益或領導意圖 ) 姓名 職稱 工齡 成果計分家 庭 人口身高 體重 應住面積張三 高工 25 5 3 80 85李四 助工 20 4 4 85 75王五 助工 10 1 2 65 50張 C 高工 25 3 2 80 75李 D 高工 30 6 3 85 85王 E 高工 20 5 5 65 70 圖 4 關于住房分配的訓練數據2022/2/16 7 88 分類知識的挖掘 (住房分配例子分析 ) ? (2)輸出 從訓練數據中 發(fā)現 出一個分房計分公式 (知識 ) ? (3)調用特征選擇過程 . 比較張三與張 C , 李四與李 D ? 王五與王 E發(fā)現身高 、 體重與住房無關 , 刪去 ? (4)交互生成加權機制 Total =∑PiFi , 其中 Fi為各條件 ? 量化值 , Pi為加權值 , 總分為應住面積 。 ? (5) 根據訓練數據 , 調整加權 。 例如張三及類似與張三條件的應住 85平方米等等 。 , 使得在訓練集中各記錄的 ∑ PiFi剛好在應住面積的分數段中 。 ? (6) 用測試數據 測試和修改公式 Total =∑P iFi 2022/2/16 7 88 分類知識的挖掘 (住房分配例子分析 續(xù) ) ? (7) 公式 Total =∑P iFi 就是從數據中 “ 挖 ” 出來的分類知識,可以推廣使用。 ? KDD先從實踐中來,然后,用到實踐中去。 2022/2/16 7 88 基于決策樹的分類 ? (信息增益 (熵 ) 理論較深 ) ? 例 高校招生 德智體三標準 (門限值 )。 決策樹 德 不合格 % 智 (總分 ) % 不合格 60% 體 % 不合格 % 錄取 33% 2022/2/16 7 88 基于決策樹的分類 (高考招生例,續(xù) ) ? 上述決策樹把 德育放在第一位 。 絕大多數考生都符合標準 。第一節(jié)點 (德育 )分流后 , 候選空間并未迅速減少 (信息增益小 ) ? 如果把 智育節(jié)點提前 , 可在第一步將 候選集縮小到 1/3, 提高整個系統(tǒng)效率 。 ? 事實上的招生過程采用了這一方法 。 ? 決策樹分類技術研究節(jié)點集的選擇 , 節(jié)點的次序 , 門限值的確定公式等等 , 其目的是使分類比較準確 , 比較快 。 2022/2/16 7 88 聚類分析 ? “ 物以類聚 , 人以群分 ” , 自然類 類中差異小 , 類間差異大 。 又稱 無監(jiān)督的分類 (Unsupervised Classification) 。 ? 宗旨 ∶ 實事求是,按被處理對象的特征分類。 ? 方法 ∶ ? (1) 含 k字段的記錄 K維空間一點。 ? (2) 對各 維 施 加權 ,構造 k維空間的距離公式, ? 如最簡單的 歐氏空間距離 (∑ Δ XI 2)1/2, ? (3)被分類對象 視為 k維星云 , 以距離原則 ? 分為 星系或星團 。 2022/2/16 80、 88 聚類分析 (續(xù) ) ? (4)不同考察角度,不同距離公式,不同聚類結果 ? 例 高考分數線 。按一定加權規(guī)則計總分。 ? 按總分劃線,分為 重點、非重點 和 落榜生。 ? 考生 因一分之差 而落選,埋沒人才(分數是眾多標準之一)。 ? 采用 KDD來分類, 把分數線劃分在稀疏帶 , ? 使得因一分之差落選的人盡可能少, ? 使得大多數不同類的考生有較大的分數差。 2022/2/16 8 88 其它 KDD技術 ? (1)總結性知識的挖掘,求總和,最大、最小值、方差等 ? (2) 相似模式的挖掘,(如找出與近期股市走勢相似的 ? 歷史數據), ? (3)周期性知識, ? (4)預測和趨勢分析, ? (5)可視化, ? (6)偏差分析, ? (7)文本挖掘等等。 有一個文本 KDD原型能根據全球重要媒體新聞的標題預測一小時內新聞對股票行情的影響。 2022/2/16 8 88 提綱 1. 國外教學經驗和我們的安排 2. 動機, 背景 3. 數據庫進展回顧 5PPT 4. 什么是 DM 5. 挖掘什么 6. KDD Process 7. DM的分類 8. 興趣度 9. KDD的基本思想 10. DM 5要素 — 語言 難點 KDD技術 KDD系統(tǒng) 16. 數據挖掘十大成果(算法) 數據挖掘十大問題 2022/2/16 8 88 現有的 KDD系統(tǒng) ? (1) Quest系統(tǒng)。 IBM Almaden研究中心。 KDD先驅 ? 。發(fā)現多種知識,關聯(lián)規(guī)則,時序模式, ? 分類規(guī)則, 模式匹配與分析等等。 ? (2) Intelligent Miner。 IBM 在 Windows NT 商品化 ? Quest系統(tǒng)在 Windows NT環(huán)境下的縮影。 ? 考察過演示版,界面友好,功能強大。 ? (3) KEFIR系統(tǒng)。由 KDD先驅 Piatetsky Shapiro等 ? 在 GTE實驗室開發(fā)的,從健康數據挖掘相關知識。 ? (4) SKICAT系統(tǒng)。 噴氣推進實驗室開發(fā),用于天體數據的 ? 分類 2022/2/16 8 88 現有的 KDD系統(tǒng) ? 課程采用的軟件 ? Weka , 安排一周冥同學報告使用方法和心得 ? DBMiner ? 韓加煒 (Jawei Han)教授在加拿大西蒙佛瑞斯大學領導的課題組 ? 現在 UIUC ? Windows 95/NT平臺上運行, 需 64M內存, 能夠挖掘多數據源、多個層次的知識, 特征規(guī)則、分類規(guī)則、關聯(lián)規(guī)則,分類規(guī)則的挖掘 考察過演示版,界面友好,功能較多, 有可接接受的速度。 2022/2/16 8 88 現有的 KDD系統(tǒng) (續(xù) ) ? IMACS。 ATamp。T Brachman等人開發(fā),較復雜的知識表達方式。 ? 其它 ? Silicon Graphics: MineSet ? SAS Institute: Enterprise Miner ? Integral Solutions Ltd.: Clementine 2022/2/16 8 88 KDD研究學派 ? 來自三個不同領域: 人工智能 , 統(tǒng)計 , 數據庫 ? 不同知識背景、興趣和側重點,不同的學派。 ? 前兩個學派講究數學深度和算法的智能程度。 ? 數據庫派 ∶ 講究工程實用,數據規(guī)模和時空效率 ? KDD算法應在大規(guī)模數據庫( 百萬條記錄 以上) ? 上測試。 有效,可理解 的結果 2022/2/16 8 88 ? 下接 ? 數據挖掘十大 算法成果 ( 2022公選) ? 數據挖掘十大問題 ( 2022提出 ) 2022/2/16 8 88 Any Question ? Thank you !!! ….
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1