freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[計算機軟件及應(yīng)用]數(shù)據(jù)挖掘chap1_緒論(編輯修改稿)

2025-01-31 20:00 本頁面
 

【文章內(nèi)容簡介】 (a) (c) (d) 例:撲克牌的劃分與垃圾郵件的識別之間的差異。 撲克牌的劃分屬于聚類問題。在不同的撲克游戲中采用不同的劃分方式,圖 12為十六張牌基于不同相似性度量 (花色、點數(shù)或顏色 )的劃分結(jié)果。 垃圾郵件的識別屬于分類問題,所有訓(xùn)練用郵件預(yù)先被定義好類標(biāo)號信息,即訓(xùn)練集中的每封郵件預(yù)先被標(biāo)記為垃圾郵件或合法郵件信息,需要利用已有的訓(xùn)練郵件建立預(yù)測模型,然后利用預(yù)測模型來對未來未知郵件進行預(yù)測。 圖 12 十六張牌基于不同相似性度量的劃分結(jié)果 2021/11/10 (3) 回歸 (Regression )分析 回歸分析是確定 兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系 的一種分析方法。其可應(yīng)用于風(fēng)險分析、作文自動評分等領(lǐng)域。 (4) 關(guān)聯(lián) (Association)分析 關(guān)聯(lián)分析,發(fā)現(xiàn)特征之間的相互依賴關(guān)系,通常是從給定的數(shù)據(jù)集中發(fā)現(xiàn) 頻繁出現(xiàn) 的 模式知識 (又稱為 關(guān)聯(lián)規(guī)則 )。關(guān)聯(lián)分析廣泛用于市場營銷、事務(wù)分析等領(lǐng)域。 (5) 離群點 (Outlier)檢測 離群點檢測就是發(fā)現(xiàn)與眾不同的數(shù)據(jù)。 可應(yīng)用于商業(yè)欺詐行為的自動檢測,網(wǎng)絡(luò)入侵檢測,金融欺詐檢測,反洗錢,犯罪嫌疑人調(diào)查,海關(guān)、稅務(wù)稽查等。 (6) 演化 (Evolving)分析 演化分析就是對 隨時間變化 的數(shù)據(jù)對象的變化規(guī)律和趨勢進行建模描述。如商品銷售的周期 (季節(jié) )性分析。 2021/11/10 (7) 序列模式 (Sequential Pattern)挖掘 序列模式挖掘是指分析數(shù)據(jù)間的 前后序列關(guān)系 ,包括 相似模式發(fā)現(xiàn) 、 周期模式發(fā)現(xiàn) 等。 其應(yīng)用領(lǐng)域包括客戶購買行為模式預(yù)測、 Web訪問模式預(yù)測、疾病診斷、網(wǎng)絡(luò)入侵檢測等。 數(shù)據(jù)挖掘過程 ? 數(shù)據(jù)挖掘和知識發(fā)現(xiàn)緊密相連,在認識數(shù)據(jù)挖掘過程前,先來了解知識發(fā)現(xiàn)這個概念。 ? 知識發(fā)現(xiàn) (Knowledge Discovery in Database, KDD)是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程,這個過程定義為:從數(shù)據(jù)中 鑒別出有效模式的非平凡過程 ,該模式是新的、可能有用的和最終可理解的。 2021/11/10 知識發(fā)現(xiàn) (Knowledge Discovery in Database, KDD) 從技術(shù)的角度看知識發(fā)現(xiàn)過程 2021/11/10 知識發(fā)現(xiàn)的主要步驟: ? 數(shù)據(jù)清洗 (data clearning)。其作用是清除數(shù)據(jù)噪聲和與挖掘主題明顯無關(guān)的數(shù)據(jù)。 ? 數(shù)據(jù)集成 (data integration)。其作用是將來自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組合到一起。 ? 數(shù)據(jù)轉(zhuǎn)換 (data transformation)。其作用是將數(shù)據(jù)轉(zhuǎn)換為易于進行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式。 ? 數(shù)據(jù)挖掘 (data mining)。其作用是利用智能方法挖掘數(shù)據(jù)模式或規(guī)律知識。 ? 模式評估 (pattern evaluation)。其作用是根據(jù)一定評估標(biāo)準(zhǔn)從挖掘結(jié)果篩選出有意義的相關(guān)知識。 ? 知識表示 (knowledge presentation)。其作用是利用可視化和知識表達技術(shù),向用戶展示所挖掘的相關(guān)知識。 2021/11/10 從商業(yè)的角度看,數(shù)據(jù)挖掘過程可分為三個階段 數(shù)據(jù)收集 :數(shù)據(jù)收集容易且不引人注意,但卻是數(shù)據(jù)挖掘的基礎(chǔ)。知識是從海量數(shù)據(jù)里提取出來的,因此要挖掘知識必須得收集一定量的數(shù)據(jù)。收集到的原始數(shù)據(jù)一般存在缺失值、錯誤值等問題,不能直接用作知識提取的數(shù)據(jù)源,需要進行數(shù)據(jù)預(yù)處理。 知識提取 :基于經(jīng)過預(yù)處理的數(shù)據(jù),使用各種數(shù)據(jù)挖掘方法(如分類、聚類、關(guān)聯(lián)分析等 )進行知識提取,這是數(shù)據(jù)挖掘的核心部分。 知識輔助決策 :數(shù)據(jù)挖掘技術(shù)已被廣泛地應(yīng)用于各領(lǐng)域,其提取出來的知識可以很好地輔助決策者做出良好的決策。 2021/11/10 數(shù)據(jù)挖掘軟件 ? 比較著名的商用數(shù)據(jù)挖掘軟件有: ? SPSS Clementine、 SAS Enterprise Miner 、 IBM Intelligent Miner 、 SQL Server 2021 Data Mining、 Oracle DM等,它們都能夠提供常規(guī)的挖掘過程和挖掘模式 。 ? 另外: ? Matlab, Excel (Data mining in Excel: XLMiner)等提供了數(shù)據(jù)挖掘模塊。 ? 開源數(shù)據(jù)挖掘工具有: ? Weka、 RapidMiner(YALE)、 ARMiner以及 AlphaMiner等。 2021/11/10 ?商用軟件 (1) SPSS Clementine Clementine是 ISL (Integral Solutions Limited)公司的數(shù)據(jù)挖掘工具平臺。 1999年 SPSS公司收購了 ISL公司,2021年 10月, IBM 收購了 SPSS Inc。來自KDnuggets (查報告顯示: Clementine(20212021)有 9年摘獲數(shù)據(jù)挖掘產(chǎn)品排行榜桂冠。 2021/11/10 Clementine的特點: ? 結(jié)合商業(yè)技術(shù)可以 快速建立預(yù)測性模型 ,進而應(yīng)用到商業(yè)活動中,幫助人們改進決策過程。 ? 注重數(shù)據(jù)挖掘在整個業(yè)務(wù)流程中的應(yīng)用價值,其 功能強大的數(shù)據(jù)挖掘算法 ,使數(shù)據(jù)挖掘貫穿業(yè)務(wù)流程的始終,在縮短投資回報周期的同時提高了投資回報率。 2021/11/10 (2) SAS/Enterpreise Miner ? 支持 SAS統(tǒng)計模塊,通過大量數(shù)據(jù)挖掘算法增強了那些模塊 ? 使用 SEMMA方法學(xué)以提供一個能 支持包括關(guān)聯(lián)、聚類、決策樹、神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計回歸在內(nèi)的 數(shù)據(jù)挖掘工具 ? 既方便被初學(xué)者使用(可視化操作),也能為有經(jīng)驗的用戶使用(高效的編程) 2021/11/10 SAS的特點: ? GUI界面是 數(shù)據(jù)流驅(qū)動 的,且易于理解和使用 ? 允許一個分析者通過構(gòu)造一個 使用鏈接連接數(shù)據(jù)結(jié)點和處理結(jié)點 的 可視數(shù)據(jù)流圖 建造一個模型,允許把處理結(jié)點直接插入到數(shù)據(jù)流中 ? 支持多種模型,允許用戶比較 (評估 )不同模型并利用評估結(jié)點選擇最適合的 ? 提供了一個能產(chǎn)生 被任何 SAS應(yīng)用程序所訪問 的評分模型的 評分結(jié)點 2021/11/10 (3) IBM Intelligent Miner Intelligent Miner采用了多種 統(tǒng)計方法和挖掘算法 ,主要有:單變量曲線,雙變量統(tǒng)計,線性回歸,因子分析,主變量分析,分類,分群,關(guān)聯(lián),相似序列,序列模式,預(yù)測等。 處理的 數(shù)據(jù)類型 有: 結(jié)構(gòu)化數(shù)據(jù) (如:數(shù)據(jù)庫表,數(shù)據(jù)庫視圖,平面文件 ) 半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù) (如:顧客信件,在線服務(wù),電子郵件,網(wǎng)頁等 ) 2021/11/10 (4) Microsoft SQL Server 2021 Data Mining Microsoft SQL Server 2021 Data Mining(數(shù)據(jù)挖掘 )屬于 商務(wù)智能技術(shù) ,它可幫助您構(gòu)建復(fù)雜的分析模型,并使其與您的業(yè)務(wù)操作相集成。 Microsoft SQL Server 2021分析服務(wù)中構(gòu)建了新的數(shù)據(jù)挖掘平臺 ——一個 易于使用、容易擴展、方便訪問、非常靈活 的平臺。對于以前從未考慮過采用數(shù)據(jù)挖掘的組織機構(gòu),這無疑是個非常容易接受的解決方案。 2021/11/10 (5) MATLAB MATLAB和 Mathematica、 Maple并稱為 三大數(shù)學(xué)軟件 。在數(shù)學(xué)類科技應(yīng)用軟件中在數(shù)值計算方面首屈一指。 MATLAB可以進行 矩陣運算、繪制函數(shù)和數(shù)據(jù)、實現(xiàn)算法、創(chuàng)建用戶界面、連接其他編程語言的程序等,主要應(yīng)用于工程計算、控制設(shè)計、信號處理與通訊、圖像處理、信號檢測、金融建模設(shè)計與分析等領(lǐng)域。提供了許多數(shù)據(jù)挖掘的模塊。 2021/11/10 (6) XLMiner XLMiner是 將數(shù)據(jù)挖掘置于 Excel中 ,操作介面較為容易。藉由工具列的方式呈現(xiàn)可以幫助使用者更加快速進行數(shù)據(jù)挖掘的工作,并提供多樣的方法來進行數(shù)據(jù)的分析。在功能上, XLMiner廣泛的包含了統(tǒng)計與機器學(xué)習(xí)的技巧使使用者 能夠進行資料的分類、預(yù)測、數(shù)據(jù)挖掘探索與簡化 。 2021/11/10 ?開源軟件 (1) Weka Weka的全名是懷卡托智能分
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1