freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與clementine培訓手冊-預覽頁

2025-10-01 09:03 上一頁面

下一頁面
 

【正文】 可能 的行動 決策 結(jié)果發(fā)布 商業(yè) 理解 數(shù)據(jù) 理解 數(shù)據(jù) 準備 建立 模型 模型 評估 結(jié)果 發(fā)布 發(fā)布結(jié)果 計劃 監(jiān)測和維護 模型計劃 生成最終數(shù)據(jù) 挖掘報告 項目回顧 結(jié)果發(fā)布計劃 監(jiān)測和維護 模型計劃 最終數(shù)據(jù) 挖掘報告 數(shù)據(jù)挖掘 報告展現(xiàn) 項目檢驗 總結(jié) 商業(yè)理解是數(shù)據(jù)挖掘的起點 C2 C1 解決方案 商業(yè)價值 ? 商業(yè)需要 ? 商業(yè)理解的內(nèi)容 ? 數(shù)據(jù)挖掘能解決什么樣的商業(yè)問題? ? 數(shù)據(jù)挖掘得到的結(jié)果,是否可以采取相應的行動以提高利潤或降低成本? ? 我們期望模型能夠給我們怎樣的精確率? ? 有那些前提假定? 約束分析 ? 時間約束分析 ? 資源約束分析 ?人力資源 ?數(shù)據(jù)資源 ?軟件資源 ?硬件資源 制定特定的數(shù)據(jù)挖掘目標 制定的數(shù)據(jù)挖掘目標應具有: ? 可評估性( assessable) ? 可實現(xiàn)性( attainable) 如何給定一個數(shù)據(jù)挖掘問題 ? 是檢驗性數(shù)據(jù)挖掘還是探索性數(shù)據(jù)挖掘? ? 確定哪些是可以實現(xiàn)的數(shù)據(jù)挖掘問題 ? 結(jié)果可測度性 ? 信息(數(shù)據(jù))的可獲得性 ? 評估和控制其他相關(guān)因素的影響 數(shù)據(jù)來源與數(shù)據(jù)之間的關(guān)系 使數(shù)據(jù)適合數(shù)據(jù)挖掘 ? 對數(shù)據(jù)進行適當?shù)暮喜⒑蛥R總 ? 一般數(shù)據(jù)挖掘分析都要一個行 列 (記錄 變量)的二維表,必須把從不同數(shù)據(jù)源得到的不同格式的數(shù)據(jù)整合成這樣一張表,要求: ?所有的記錄含有排列順序一致的變量 ?所有記錄的變量信息是完整的(理想化狀態(tài),在現(xiàn)實中很難達到) 檢查數(shù)據(jù)質(zhì)量 ? 影響數(shù)據(jù)質(zhì)量的幾個主要問題 ?缺失值 ?不合理值 ?不同數(shù)據(jù)源的不一致 ?異常值 對數(shù)據(jù)進行適當?shù)淖儞Q ? 數(shù)據(jù)的標準化變換 ? 生成新的變量 ? 數(shù)據(jù)的重新編碼 ? 數(shù)據(jù)降維,從變量角度或者從記錄角度 數(shù)據(jù)挖掘模型的分類 ? 數(shù)據(jù)描述和匯總 (Data description and summarization) ? 細分 (Segmentation) ? 概念描述 (Concept descriptions) ? 分類 (Classification) ? 預測 (Prediction) ? 相關(guān)分析 (Dependency analysis) 數(shù)據(jù)挖掘技術(shù)的分類 數(shù)據(jù)挖掘 描述 預測 統(tǒng)計回歸 關(guān)聯(lián)規(guī)則 決策樹 可視化 聚類 順序關(guān)聯(lián) 匯總 神經(jīng)網(wǎng)絡 分類 時間序列預測 數(shù)據(jù)挖掘的典型結(jié)果 ——金融 ? 問題描述:預測信用水平是好還是差,銀行據(jù)此決定是否向客戶發(fā)放貸款,發(fā)放多少 ? 結(jié)果描述 :(決策樹) 收入大于 5萬元 /年 是 否 有無儲蓄帳戶 是否房主 否 是 是 否 批準 不批準 批準 數(shù)據(jù)挖掘的典型結(jié)果 ——電信 ? 問題描述:根據(jù)客戶信息,預測客戶流失可能性 ? 結(jié)果描述 :(神經(jīng)網(wǎng)絡) 輸 入 流失概率 ( ) 輸 出 男 29 3000元 /月 套餐 A 130元 /月 ………… 數(shù)據(jù)挖掘的典型結(jié)果 ——零售 ? 問題描述:如何決定超市中商品的擺放來增加銷售額 ? 結(jié)果描述 :(Web圖) 數(shù)據(jù)挖掘的典型結(jié)果 ——制造業(yè) ? 問題描述:如何對市場進行細分,使產(chǎn)品滿足最有價值客戶 ? 結(jié)果描述 :(Koholen聚類) 數(shù)據(jù)挖掘的典型結(jié)果 ——政府 ? 問題描述:如何從眾多申請經(jīng)費或者納稅中發(fā)現(xiàn)欺詐 ? 結(jié)果描述 :(回歸、神經(jīng)網(wǎng)絡) 檢驗的形式 ? 方法層面的檢驗 ? 訓練集和檢驗集 ? 不同方法的互相印證和比較 ? 模型準確性的檢驗 : ? 商業(yè)層面上的檢驗 ? 利潤率的檢驗 ? 模型結(jié)果可操作性的檢驗 ? 其他檢驗 關(guān)注那些錯誤的預測 數(shù)據(jù)挖掘不成功的幾種可能性 ? 糟糕的數(shù)據(jù) ? 組織抵制 ? 結(jié)果沒有被有效的發(fā)布 ? 得到了無用的結(jié)果 模型發(fā)布的形式 ? 書面報告 ? 數(shù)據(jù)庫更新 ? 針對特定主題的應用系統(tǒng) 數(shù)據(jù)挖掘的體系結(jié)構(gòu) 用戶界面 SPSS Data Access Pack Clementine Solutions Publisher Runtime C/S結(jié)構(gòu)或B/S結(jié)構(gòu) 發(fā)布數(shù)據(jù)挖掘模型 C/S結(jié)構(gòu) 建立數(shù)據(jù)挖掘模型 數(shù)據(jù)庫 模型庫 分析員 Clementine 二、 Clementine概述 ? Clementine在數(shù)據(jù)挖掘中的地位 ? Clementine發(fā)展歷史 ? Clementine的配置 ? Clementine操作基礎(chǔ) 數(shù)據(jù)挖掘的一般流程及數(shù)據(jù)挖掘軟件在數(shù)據(jù)挖掘過程中的地位 Better data mining results ! Insight Business problem ? What you know 數(shù)據(jù)挖掘方法論 —— 項目順利實施的保證 ? 商業(yè)理解 ? 數(shù)據(jù)理解 ? 數(shù)據(jù)準備 ? 建立模型 ? 模型評估 ? 模型發(fā)布 Clementine發(fā)展歷程 ? Clementine是 ISL (Integral Solutions Limited)公司開發(fā)的數(shù)據(jù)挖掘工具平臺 ? 1998年 SPSS公司收購了 ISL公司 ,對Clementine產(chǎn)品進行重新整合和開發(fā) ,現(xiàn)在Clementine已經(jīng)成為 SPSS公司的又一亮點 19982020 Clementine的軟件構(gòu)成 ? Clementine Client。 ? SPSS Data Access Pack。 ? C/S結(jié)構(gòu)運行 ? 以下情況必須使用 C/S結(jié)構(gòu)運行: – 單機內(nèi)存或者硬盤不夠大,難以運行大量數(shù)據(jù); – 單機上沒有或者無法配置數(shù)據(jù)連結(jié),無法從數(shù)據(jù)庫中獲取數(shù)據(jù); – 組織規(guī)則不允許下載大量數(shù)據(jù)到單機。 Clementine Client和 Clementine Server通過 SDL( Stream Description Language )之間進行信息交換, Clementine Server和Database通過 SQL語句進行信息交換。 Clementine執(zhí)行。現(xiàn)在希望建立一套系統(tǒng),能夠使得市場部人員根據(jù)用戶的幾項關(guān)鍵的個人基本信息判斷該客戶的信用級別,從而有針對性地對其采用不同的市場營銷策略。 客戶等級、信用級別、收入水平分類 中位數(shù)、累計百分比、秩相關(guān)、游程檢驗 定距 定距變量是連續(xù)變量,可以比較大小,并且進行加減運算。 ? 切比雪夫定理含義 75%的數(shù)據(jù)項與平均數(shù)的距離在 2個標準差之內(nèi); 89%的數(shù)據(jù)項與平均數(shù)的距離在 3個標準差之內(nèi);( 6西格瑪質(zhì)量管理應用) 94%的數(shù)據(jù)項與平均數(shù)的距離在 4個標準差之內(nèi)。RT ? 與時間或順序有關(guān)的關(guān)聯(lián)規(guī)則: Sequence(Capri) ? 統(tǒng)計學:回歸、 Logistic回歸 Clementine提供的模型技術(shù) ? 聚類技術(shù) – 無 Output – 無監(jiān)督的學習 – 三種方法: ? Kohonen ? 統(tǒng)計學: Kmeans、 TwoStep ? 關(guān)聯(lián)規(guī)則 – Both Input and Output – 三種方法 ? GRI, Apriori ? Sequence (Capri) Neural Networks ? 模仿人腦 ? Input/Output可以是 Num,也可以是Symbolic ? MLP與 RBFN ? 劣勢:黑匣子 規(guī)則歸納模型 ? 是決策樹算法 ? 與 Neural Net相比的優(yōu)勢 –結(jié)果好解釋 –自動刪除無意義的 Input字段 ? 主要是根據(jù)結(jié)果變量值對數(shù)據(jù)按 Input進行細分 ? 有兩種結(jié)果形式:決策樹形式或規(guī)則集形式 統(tǒng)計模型之線性回歸 ? 統(tǒng)計模型與 Neural Net相比: –嚴格的假設(shè)(如誤差正態(tài)分布) –用簡單方程表達模型,便于解釋 –可自動選擇字段 –無法捕捉 Inputs字段間的交互作用 ? 統(tǒng)計模型: –線性回歸 – Logistic回歸 –主成分分析 統(tǒng)計模型之回歸 ? 線性回歸: – 方程: Y=a+b1x1+b2x2+ +bnxn – 原理:尋找使誤差平方和最小的系數(shù) – Output字段 Numeric輸出必須是連續(xù)型 – Input字段 Numeric/Symbolic ? Logistic回歸: – 方程 – 原理:尋找使誤差平方和最小的系數(shù) – 回歸系數(shù)隨結(jié)果值而改變,與 NN, RI相比,不適合復雜數(shù)據(jù) – Output字段 Symbolic輸出必須是離散性 – Input字段 Numeric/Symbolic 統(tǒng)計模型之主成分分析 ? 數(shù)據(jù)降維技術(shù): –用少量不相關(guān)數(shù)據(jù)(主成分)來代替大量相關(guān)數(shù)據(jù)(原始數(shù)據(jù))作分析 –主成分是原始數(shù)據(jù)的線性組合 –更可能與統(tǒng)計分析方法合并使用(相對于機器學習),尤其是在多個等級分類字段 ? 可用于預測模型或聚類分析之前 聚類模型 ? 發(fā)現(xiàn)有相似值記錄的群體 ? 多用于市場(細分客戶)和其它商業(yè)應用 ? 與主成分分析相似,多用于預測模型之前 ? 無監(jiān)督學習(無 output) ? 三種聚類分析方法: – Kohonen – Kmeans – TwoStep 聚類模型 ? Kohonen聚類 – 是一種實施無監(jiān)督學習的神經(jīng)網(wǎng)絡算法 – 一維或二維網(wǎng)格,各神經(jīng)元相互連接 ? Kmeans聚類 – 又稱為快速聚類 ,(速度快,適合大量數(shù)據(jù)) – 用戶指定類別數(shù) – 與記錄順序有關(guān)(小數(shù)據(jù)量與記錄順序無關(guān),大數(shù)據(jù)需要先執(zhí)行一定程序找出數(shù)據(jù)各類別中心) ? TwoStep聚類 – 用戶指定范圍,模型根據(jù)統(tǒng)計學標準自動選擇類數(shù) – 消耗機器資源少 – 能給出一個較好的結(jié)果 關(guān)聯(lián)規(guī)則模型 ? 尋找數(shù)據(jù)中一起發(fā)生的事情 ? 與 Web相似,但以極快的速度發(fā)掘更復雜的模式 ? 與規(guī)則歸納不同之處 – 每個規(guī)則的 Output字段可能各不相同 – 規(guī)則可用于查看,但非預測 – 可生成同一 output字段的規(guī)則,用于預測 ? 與規(guī)則歸納相比,運行較慢,可增加限制條件從而提高速度 ? 兩種算法: Apriori, GRI(廣義規(guī)則探測) Sequence模型 ? 與關(guān)聯(lián)規(guī)則不同之處在于尋找與時間 /順序有關(guān)的規(guī)則 ? 應用領(lǐng)域:零售、網(wǎng)絡日志、過程改進 ? 用于字符型字段,數(shù)值被當作是字符 ? 用 CARMA算法 綜述 ? 如果要預測某個字段 有監(jiān)督的機器學習和其中一種統(tǒng)計方法(依結(jié)果字段而定) ? 如果想發(fā)現(xiàn)有相似行為(許多字段)的個體 聚類 ? 關(guān)聯(lián)規(guī)則不能直接用于預測,但它是一種用于理解數(shù)據(jù)內(nèi)模式的有用工具 ? 如果對順序、時間有興趣,可用 Sequence算法 綜述 ? 如果想進一步選擇具體的預測技術(shù),依賴于目的字段, output字段與 input字段間關(guān)系 –有一定經(jīng)驗規(guī)律,但不是規(guī)則 ? Clementine的優(yōu)勢之處在于建模的簡單 ? Clementine只能發(fā)現(xiàn)數(shù)據(jù)內(nèi)存在的關(guān)系,如果數(shù)據(jù)本身不相關(guān)聯(lián),不可能提取出一個模型 ? 數(shù)據(jù)挖掘是一個迭代、重復的過程 第四講:預測建模技術(shù) ? 神經(jīng)網(wǎng)絡模型技術(shù) ? 決策樹模型技術(shù) ? 回歸分析技術(shù) ? 模型間評估技術(shù) 預測的重要性 在當今充滿競爭的社會里 ,一個企業(yè)如果能準確地預知其未來 ,那么其生存機會將大大增加 ,預測科學就是處理對未來的預測等問題的學科。 ? 因為不同的預測方法在復雜性、數(shù)據(jù)要求以及準確程度上均不同 ,因此選擇一個合適的預測方法是很困難的。 Symbolic Output ? Distribuiton節(jié)點 —Symbolic Input amp。RT介紹 ? Camp。然后每個輸出層神經(jīng)元都做出回應。 –例如:根據(jù)各省市的各種經(jīng)濟指數(shù)將所有的省市分為幾個等級。 ; ; 。 和置信度區(qū)分 例:以預測流失為例 1. 預測客戶 A流失; 2. 預測客戶 B不流失,把握程度為 ; 3. 預測客戶 C的流失
點擊復制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1