freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與clementine培訓(xùn)手冊(更新版)

2025-10-26 09:03上一頁面

下一頁面
  

【正文】 據(jù) 確定分析包含 /剔除數(shù)據(jù) 數(shù)據(jù)集 數(shù)據(jù)集 描述 數(shù)據(jù)清理 數(shù)據(jù)清理報(bào)告 數(shù)據(jù)重構(gòu) 生成新的變量(字段) 生成新的記錄 整合數(shù)據(jù) 合并相關(guān)數(shù)據(jù) 格式化數(shù)據(jù) 改變數(shù)據(jù)格式,適應(yīng)分析 建立模型 商業(yè) 理解 數(shù)據(jù) 理解 數(shù)據(jù) 準(zhǔn)備 建立 模型 模型 評估 結(jié)果 發(fā)布 選擇建模 技術(shù) 產(chǎn)生檢驗(yàn) 設(shè)計(jì) 建立模型 評價(jià)模型 模型 技術(shù) 模型假設(shè) 檢驗(yàn)設(shè)計(jì) 參數(shù)設(shè)定 建模 模型評價(jià) 參數(shù)設(shè)定 的修訂 模型描述 模型評估 商業(yè) 理解 數(shù)據(jù) 理解 數(shù)據(jù) 準(zhǔn)備 建立 模型 模型 評估 結(jié)果 發(fā)布 結(jié)果評估 數(shù)據(jù)挖掘 過程回顧 確定下一 步的工作 評估數(shù)據(jù) 挖掘結(jié)果 被認(rèn)可的模型 數(shù)據(jù)挖掘過程 的回顧 列出可能 的行動(dòng) 決策 結(jié)果發(fā)布 商業(yè) 理解 數(shù)據(jù) 理解 數(shù)據(jù) 準(zhǔn)備 建立 模型 模型 評估 結(jié)果 發(fā)布 發(fā)布結(jié)果 計(jì)劃 監(jiān)測和維護(hù) 模型計(jì)劃 生成最終數(shù)據(jù) 挖掘報(bào)告 項(xiàng)目回顧 結(jié)果發(fā)布計(jì)劃 監(jiān)測和維護(hù) 模型計(jì)劃 最終數(shù)據(jù) 挖掘報(bào)告 數(shù)據(jù)挖掘 報(bào)告展現(xiàn) 項(xiàng)目檢驗(yàn) 總結(jié) 商業(yè)理解是數(shù)據(jù)挖掘的起點(diǎn) C2 C1 解決方案 商業(yè)價(jià)值 ? 商業(yè)需要 ? 商業(yè)理解的內(nèi)容 ? 數(shù)據(jù)挖掘能解決什么樣的商業(yè)問題? ? 數(shù)據(jù)挖掘得到的結(jié)果,是否可以采取相應(yīng)的行動(dòng)以提高利潤或降低成本? ? 我們期望模型能夠給我們怎樣的精確率? ? 有那些前提假定? 約束分析 ? 時(shí)間約束分析 ? 資源約束分析 ?人力資源 ?數(shù)據(jù)資源 ?軟件資源 ?硬件資源 制定特定的數(shù)據(jù)挖掘目標(biāo) 制定的數(shù)據(jù)挖掘目標(biāo)應(yīng)具有: ? 可評估性( assessable) ? 可實(shí)現(xiàn)性( attainable) 如何給定一個(gè)數(shù)據(jù)挖掘問題 ? 是檢驗(yàn)性數(shù)據(jù)挖掘還是探索性數(shù)據(jù)挖掘? ? 確定哪些是可以實(shí)現(xiàn)的數(shù)據(jù)挖掘問題 ? 結(jié)果可測度性 ? 信息(數(shù)據(jù))的可獲得性 ? 評估和控制其他相關(guān)因素的影響 數(shù)據(jù)來源與數(shù)據(jù)之間的關(guān)系 使數(shù)據(jù)適合數(shù)據(jù)挖掘 ? 對數(shù)據(jù)進(jìn)行適當(dāng)?shù)暮喜⒑蛥R總 ? 一般數(shù)據(jù)挖掘分析都要一個(gè)行 列 (記錄 變量)的二維表,必須把從不同數(shù)據(jù)源得到的不同格式的數(shù)據(jù)整合成這樣一張表,要求: ?所有的記錄含有排列順序一致的變量 ?所有記錄的變量信息是完整的(理想化狀態(tài),在現(xiàn)實(shí)中很難達(dá)到) 檢查數(shù)據(jù)質(zhì)量 ? 影響數(shù)據(jù)質(zhì)量的幾個(gè)主要問題 ?缺失值 ?不合理值 ?不同數(shù)據(jù)源的不一致 ?異常值 對數(shù)據(jù)進(jìn)行適當(dāng)?shù)淖儞Q ? 數(shù)據(jù)的標(biāo)準(zhǔn)化變換 ? 生成新的變量 ? 數(shù)據(jù)的重新編碼 ? 數(shù)據(jù)降維,從變量角度或者從記錄角度 數(shù)據(jù)挖掘模型的分類 ? 數(shù)據(jù)描述和匯總 (Data description and summarization) ? 細(xì)分 (Segmentation) ? 概念描述 (Concept descriptions) ? 分類 (Classification) ? 預(yù)測 (Prediction) ? 相關(guān)分析 (Dependency analysis) 數(shù)據(jù)挖掘技術(shù)的分類 數(shù)據(jù)挖掘 描述 預(yù)測 統(tǒng)計(jì)回歸 關(guān)聯(lián)規(guī)則 決策樹 可視化 聚類 順序關(guān)聯(lián) 匯總 神經(jīng)網(wǎng)絡(luò) 分類 時(shí)間序列預(yù)測 數(shù)據(jù)挖掘的典型結(jié)果 ——金融 ? 問題描述:預(yù)測信用水平是好還是差,銀行據(jù)此決定是否向客戶發(fā)放貸款,發(fā)放多少 ? 結(jié)果描述 :(決策樹) 收入大于 5萬元 /年 是 否 有無儲(chǔ)蓄帳戶 是否房主 否 是 是 否 批準(zhǔn) 不批準(zhǔn) 批準(zhǔn) 數(shù)據(jù)挖掘的典型結(jié)果 ——電信 ? 問題描述:根據(jù)客戶信息,預(yù)測客戶流失可能性 ? 結(jié)果描述 :(神經(jīng)網(wǎng)絡(luò)) 輸 入 流失概率 ( ) 輸 出 男 29 3000元 /月 套餐 A 130元 /月 ………… 數(shù)據(jù)挖掘的典型結(jié)果 ——零售 ? 問題描述:如何決定超市中商品的擺放來增加銷售額 ? 結(jié)果描述 :(Web圖) 數(shù)據(jù)挖掘的典型結(jié)果 ——制造業(yè) ? 問題描述:如何對市場進(jìn)行細(xì)分,使產(chǎn)品滿足最有價(jià)值客戶 ? 結(jié)果描述 :(Koholen聚類) 數(shù)據(jù)挖掘的典型結(jié)果 ——政府 ? 問題描述:如何從眾多申請經(jīng)費(fèi)或者納稅中發(fā)現(xiàn)欺詐 ? 結(jié)果描述 :(回歸、神經(jīng)網(wǎng)絡(luò)) 檢驗(yàn)的形式 ? 方法層面的檢驗(yàn) ? 訓(xùn)練集和檢驗(yàn)集 ? 不同方法的互相印證和比較 ? 模型準(zhǔn)確性的檢驗(yàn) : ? 商業(yè)層面上的檢驗(yàn) ? 利潤率的檢驗(yàn) ? 模型結(jié)果可操作性的檢驗(yàn) ? 其他檢驗(yàn) 關(guān)注那些錯(cuò)誤的預(yù)測 數(shù)據(jù)挖掘不成功的幾種可能性 ? 糟糕的數(shù)據(jù) ? 組織抵制 ? 結(jié)果沒有被有效的發(fā)布 ? 得到了無用的結(jié)果 模型發(fā)布的形式 ? 書面報(bào)告 ? 數(shù)據(jù)庫更新 ? 針對特定主題的應(yīng)用系統(tǒng) 數(shù)據(jù)挖掘的體系結(jié)構(gòu) 用戶界面 SPSS Data Access Pack Clementine Solutions Publisher Runtime C/S結(jié)構(gòu)或B/S結(jié)構(gòu) 發(fā)布數(shù)據(jù)挖掘模型 C/S結(jié)構(gòu) 建立數(shù)據(jù)挖掘模型 數(shù)據(jù)庫 模型庫 分析員 Clementine 二、 Clementine概述 ? Clementine在數(shù)據(jù)挖掘中的地位 ? Clementine發(fā)展歷史 ? Clementine的配置 ? Clementine操作基礎(chǔ) 數(shù)據(jù)挖掘的一般流程及數(shù)據(jù)挖掘軟件在數(shù)據(jù)挖掘過程中的地位 Better data mining results ! Insight Business problem ? What you know 數(shù)據(jù)挖掘方法論 —— 項(xiàng)目順利實(shí)施的保證 ? 商業(yè)理解 ? 數(shù)據(jù)理解 ? 數(shù)據(jù)準(zhǔn)備 ? 建立模型 ? 模型評估 ? 模型發(fā)布 Clementine發(fā)展歷程 ? Clementine是 ISL (Integral Solutions Limited)公司開發(fā)的數(shù)據(jù)挖掘工具平臺(tái) ? 1998年 SPSS公司收購了 ISL公司 ,對Clementine產(chǎn)品進(jìn)行重新整合和開發(fā) ,現(xiàn)在Clementine已經(jīng)成為 SPSS公司的又一亮點(diǎn) 19982020 Clementine的軟件構(gòu)成 ? Clementine Client。 ? C/S結(jié)構(gòu)運(yùn)行 ? 以下情況必須使用 C/S結(jié)構(gòu)運(yùn)行: – 單機(jī)內(nèi)存或者硬盤不夠大,難以運(yùn)行大量數(shù)據(jù); – 單機(jī)上沒有或者無法配置數(shù)據(jù)連結(jié),無法從數(shù)據(jù)庫中獲取數(shù)據(jù); – 組織規(guī)則不允許下載大量數(shù)據(jù)到單機(jī)。 Clementine執(zhí)行。 客戶等級、信用級別、收入水平分類 中位數(shù)、累計(jì)百分比、秩相關(guān)、游程檢驗(yàn) 定距 定距變量是連續(xù)變量,可以比較大小,并且進(jìn)行加減運(yùn)算。RT ? 與時(shí)間或順序有關(guān)的關(guān)聯(lián)規(guī)則: Sequence(Capri) ? 統(tǒng)計(jì)學(xué):回歸、 Logistic回歸 Clementine提供的模型技術(shù) ? 聚類技術(shù) – 無 Output – 無監(jiān)督的學(xué)習(xí) – 三種方法: ? Kohonen ? 統(tǒng)計(jì)學(xué): Kmeans、 TwoStep ? 關(guān)聯(lián)規(guī)則 – Both Input and Output – 三種方法 ? GRI, Apriori ? Sequence (Capri) Neural Networks ? 模仿人腦 ? Input/Output可以是 Num,也可以是Symbolic ? MLP與 RBFN ? 劣勢:黑匣子 規(guī)則歸納模型 ? 是決策樹算法 ? 與 Neural Net相比的優(yōu)勢 –結(jié)果好解釋 –自動(dòng)刪除無意義的 Input字段 ? 主要是根據(jù)結(jié)果變量值對數(shù)據(jù)按 Input進(jìn)行細(xì)分 ? 有兩種結(jié)果形式:決策樹形式或規(guī)則集形式 統(tǒng)計(jì)模型之線性回歸 ? 統(tǒng)計(jì)模型與 Neural Net相比: –嚴(yán)格的假設(shè)(如誤差正態(tài)分布) –用簡單方程表達(dá)模型,便于解釋 –可自動(dòng)選擇字段 –無法捕捉 Inputs字段間的交互作用 ? 統(tǒng)計(jì)模型: –線性回歸 – Logistic回歸 –主成分分析 統(tǒng)計(jì)模型之回歸 ? 線性回歸: – 方程: Y=a+b1x1+b2x2+ +bnxn – 原理:尋找使誤差平方和最小的系數(shù) – Output字段 Numeric輸出必須是連續(xù)型 – Input字段 Numeric/Symbolic ? Logistic回歸: – 方程 – 原理:尋找使誤差平方和最小的系數(shù) – 回歸系數(shù)隨結(jié)果值而改變,與 NN, RI相比,不適合復(fù)雜數(shù)據(jù) – Output字段 Symbolic輸出必須是離散性 – Input字段 Numeric/Symbolic 統(tǒng)計(jì)模型之主成分分析 ? 數(shù)據(jù)降維技術(shù): –用少量不相關(guān)數(shù)據(jù)(主成分)來代替大量相關(guān)數(shù)據(jù)(原始數(shù)據(jù))作分析 –主成分是原始數(shù)據(jù)的線性組合 –更可能與統(tǒng)計(jì)分析方法合并使用(相對于機(jī)器學(xué)習(xí)),尤其是在多個(gè)等級分類字段 ? 可用于預(yù)測模型或聚類分析之前 聚類模型 ? 發(fā)現(xiàn)有相似值記錄的群體 ? 多用于市場(細(xì)分客戶)和其它商業(yè)應(yīng)用 ? 與主成分分析相似,多用于預(yù)測模型之前 ? 無監(jiān)督學(xué)習(xí)(無 output) ? 三種聚類分析方法: – Kohonen – Kmeans – TwoStep 聚類模型 ? Kohonen聚類 – 是一種實(shí)施無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法 – 一維或二維網(wǎng)格,各神經(jīng)元相互連接 ? Kmeans聚類 – 又稱為快速聚類 ,(速度快,適合大量數(shù)據(jù)) – 用戶指定類別數(shù) – 與記錄順序有關(guān)(小數(shù)據(jù)量與記錄順序無關(guān),大數(shù)據(jù)需要先執(zhí)行一定程序找出數(shù)據(jù)各類別中心) ? TwoStep聚類 – 用戶指定范圍,模型根據(jù)統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)自動(dòng)選擇類數(shù) – 消耗機(jī)器資源少 – 能給出一個(gè)較好的結(jié)果 關(guān)聯(lián)規(guī)則模型 ? 尋找數(shù)據(jù)中一起發(fā)生的事情 ? 與 Web相似,但以極快的速度發(fā)掘更復(fù)雜的模式 ? 與規(guī)則歸納不同之處 – 每個(gè)規(guī)則的 Output字段可能各不相同 – 規(guī)則可用于查看,但非預(yù)測 – 可生成同一 output字段的規(guī)則,用于預(yù)測 ? 與規(guī)則歸納相比,運(yùn)行較慢,可增加限制條件從而提高速度 ? 兩種算法: Apriori, GRI(廣義規(guī)則探測) Sequence模型 ? 與關(guān)聯(lián)規(guī)則不同之處在于尋找與時(shí)間 /順序有關(guān)的規(guī)則 ? 應(yīng)用領(lǐng)域:零售、網(wǎng)絡(luò)日志、過程改進(jìn) ? 用于字符型字段,數(shù)值被當(dāng)作是字符 ? 用 CARMA算法 綜述 ? 如果要預(yù)測某個(gè)字段 有監(jiān)督的機(jī)器學(xué)習(xí)和其中一種統(tǒng)計(jì)方法(依結(jié)果字段而定) ? 如果想發(fā)現(xiàn)有相似行為(許多字段)的個(gè)體 聚類 ? 關(guān)聯(lián)規(guī)則不能直接用于預(yù)測,但它是一種用于理解數(shù)據(jù)內(nèi)模式的有用工具 ? 如果對順序、時(shí)間有興趣,可用 Sequence算法 綜述 ? 如果想進(jìn)一步選擇具體的預(yù)測技術(shù),依賴于目的字段, output字段與 input字段間關(guān)系 –有一定經(jīng)驗(yàn)規(guī)律,但不是規(guī)則 ? Clementine的優(yōu)勢之處在于建模的簡單 ? Clementine只能發(fā)現(xiàn)數(shù)據(jù)內(nèi)存在的關(guān)系,如果數(shù)據(jù)本身不相關(guān)聯(lián),不可能提取出一個(gè)模型 ? 數(shù)據(jù)挖掘是一個(gè)迭代、重復(fù)的過程 第四講:預(yù)測建模技術(shù) ? 神經(jīng)網(wǎng)絡(luò)模型技術(shù) ? 決策樹模型技術(shù) ? 回歸分析技術(shù) ? 模型間評估技術(shù) 預(yù)測的重要性 在當(dāng)今充滿競爭的社會(huì)里 ,一個(gè)企業(yè)如果能準(zhǔn)確地預(yù)知其未來 ,那么其生存機(jī)會(huì)將大大增加 ,預(yù)測科學(xué)就是處理對未來的預(yù)測等問題的學(xué)科。 Symbolic Output ? Distribuiton節(jié)點(diǎn) —Symbolic Input amp。然后每個(gè)輸出層神經(jīng)元都做出回應(yīng)。 ; ;
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1