freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與clementine培訓(xùn)手冊-資料下載頁

2025-08-22 09:03本頁面

【導(dǎo)讀】數(shù)據(jù)變的復(fù)雜會如何?女性對市場活動做出回應(yīng),數(shù)據(jù)挖掘的其他名稱。來源于機(jī)器學(xué)習(xí)/人工智能、模式識別、統(tǒng)。傳統(tǒng)技術(shù)的局限性。數(shù)據(jù)所有權(quán)和分布。數(shù)據(jù)挖掘得到的結(jié)果,是否可以采取相應(yīng)。的行動以提高利潤或降低成本?我們期望模型能夠給我們怎樣的精確率?有那些前提假定?是檢驗(yàn)性數(shù)據(jù)挖掘還是探索性數(shù)據(jù)挖掘?評估和控制其他相關(guān)因素的影響。對數(shù)據(jù)進(jìn)行適當(dāng)?shù)暮喜⒑蛥R總。一般數(shù)據(jù)挖掘分析都要一個行×列(記錄×到的不同格式的數(shù)據(jù)整合成這樣一張表,所有記錄的變量信息是完整的(理想化狀態(tài),影響數(shù)據(jù)質(zhì)量的幾個主要問題。不同數(shù)據(jù)源的不一致。數(shù)據(jù)的標(biāo)準(zhǔn)化變換

  

【正文】 一條記錄可能有多個規(guī)則可用 決策樹 決策樹拆分 可一分多 只能一分二 算法標(biāo)準(zhǔn) 信息收益比 離散測量 修剪 準(zhǔn)則不同 規(guī)定最小分支記錄數(shù) 構(gòu)建 ? 模型的準(zhǔn)確性與一般性 ? 模型的驗(yàn)證方法 –交叉驗(yàn)證(分散數(shù)據(jù)集,不斷用新數(shù)據(jù)去驗(yàn)證) ? 模型結(jié)果字段值的減少(輸入變量最終并非全部進(jìn)入模型) ? 建立多個模型: –耗時長 –難以解釋結(jié)果 構(gòu)建 決策樹型結(jié)果瀏覽和解釋 ? 結(jié)果: –決策樹、模型形式 ? 可分支的子根 ? 眾數(shù) ? 顯示例數(shù)與置信度 ? 繼承性 規(guī)則集型結(jié)果瀏覽和解釋 模型預(yù)測值生成 模型評價 預(yù)測值與實(shí)際值的比較 ? 利用 Matrix來比較預(yù)測值與實(shí)際值 模型評價 不同值的收益圖 Gains Chart for the Good Risk Category Gains Chart for the Bad Loss Category 模型總結(jié) ? Web、 Histogram等即可有效地理解模型 ? 與 Neural Net不同,沒有 Sensitivity Analysis,但同樣可以辨別字段的重要性 決策樹的優(yōu)點(diǎn) ? 可以生成可以理解的規(guī)則 ? 計(jì)算量相對來說不是很大 ? 可以處理連續(xù)和種類字段 ? 決策樹可以清晰的顯示哪些字段比較重要 決策樹的缺點(diǎn) ? 對連續(xù)性的字段比較難預(yù)測 ? 對有時間順序的數(shù)據(jù),需要很多預(yù)處理的工作 ? 當(dāng)類別太多時,錯誤可能就會增加的比較快(對分類變量重新劃分,二分或者數(shù)據(jù)降維, spss聚類分析法) ? 一般的算法分類的時候,只是根據(jù)一個字段來分類(假設(shè)各字段間相關(guān)度不是很高) Chapter 10 模型比較 Chpater 10 模型比較 ? 目的 – 掌握如何利用 Analysis節(jié)點(diǎn)進(jìn)行模型的評估 – 掌握如何利用驗(yàn)證數(shù)據(jù)集比較不同模型 ? 內(nèi)容 – Analysis節(jié)點(diǎn)用于比較模型 – Evaluation節(jié)點(diǎn)用于比較模型 – 利用驗(yàn)證數(shù)據(jù)集進(jìn)行模型比較 ? 數(shù)據(jù) – – Analysis節(jié)點(diǎn)用于比較模型 Analysis節(jié)點(diǎn)用于比較模型 ? 評估多個模型 ? 評估各模型結(jié)果的一致性 Train Validation Evaluation節(jié)點(diǎn)用于比較模型 Evaluation節(jié)點(diǎn)用于比較模型 ? 評估多個模型 ? 評估各模型結(jié)果的一致性 Train Validation 利用驗(yàn)證數(shù)據(jù)集進(jìn)行模型比較 第五講主要內(nèi)容 ? 聚類分析模型技術(shù) ? 關(guān)聯(lián)規(guī)則模型技術(shù) ? 序列探測模型技術(shù) Chapter 11 Kohonen Networks Chpater 11 Kohonen Networks ? 目的 – 掌握 Kohonen神經(jīng)網(wǎng)絡(luò)的建立、結(jié)果解釋 – 掌握 Kohonen節(jié)點(diǎn) ? 內(nèi)容 – Kohonen節(jié)點(diǎn)介紹 – 構(gòu)建 Kohonen Networks – 結(jié)果解釋 – 為每條記錄產(chǎn)生類別字段 – 結(jié)果理解 ? 數(shù)據(jù) – Kohonen網(wǎng)絡(luò)結(jié)構(gòu) 輸入數(shù)據(jù)被展示在輸入層中,其數(shù)據(jù)值被傳送到輸出層。然后每個輸出層神經(jīng)元都做出回應(yīng)。回應(yīng)最強(qiáng)烈的輸出層神經(jīng)元稱為嬴家,它的回應(yīng)就做為輸入數(shù)據(jù)的結(jié)果。 Kohonen節(jié)點(diǎn)介紹 ? 聚類分析 –發(fā)現(xiàn)數(shù)據(jù)的總體結(jié)構(gòu)及相互關(guān)系 –類間差別,類內(nèi)相似 構(gòu)建 Kohonen Networks ? Kohonen節(jié)點(diǎn) –字段方向設(shè)置: ? 購買產(chǎn)品與否 In ? 其它 None / Out / Both –反饋圖:紅色越深,記錄越多 –指定類別數(shù):長 *寬 結(jié)果解釋 ? Kohonen結(jié)果 – X軸 – Y軸 為每條記錄產(chǎn)生類別字段 ? $ KXKohonen ? $ KYKohonen ? Cluster=$ KXKohonen$ KYKohonen 結(jié)果理解 ? 各 Cluster人群多少 條圖 ? 各 Cluster人群的一般特征 –年齡 條圖 –性別 條圖 –購買產(chǎn)品 Web圖 –孩子 –婚姻狀態(tài) –工作狀態(tài) ? 各 Cluster人群總述 各種聚類方法比較 聚類分析之我見 ? 聚類分析的優(yōu)勢在于:它能夠在我們對數(shù)據(jù)了解很少時,提供一種了解數(shù)據(jù)的方法。發(fā)現(xiàn)個體與變量間的綜合關(guān)系。 –例如:根據(jù)各省市的各種經(jīng)濟(jì)指數(shù)將所有的省市分為幾個等級。 –例如:根據(jù)各種指數(shù)的取值范圍,將模式相近的指數(shù)的聚為一類。 ? 聚類分析的缺陷在于:各類之間均值等可能有差別,但每個個體劃歸哪類更多地依賴于數(shù)字,解釋起來比較困難。 Chapter 12 關(guān)聯(lián)規(guī)則 Chpater 12 關(guān)聯(lián)規(guī)則 ? 目的 – 掌握關(guān)聯(lián)規(guī)則在 Clementine中的建立、結(jié)果解釋 – 掌握 Apriori節(jié)點(diǎn) 無監(jiān)督的探索性模型 ? 內(nèi)容 – 關(guān)聯(lián)規(guī)則簡介 – Apriori節(jié)點(diǎn)及結(jié)果解釋 – 產(chǎn)生特定結(jié)果的規(guī)則集 – 特定結(jié)果規(guī)則集應(yīng)用于各記錄 ? 數(shù)據(jù) – 關(guān)聯(lián)規(guī)則簡介 ? 解決問題 ?考慮的是關(guān)聯(lián),得到的是規(guī)則,處理變量之間的相關(guān),而非客戶之間 ) –買香煙的人是否傾向于也買巧克力或啤酒 –高血脂的人是否也常伴有高血壓 –買車險的人是否也傾向于買房險 ? 節(jié)點(diǎn) – GRINumeric字段可作為輸入字段,可用于連續(xù)型變量 – Apriori只接受 Symbolic字段(只能用字符型輸入)作為輸入字段 ? 特殊之處:產(chǎn)生的模型不能直接加入數(shù)據(jù)流 Apriori節(jié)點(diǎn)及結(jié)果解釋 ? Apriori節(jié)點(diǎn)設(shè)置 –字段類型及方向:無主次先后之分 – Content1flagboth – Content2flagboth – Content3flagboth – Contentnflagboth ? 結(jié)果: –有多少人購買了香煙?占總?cè)藬?shù)的百分比 –其中,有多少人購買了巧克力?占多少百分比 Instances(滿足記錄數(shù)) Support Confidence Consequent Antecedent1 Antecedent2 2051 巧克力 香煙 Apriori節(jié)點(diǎn)及結(jié)果解釋 產(chǎn)生特定結(jié)果的規(guī)則集 ? Generate menu – Rule set ? View 特定結(jié)果規(guī)則集應(yīng)用于各記錄 Chapter 13 序列檢測 Chpater 13 序列檢測 ? 目的 – 掌握 Clementine如何對與時間序列有關(guān)的數(shù)據(jù)進(jìn)行建模 – 熟悉 Sequence節(jié)點(diǎn) 也會存在規(guī)則的重復(fù) ? 內(nèi)容 – 序列檢測簡介 – 序列檢測所要求的數(shù)據(jù)結(jié)構(gòu) – 序列檢測模型 – Sequence節(jié)點(diǎn)及結(jié)果解釋 – Sequence結(jié)果用于各條數(shù)據(jù) ? 數(shù)據(jù) – 序列檢測簡介 ? 解決的問題:與順序有關(guān)的關(guān)聯(lián)規(guī)則 – Antecedent1?Antecedent2 ?Consequent ? 可用節(jié)點(diǎn): Sequence、 Capri 序列檢測所要求的數(shù)據(jù)結(jié)構(gòu) ? 數(shù)據(jù)結(jié)構(gòu) 1 –一個客戶一次購買多個產(chǎn)品算一條記錄 數(shù)據(jù)結(jié)構(gòu) 2 –一個客戶一次購買多個產(chǎn)品算多條記錄 序列檢測模型 ? Sequence與 Capri二者各有優(yōu)勢 ? 二者使用不同的算法 ? 均可指定順序檢測標(biāo)準(zhǔn) ? 對于“ A1‖?‖A2‖?‖C‖, Capri可以不包含下列 –“ A1‖?‖A2‖ –‖A2‖?‖C‖ –―A1‖?‖C‖ Sequence節(jié)點(diǎn)及結(jié)果解釋 ? Sequence節(jié)點(diǎn)設(shè)置: –字段類型及方向 ? ID fieldNumeric/SymbolicAny ? Time fieldRangeIn ? Content fieldsSetIn/out/both多個一致 Sequence節(jié)點(diǎn)及結(jié)果解釋 ? 結(jié)果: –在先買了 A1 ,又買了 A2 的客戶中, 60%的人后來買 了 C; – 12%的客戶( 48例)是先買了 A1 ,又買了 A2 ,最后又買了 C –可對規(guī)則進(jìn)行重新排序 Sequence節(jié)點(diǎn)及結(jié)果解釋 Sequence結(jié)果用于各條數(shù)據(jù) 總結(jié) ? 業(yè)務(wù)問題是關(guān)鍵 ? 歷史數(shù)據(jù)是支撐 ? 業(yè)務(wù)思路、數(shù)據(jù)分析思路的轉(zhuǎn)變 ? 數(shù)據(jù)分析的常態(tài)與技巧 ? 如何使用數(shù)據(jù)分析應(yīng)用結(jié)果是業(yè)務(wù)思路的延伸 ? 方法永遠(yuǎn)是方法,工具永遠(yuǎn)是工具 五、 Clementine組合模型技巧 。 ; ; 。 Clementine中提供的模型概述 Data Mining Model Supervised Model (Predictive Model) Unsupervised Model Data Reduction Neural Networks Camp。RT(CART) Regression Logistic regression Kohonen Kmeans TwoStep PCA(Principal Component Analysis) Factor Clustering APRIORI GRI Sequence Associations 離散變量預(yù)測問題是最重要的一類問題 ? 離散變量預(yù)測問題也就是分類問題 ? 在 Clementine( )中有很多模型可以做分類問題 – Neural Net – – Camp。RT – Logistic ? 連續(xù)變量預(yù)測問題可以通過某種形式轉(zhuǎn)化為離散變量預(yù)測問題 ? 多值變量問題可以轉(zhuǎn)化為兩值預(yù)測問題 離散值預(yù)測模型的幾個重要檢驗(yàn)指標(biāo) 離散值預(yù)測模型的幾個重要檢驗(yàn)圖形 ( Gains) ( Response) ( Lift) ( Profit) ( ROI) 離散值預(yù)測模型的幾個重要檢驗(yàn)圖形 什么是組合模型 ? 在數(shù)據(jù)挖掘模型中,每種模型都有各自的優(yōu)點(diǎn)和缺陷,為了更好的利用模型的優(yōu)點(diǎn),在 Clementine中可以把不同模型通過一定的方式組合在一起以解決特定的問題 ? 為了提高模型的精確度,我們可以把多個模型通過某種方式組合在一起 組合模型類型 ? 為了提高模型的可解釋性,可以應(yīng)用 對預(yù)測或者聚類結(jié)果進(jìn)行解釋 ? 為了得到各指標(biāo)對模型影響的重要程度,可以應(yīng)用神經(jīng)網(wǎng)絡(luò)對指標(biāo)重要性進(jìn)行分析 ? 可以通過模型的特定組合提高模型的準(zhǔn)確性 ——下面以數(shù)據(jù)挖掘模型中最常用的二值預(yù)測來說明組合模型如何能夠提供模型的準(zhǔn)確性 二值預(yù)測是數(shù)據(jù)挖掘中重要問題 ? 二值預(yù)測問題是個非常常見的數(shù)據(jù)挖掘問題 流失、客戶獲得、欠費(fèi)、欺詐 …… ? 多值預(yù)測可以轉(zhuǎn)化為二值預(yù)測問題 ? 連續(xù)預(yù)測問題可以轉(zhuǎn)化為多值預(yù)測問題 二值預(yù)測結(jié)果的可能表達(dá)方式 1. T or F,我們稱為預(yù)測值; 2. 預(yù)測值為 T,預(yù)測準(zhǔn)確率為 P;或者預(yù)測值為 F,預(yù)測準(zhǔn)確率為 P; 3. T的概率為 p,稱為預(yù)測評分 (scoring)。 和置信度區(qū)分 例:以預(yù)測流失為例 1. 預(yù)測客戶 A流失; 2. 預(yù)測客戶 B不流失,把握程度為 ; 3. 預(yù)測客戶 C的流失概率為 。 多值( set)問題向二值問題的轉(zhuǎn)化( flag) ? 多值集合變量向幾個二值變量的轉(zhuǎn)化(設(shè)為標(biāo)志) ? 由 Clementine中神經(jīng)網(wǎng)絡(luò)算法想起的 …… 多個輸出變量; 如果把二值變量問題再轉(zhuǎn)化成多值變量問題。 連續(xù)預(yù)測問題向多值預(yù)測問題的轉(zhuǎn)化 ? 從 Camp。RT算法想到的 …… 用分級節(jié)點(diǎn) ? 把連續(xù)預(yù)測問題轉(zhuǎn)化為多值預(yù)測問題 二值預(yù)測的結(jié)果表述 ? T or F ? 評分 (scoring) ? T- ? F- ? 二值預(yù)測結(jié)果的評價 ? ( 1)總體準(zhǔn)確率 ? ( 2)命中率 ? ( 3)覆蓋率 ?1 . 0 0 . 0NoY e sNo Yes 覆蓋率 命中率 Clementine中預(yù)測二值問題 ? Neural Net( $Noute ,$NCoute
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1