freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與clementine培訓手冊-資料下載頁

2025-08-22 09:03本頁面

【導讀】數(shù)據(jù)變的復雜會如何?女性對市場活動做出回應,數(shù)據(jù)挖掘的其他名稱。來源于機器學習/人工智能、模式識別、統(tǒng)。傳統(tǒng)技術的局限性。數(shù)據(jù)所有權和分布。數(shù)據(jù)挖掘得到的結(jié)果,是否可以采取相應。的行動以提高利潤或降低成本?我們期望模型能夠給我們怎樣的精確率?有那些前提假定?是檢驗性數(shù)據(jù)挖掘還是探索性數(shù)據(jù)挖掘?評估和控制其他相關因素的影響。對數(shù)據(jù)進行適當?shù)暮喜⒑蛥R總。一般數(shù)據(jù)挖掘分析都要一個行×列(記錄×到的不同格式的數(shù)據(jù)整合成這樣一張表,所有記錄的變量信息是完整的(理想化狀態(tài),影響數(shù)據(jù)質(zhì)量的幾個主要問題。不同數(shù)據(jù)源的不一致。數(shù)據(jù)的標準化變換

  

【正文】 一條記錄可能有多個規(guī)則可用 決策樹 決策樹拆分 可一分多 只能一分二 算法標準 信息收益比 離散測量 修剪 準則不同 規(guī)定最小分支記錄數(shù) 構(gòu)建 ? 模型的準確性與一般性 ? 模型的驗證方法 –交叉驗證(分散數(shù)據(jù)集,不斷用新數(shù)據(jù)去驗證) ? 模型結(jié)果字段值的減少(輸入變量最終并非全部進入模型) ? 建立多個模型: –耗時長 –難以解釋結(jié)果 構(gòu)建 決策樹型結(jié)果瀏覽和解釋 ? 結(jié)果: –決策樹、模型形式 ? 可分支的子根 ? 眾數(shù) ? 顯示例數(shù)與置信度 ? 繼承性 規(guī)則集型結(jié)果瀏覽和解釋 模型預測值生成 模型評價 預測值與實際值的比較 ? 利用 Matrix來比較預測值與實際值 模型評價 不同值的收益圖 Gains Chart for the Good Risk Category Gains Chart for the Bad Loss Category 模型總結(jié) ? Web、 Histogram等即可有效地理解模型 ? 與 Neural Net不同,沒有 Sensitivity Analysis,但同樣可以辨別字段的重要性 決策樹的優(yōu)點 ? 可以生成可以理解的規(guī)則 ? 計算量相對來說不是很大 ? 可以處理連續(xù)和種類字段 ? 決策樹可以清晰的顯示哪些字段比較重要 決策樹的缺點 ? 對連續(xù)性的字段比較難預測 ? 對有時間順序的數(shù)據(jù),需要很多預處理的工作 ? 當類別太多時,錯誤可能就會增加的比較快(對分類變量重新劃分,二分或者數(shù)據(jù)降維, spss聚類分析法) ? 一般的算法分類的時候,只是根據(jù)一個字段來分類(假設各字段間相關度不是很高) Chapter 10 模型比較 Chpater 10 模型比較 ? 目的 – 掌握如何利用 Analysis節(jié)點進行模型的評估 – 掌握如何利用驗證數(shù)據(jù)集比較不同模型 ? 內(nèi)容 – Analysis節(jié)點用于比較模型 – Evaluation節(jié)點用于比較模型 – 利用驗證數(shù)據(jù)集進行模型比較 ? 數(shù)據(jù) – – Analysis節(jié)點用于比較模型 Analysis節(jié)點用于比較模型 ? 評估多個模型 ? 評估各模型結(jié)果的一致性 Train Validation Evaluation節(jié)點用于比較模型 Evaluation節(jié)點用于比較模型 ? 評估多個模型 ? 評估各模型結(jié)果的一致性 Train Validation 利用驗證數(shù)據(jù)集進行模型比較 第五講主要內(nèi)容 ? 聚類分析模型技術 ? 關聯(lián)規(guī)則模型技術 ? 序列探測模型技術 Chapter 11 Kohonen Networks Chpater 11 Kohonen Networks ? 目的 – 掌握 Kohonen神經(jīng)網(wǎng)絡的建立、結(jié)果解釋 – 掌握 Kohonen節(jié)點 ? 內(nèi)容 – Kohonen節(jié)點介紹 – 構(gòu)建 Kohonen Networks – 結(jié)果解釋 – 為每條記錄產(chǎn)生類別字段 – 結(jié)果理解 ? 數(shù)據(jù) – Kohonen網(wǎng)絡結(jié)構(gòu) 輸入數(shù)據(jù)被展示在輸入層中,其數(shù)據(jù)值被傳送到輸出層。然后每個輸出層神經(jīng)元都做出回應?;貞顝娏业妮敵鰧由窠?jīng)元稱為嬴家,它的回應就做為輸入數(shù)據(jù)的結(jié)果。 Kohonen節(jié)點介紹 ? 聚類分析 –發(fā)現(xiàn)數(shù)據(jù)的總體結(jié)構(gòu)及相互關系 –類間差別,類內(nèi)相似 構(gòu)建 Kohonen Networks ? Kohonen節(jié)點 –字段方向設置: ? 購買產(chǎn)品與否 In ? 其它 None / Out / Both –反饋圖:紅色越深,記錄越多 –指定類別數(shù):長 *寬 結(jié)果解釋 ? Kohonen結(jié)果 – X軸 – Y軸 為每條記錄產(chǎn)生類別字段 ? $ KXKohonen ? $ KYKohonen ? Cluster=$ KXKohonen$ KYKohonen 結(jié)果理解 ? 各 Cluster人群多少 條圖 ? 各 Cluster人群的一般特征 –年齡 條圖 –性別 條圖 –購買產(chǎn)品 Web圖 –孩子 –婚姻狀態(tài) –工作狀態(tài) ? 各 Cluster人群總述 各種聚類方法比較 聚類分析之我見 ? 聚類分析的優(yōu)勢在于:它能夠在我們對數(shù)據(jù)了解很少時,提供一種了解數(shù)據(jù)的方法。發(fā)現(xiàn)個體與變量間的綜合關系。 –例如:根據(jù)各省市的各種經(jīng)濟指數(shù)將所有的省市分為幾個等級。 –例如:根據(jù)各種指數(shù)的取值范圍,將模式相近的指數(shù)的聚為一類。 ? 聚類分析的缺陷在于:各類之間均值等可能有差別,但每個個體劃歸哪類更多地依賴于數(shù)字,解釋起來比較困難。 Chapter 12 關聯(lián)規(guī)則 Chpater 12 關聯(lián)規(guī)則 ? 目的 – 掌握關聯(lián)規(guī)則在 Clementine中的建立、結(jié)果解釋 – 掌握 Apriori節(jié)點 無監(jiān)督的探索性模型 ? 內(nèi)容 – 關聯(lián)規(guī)則簡介 – Apriori節(jié)點及結(jié)果解釋 – 產(chǎn)生特定結(jié)果的規(guī)則集 – 特定結(jié)果規(guī)則集應用于各記錄 ? 數(shù)據(jù) – 關聯(lián)規(guī)則簡介 ? 解決問題 ?考慮的是關聯(lián),得到的是規(guī)則,處理變量之間的相關,而非客戶之間 ) –買香煙的人是否傾向于也買巧克力或啤酒 –高血脂的人是否也常伴有高血壓 –買車險的人是否也傾向于買房險 ? 節(jié)點 – GRINumeric字段可作為輸入字段,可用于連續(xù)型變量 – Apriori只接受 Symbolic字段(只能用字符型輸入)作為輸入字段 ? 特殊之處:產(chǎn)生的模型不能直接加入數(shù)據(jù)流 Apriori節(jié)點及結(jié)果解釋 ? Apriori節(jié)點設置 –字段類型及方向:無主次先后之分 – Content1flagboth – Content2flagboth – Content3flagboth – Contentnflagboth ? 結(jié)果: –有多少人購買了香煙?占總?cè)藬?shù)的百分比 –其中,有多少人購買了巧克力?占多少百分比 Instances(滿足記錄數(shù)) Support Confidence Consequent Antecedent1 Antecedent2 2051 巧克力 香煙 Apriori節(jié)點及結(jié)果解釋 產(chǎn)生特定結(jié)果的規(guī)則集 ? Generate menu – Rule set ? View 特定結(jié)果規(guī)則集應用于各記錄 Chapter 13 序列檢測 Chpater 13 序列檢測 ? 目的 – 掌握 Clementine如何對與時間序列有關的數(shù)據(jù)進行建模 – 熟悉 Sequence節(jié)點 也會存在規(guī)則的重復 ? 內(nèi)容 – 序列檢測簡介 – 序列檢測所要求的數(shù)據(jù)結(jié)構(gòu) – 序列檢測模型 – Sequence節(jié)點及結(jié)果解釋 – Sequence結(jié)果用于各條數(shù)據(jù) ? 數(shù)據(jù) – 序列檢測簡介 ? 解決的問題:與順序有關的關聯(lián)規(guī)則 – Antecedent1?Antecedent2 ?Consequent ? 可用節(jié)點: Sequence、 Capri 序列檢測所要求的數(shù)據(jù)結(jié)構(gòu) ? 數(shù)據(jù)結(jié)構(gòu) 1 –一個客戶一次購買多個產(chǎn)品算一條記錄 數(shù)據(jù)結(jié)構(gòu) 2 –一個客戶一次購買多個產(chǎn)品算多條記錄 序列檢測模型 ? Sequence與 Capri二者各有優(yōu)勢 ? 二者使用不同的算法 ? 均可指定順序檢測標準 ? 對于“ A1‖?‖A2‖?‖C‖, Capri可以不包含下列 –“ A1‖?‖A2‖ –‖A2‖?‖C‖ –―A1‖?‖C‖ Sequence節(jié)點及結(jié)果解釋 ? Sequence節(jié)點設置: –字段類型及方向 ? ID fieldNumeric/SymbolicAny ? Time fieldRangeIn ? Content fieldsSetIn/out/both多個一致 Sequence節(jié)點及結(jié)果解釋 ? 結(jié)果: –在先買了 A1 ,又買了 A2 的客戶中, 60%的人后來買 了 C; – 12%的客戶( 48例)是先買了 A1 ,又買了 A2 ,最后又買了 C –可對規(guī)則進行重新排序 Sequence節(jié)點及結(jié)果解釋 Sequence結(jié)果用于各條數(shù)據(jù) 總結(jié) ? 業(yè)務問題是關鍵 ? 歷史數(shù)據(jù)是支撐 ? 業(yè)務思路、數(shù)據(jù)分析思路的轉(zhuǎn)變 ? 數(shù)據(jù)分析的常態(tài)與技巧 ? 如何使用數(shù)據(jù)分析應用結(jié)果是業(yè)務思路的延伸 ? 方法永遠是方法,工具永遠是工具 五、 Clementine組合模型技巧 。 ; ; 。 Clementine中提供的模型概述 Data Mining Model Supervised Model (Predictive Model) Unsupervised Model Data Reduction Neural Networks Camp。RT(CART) Regression Logistic regression Kohonen Kmeans TwoStep PCA(Principal Component Analysis) Factor Clustering APRIORI GRI Sequence Associations 離散變量預測問題是最重要的一類問題 ? 離散變量預測問題也就是分類問題 ? 在 Clementine( )中有很多模型可以做分類問題 – Neural Net – – Camp。RT – Logistic ? 連續(xù)變量預測問題可以通過某種形式轉(zhuǎn)化為離散變量預測問題 ? 多值變量問題可以轉(zhuǎn)化為兩值預測問題 離散值預測模型的幾個重要檢驗指標 離散值預測模型的幾個重要檢驗圖形 ( Gains) ( Response) ( Lift) ( Profit) ( ROI) 離散值預測模型的幾個重要檢驗圖形 什么是組合模型 ? 在數(shù)據(jù)挖掘模型中,每種模型都有各自的優(yōu)點和缺陷,為了更好的利用模型的優(yōu)點,在 Clementine中可以把不同模型通過一定的方式組合在一起以解決特定的問題 ? 為了提高模型的精確度,我們可以把多個模型通過某種方式組合在一起 組合模型類型 ? 為了提高模型的可解釋性,可以應用 對預測或者聚類結(jié)果進行解釋 ? 為了得到各指標對模型影響的重要程度,可以應用神經(jīng)網(wǎng)絡對指標重要性進行分析 ? 可以通過模型的特定組合提高模型的準確性 ——下面以數(shù)據(jù)挖掘模型中最常用的二值預測來說明組合模型如何能夠提供模型的準確性 二值預測是數(shù)據(jù)挖掘中重要問題 ? 二值預測問題是個非常常見的數(shù)據(jù)挖掘問題 流失、客戶獲得、欠費、欺詐 …… ? 多值預測可以轉(zhuǎn)化為二值預測問題 ? 連續(xù)預測問題可以轉(zhuǎn)化為多值預測問題 二值預測結(jié)果的可能表達方式 1. T or F,我們稱為預測值; 2. 預測值為 T,預測準確率為 P;或者預測值為 F,預測準確率為 P; 3. T的概率為 p,稱為預測評分 (scoring)。 和置信度區(qū)分 例:以預測流失為例 1. 預測客戶 A流失; 2. 預測客戶 B不流失,把握程度為 ; 3. 預測客戶 C的流失概率為 。 多值( set)問題向二值問題的轉(zhuǎn)化( flag) ? 多值集合變量向幾個二值變量的轉(zhuǎn)化(設為標志) ? 由 Clementine中神經(jīng)網(wǎng)絡算法想起的 …… 多個輸出變量; 如果把二值變量問題再轉(zhuǎn)化成多值變量問題。 連續(xù)預測問題向多值預測問題的轉(zhuǎn)化 ? 從 Camp。RT算法想到的 …… 用分級節(jié)點 ? 把連續(xù)預測問題轉(zhuǎn)化為多值預測問題 二值預測的結(jié)果表述 ? T or F ? 評分 (scoring) ? T- ? F- ? 二值預測結(jié)果的評價 ? ( 1)總體準確率 ? ( 2)命中率 ? ( 3)覆蓋率 ?1 . 0 0 . 0NoY e sNo Yes 覆蓋率 命中率 Clementine中預測二值問題 ? Neural Net( $Noute ,$NCoute
點擊復制文檔內(nèi)容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1