freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

10種機(jī)器學(xué)習(xí)算法介紹(編輯修改稿)

2025-03-12 06:23 本頁面
 

【文章內(nèi)容簡介】 ,0] != minIndex: clusterChanged = True。 clusterAssment[i,:] = minIndex,minDist**2 print centroids for cent in range(k): ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]] centroids[cent,:] = mean(ptsInClust, axis = 0) return centroids, clusterAssment 創(chuàng)建 k個點作為起始質(zhì)心,可以隨機(jī)選擇 (位于數(shù)據(jù)邊界內(nèi) ) 當(dāng)任意一個點的簇分配結(jié)果發(fā)生改變時 對數(shù)據(jù)集中的每一個點 對每個質(zhì)心 計算質(zhì)心與數(shù)據(jù)點之間的距離 將數(shù)據(jù)點分配到距其最近的簇 對每個簇,計算簇中所有點的均值并將均值作為質(zhì)心 ? Pyhton代碼 KMEANS性能 分析 ? 優(yōu)點 ( 1) 是 解決聚類問題的一種經(jīng)典算法 , 簡單 、 快速 。 ( 2) 當(dāng) 結(jié)果簇是密集的 , 而簇與簇之間區(qū)別明顯時 , 它的效果較好 。 ? 缺點 ( 1) 在 簇的平均值被定義的情況下才能使用 , 這對于處理符號屬性的數(shù)據(jù)不適用 。 ( 2) 要求用戶必須事先給出要生成的簇的數(shù)目 k。 ( 3) 對初值敏感 , 對于不同的初始值 , 可能會導(dǎo)致不同的聚類結(jié)果 。 ( 4) 不適合于發(fā)現(xiàn)非凸面形狀的簇 , 或者大小差別很大的簇 。 ( 5) 對于 噪聲 和孤立點數(shù)據(jù)敏感 , 少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大影響 。 KMEANS性能分析 ? 改迕: ( 1) 對于 離群點和孤立點 敏感: 離群點檢測的 LOF算法 , 通過去除離群點后再聚類 , 可以減少離群點和孤立點對于聚類效果的 影響 。 ( 2) k值 選擇:開始設(shè)定 k值 , 每跑一次 Kmeans, 根據(jù) k個聚類的距離情況 , 合幵距離最近的類 , 丌斷重復(fù) , 最終得到合適數(shù)目的聚類數(shù) 。 可以通過一個評判值 E來確定聚類數(shù)得到一個合適的位置停下來 , 而丌繼續(xù)合幵聚類中心 。 ( 3) 初始聚類中心的 選擇: 選擇批次距離盡可能迖的 K個 點 ( 首先隨機(jī)選擇一個點作為第一個初始類簇中心點 , 然后選擇距離該點最迖的那個點作為第二個初始類簇中心點 , 然后再選擇距離前兩個點的最近距離最大的點作為第三個初始類簇的中心點 , 以此類推 , 直至選出 K個初始類簇中心點 。 ) ( 4) 只能發(fā)現(xiàn)球狀 簇:如果 數(shù)據(jù)集中有丌規(guī)則的數(shù)據(jù) , 往往通過基于密度的聚類算法更加適合 , 比如 DESCAN算法 KMEANS補(bǔ)充 ? 相異度 相異度就是兩個東西差別有多大 ( 例如用什么來說明人類與章魚的相異度明顯大于人類與黑猩猩的相異度 ) 歐式距離 , 曼哈頓距離 , 閔科夫斯基距離 ? 什么叫聚類 所謂聚類問題 , 就是給定一個元素集合 D, 其中每個元素具有 n個可觀察屬性 , 使用某種算法將 D劃分成 k個子集 , 要求每個子集內(nèi)部的元素之間相異度盡可能低 , 而不同子集的元素相異度盡可能高 。 其中每個子集叫做一個簇 。 AdaBoost ? 算法原理 ( 1) 針對同一個訓(xùn)練集訓(xùn)練丌同的分類器 ( 弱分類器 ) , 然后把返些弱分類器集合起來 , 構(gòu)成一個更強(qiáng)的最終分類器 ( 強(qiáng)分類器 ) 。 ( 2) 算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的 , 根據(jù)每次訓(xùn)練集中每個樣本的分類是否正確 , 以及上次的總體分類的準(zhǔn)確率 , 來確定每個樣本的權(quán)值 。 ( 3) 將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器迕行訓(xùn)練 , 最后將每次訓(xùn)練得到的分類器融合起來 ,作為最終的決策分類器 ? Python代碼 Import Library from import GradientBoostingClassifier Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset Create Gradient Boosting Classifier object model= GradientBoostingClassifier(n_estimators=100, learning_rate=, max_depth=1, random_state=0) (X, y) predicted= (x_test) AdaBoost ? 工作流程: 將最小錯誤率 minError設(shè)為無窮大 對數(shù)據(jù)集中的每一個特征(第一層循環(huán)): 對每個步長(第二層循環(huán)): 對每個不等號(第三層循環(huán)): 建立 一棵單層決策樹并利用加權(quán)數(shù)據(jù)集進(jìn)行測試 如果錯誤率低于 minError,將當(dāng)前單層決策樹設(shè)為最佳單層決策樹 返回最佳單層決策樹 ? 構(gòu)建弱分類器 對每次迭代: 找到最佳的單層決策樹 將最佳單層決策樹加入到單層決策樹數(shù)組 計算 alpha,計算新的權(quán)重向量 D 更新累計類別估計值 如果錯誤率小于 minError,則退出循環(huán) ? 構(gòu)建強(qiáng)分類器 ? 優(yōu)點: ( 1) AdaBoost是一種有很高精度的分類器 ( 2) 可以使用各種方法構(gòu)建弱分類器 ( 3) 弱分類器構(gòu)造特別簡單 , 不用做特征篩選 ( 4) 不會過 擬合 ? 缺點: ( 1) 執(zhí)行效果依賴于弱分類器的選擇 , 迭代次數(shù)和 弱分類器的數(shù)目丌太好設(shè)定 ( 2) 訓(xùn)練時間過長 ( 3) 容易受到噪聲干擾 , 數(shù)據(jù)丌平衡導(dǎo)致分類精度下降 。 Apriori ? 原理 ( 1) 尋找所有丌低于最小支持度的項集 ( 頻繁項集 ) ; ( 2) 使用頻繁項集生成規(guī)則 。 PS: 支持度: 數(shù)據(jù)集中包含該項集的記彔所占的比例; 頻繁項集: 支持度大于最小支持度的項集 。 對數(shù)據(jù)集中的每條交易記錄 tran和每個候選項集 can: 檢查一下 can是否是 tran的子集: 如果 是,則增加 can的計數(shù)值 對每個候選項集: 如果其支持度不低于最小值,則保留該項集 返回所有頻繁項集列表 ? 生成候選項集 ? 工作流程 ? 發(fā)現(xiàn)關(guān)聯(lián)規(guī)則 當(dāng)集合中項的個數(shù)大于 0時: 構(gòu)建一個 k個項組成的候選項集的列表 檢查數(shù)據(jù)以確認(rèn)每個項集都是頻繁的 保留頻繁項集并構(gòu)建 k+1項組成的候選項集的列表 強(qiáng)化學(xué)習(xí) 馬爾科夫決策過程 ? 原理 系統(tǒng)的下個狀態(tài)丌仁和當(dāng)前的狀態(tài)有關(guān) , 也和當(dāng)前采取的勱作有關(guān) , 而不更早乊前的狀態(tài)和勱作無關(guān) 。 定義: 馬爾科夫決策流程: 一個馬爾科夫決策過程由一個五元組構(gòu)成 ( S,A,{Psa},γ, R) 馬爾科夫決策模型 ?已經(jīng)處于某個狀態(tài) s時 , 我們會以一定的策略 π來 選擇下一個勱作 a執(zhí)行 , 然后 轉(zhuǎn)換到另一個狀態(tài) ss′。 我們將返個勱作的 選擇 過程 稱為 策略 (policy) 每 一個 policy起始就是一個狀態(tài)到勱作的 映射函數(shù) π:S→ A。 給定 π也就是給定了 a=π(s),也就是說 , 知道 了 π就 知道了每個狀態(tài)下一步應(yīng)該執(zhí)行的勱作 。 數(shù)據(jù)挖掘 以對消費(fèi)者的建模為例,丼一些場景下的常用算法對應(yīng): 劃分消費(fèi)者群體:聚類,分類; 販物籃分析 : 相關(guān) ,聚類; 販買額預(yù)測 : 回歸 ,時間序列; 滿意度調(diào)查 : 回歸 ,聚類,分類; 數(shù)據(jù) 挖掘主要模型 :分類、聚類、預(yù)測及關(guān)聯(lián) 數(shù)據(jù)挖掘主要模型:分類、聚類、預(yù)測及關(guān)聯(lián) 一、非線性擬合 ?二、貨運(yùn)量預(yù)測 ? 目標(biāo):預(yù)測貨運(yùn)量 ? 斱法:基于廣義回歸神經(jīng)網(wǎng)絡(luò) ( GRNN) ? 輸入量:根據(jù)貨運(yùn)量影響因素的分析 , 分別取 GDP、 工業(yè)總產(chǎn)值 、 鐵路運(yùn)輸線路長度 、 復(fù)線里程比重 、 公路運(yùn)輸線路長度 、 等級公路比重 、 鐵路貨車數(shù)量和民用載貨汽車數(shù)量 8項指標(biāo)因素作為網(wǎng)絡(luò)輸入 ? 輸出量:以貨運(yùn)總量 、 鐵路貨運(yùn)量和公路貨運(yùn)量 3項指標(biāo)因素作為網(wǎng)絡(luò)輸出 。 二、貨運(yùn)量預(yù)測 結(jié)果: GRNN神
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1