freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

大數(shù)據(jù)挖掘算法設計說明(編輯修改稿)

2025-05-04 21:01 本頁面
 

【文章內容簡介】 圖13 變量重要性(示意圖)分類結果明細:包括輸入變量、輸出變量及模型計算出的分類名稱和概率值。表18 分類結果明細表(示例)用戶基站個數(shù)發(fā)送量接收量分類名稱響應概率1598203511314620是188280719432104222否1519662721611838否1519662721611838否1519662721611838否138801920951286128是187826961701151158否15280989538132665是1528493586921022否 以上所述變量重要性及分類結果明細是所有分類算法都具有的輸出,下面將展示部分算法特有的輸出結果。除了可輸出變量重要性和分類結果明細,決策樹的輸出還包括樹狀圖,直觀展示各節(jié)點的分割情況,展示分類規(guī)則,如圖12所示。圖14 變量重要性(示意圖)決策樹的輸出還包括分類規(guī)則,分析人員可提取符合業(yè)務場景的重要規(guī)則,如圖13所示。圖15 變量重要性(示意圖) 分類算法模型評估分類器的評估與分類器本身同樣重要。分類算法建模效果需要結合一系列的評估指標進行精確度、覆蓋率以及穩(wěn)定性評價。分類算法模型評估通常包括混淆矩陣、綜合正確率、查全率、查準率、FROC曲線、AUC值。 分類效果評估通常采用混淆矩陣,以二分類為例(多分類情況類似)如表12所示。TP表示實際值為yes,預測值也為yes的個數(shù);FP表示實際值為no,預測值為yes的個數(shù);FN表示實際值為yes,預測值為no的個數(shù);TN表示實際值為no,預測值也為no的個數(shù)。通常將表12推廣至多元分類問題,只不過增加一些行和列,通常用來展示對測試集的預測結果。好的預測結果應該是在主對角線上的值要大,而非主對角線上數(shù)值要小。常用度量:綜合正確率(Accuracy)A= (TP+TN)/(TP+TN+FN+FP);也稱為準確率,衡量分類器對整個樣本的判定能力,即正的判定為正,負的判定為負。查全率(Recall)R=TP/(TP+FN),也稱為真陽性率,或者召回率,查全率衡量分類器正確預測的正例比例,如果分類器的查全率高,則很少將正例誤分為負例。查準率(Precision)P= TP/(TP+FP),也稱為精確度,衡量分類器判定為正例的那部分記錄中實際為正例的記錄所占比例。查準率越高,分類器的假陽性率越低。F1(F1Measure)=2RP / ( R +P )=2TP/(2TP+FP+FN)=2/(1/R+1/P),表示查全率和查準率的調和平均值,由于兩個數(shù)的調和均值傾向于接近較小的值,因此F1度量值高可確保查全率和查準率都比較高。真陽性率(True Positive Rate)TPR=TP/(TP+FN),正樣本預測結果數(shù)/正樣本實際數(shù)真陰性率(True Negative Rate)TNR=TN/(TN+FP),負樣本預測結果數(shù)/負樣本實際數(shù)假陽性率(False Positive Rate)FPR=FP/(FP+TN),被預測為正的負樣本結果數(shù)/負樣本實際數(shù)假陰性率(False Negative Rate)FNR=FN/(FN+TP),被預測為負正樣本結果數(shù)/正樣本實際數(shù)表19 分類預測模型評價表(混淆矩陣) 預測類別yesno真實類別yesTPFNnoFPTN除了混淆矩陣,常用的分類效果評價還有ROC曲線、lift值等。接受者操作特征(Receiver Operating Characteristic,ROC)曲線是顯示分類器真陽性率和假陽性率之間折中的一種圖形化方法。如圖13所示,X軸為假陽性率,Y軸為真陽性率,如果一個模型比較好,ROC下方的面積應該足夠大。圖 16 分類預測效果評價(ROC)處于ROC曲線下方的那部分面積的大小就是AUC指。通常,較大的AUC代表了較好的performance。四.聚類算法 聚類算法介紹 Kmeans聚類Kmeans算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。算法主要優(yōu)勢:算法快速、簡單;對大數(shù)據(jù)集有較高的效率并且是可伸縮性的;時間復雜度近于線性,而且適合挖掘大規(guī)模數(shù)據(jù)集。kmeans 算法接受輸入量 k ;然后將n個數(shù)據(jù)對象劃分為 k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進行計算的。流程如下:(1) 選擇k個初始中心點,例如c[0]=data[0],…c[k1]=data[k1]。(2) 對于data[0]….data[n], 分別與c[0]…c[k1]比較,假定與c[i]差值最少,就標記為i。(3) 對于所有標記為i點,重新計算c[i]={ 所有標記為i的data[j]之和}/標記為i的個數(shù);(4) 重復(2)(3),直到所有c[i]值的變化小于給定閾值。 高斯混合模型(GMM) 統(tǒng)計學習的模型有兩種,一種是概率模型,一種是非概率模型。所謂概率模型,是指訓練模型的形式是P(Y|X)。輸入是X,輸出是Y,訓練后模型得到的輸出不是一個具體的值,而是一系列的概率值(對應于分類問題來說,就是輸入X對應于各個不同Y(類)的概率),然后我們選取概率最大的那個類作為判決對象(軟分類soft assignment)。所謂非概率模型,是指訓練模型是一個決策函數(shù)Y=f(X),輸入數(shù)據(jù)X是多少就可以投影得到唯一的Y,即判決結果(硬分類hard assignment)。 所謂混合高斯模型(GMM)就是指對樣本的概率密度分布進行估計,而估計采用的模型(訓練模型)是幾個高斯模型的加權和(具體是幾個要在模型訓練前建立好)。每個高斯模型就代表了一個類(一個Cluster)。對樣本中的數(shù)據(jù)分別在幾個高斯模型上投影,就會分別得到在各個類上的概率。然后我們可以選取概率最大的類所為判決結果。 從中心極限定理的角度上看,把混合模型假設為高斯的是比較合理的,當然,也可以根據(jù)實際數(shù)據(jù)定義成任何分布的Mixture Model,不過定義為高斯的在計算上有一些方便之處,另外,理論上可以通過增加Model的個數(shù),用GMM近似任何概率分布。 混合高斯模型的定義為: 其中K 為模型的個數(shù);πk為第k個高斯的權重;p(x / k) 則為第k個高斯概率密度,其均值為μk,方差為σk。對此概率密度的估計就是要求出πk、μk 和σk 各個變量。當求出p(x )的表達式后,求和式的各項的結果就分別代表樣本x 屬于各個類的概率。 在做參數(shù)估計的時候,常采用的是最大似然方法。最大似然法就是使樣本點在估計的概率密度函數(shù)上的概率值最大。由于概率值一般都很小,N 很大的時候, 連乘的結果非常小,容易造成浮點數(shù)下溢。所以我們通常取log,將目標改寫成: 也就是最大化對數(shù)似然函數(shù),完整形式為: 一般用來做參數(shù)估計的時候,我們都是通過對待求變量進行求導來求極值,在上式中,log函數(shù)中又有求和,你想用求導的方法算的話方程組將會非常復雜,沒有閉合解。可以采用的求解方法是EM算法——將求解分為兩步:第一步,假設知道各個高斯模型的參數(shù)(可以初始化一個,或者基于上一步迭代結果),去估計每個高斯模型的權值;第二步,基于估計的權值,回過頭再去確定高斯模型的參數(shù)。重復這兩個步驟,直到波動很小,近似達到極值(注意這里是極值不是最值,EM算法會陷入局部最優(yōu))。具體表達如下: 1)(E step) 對于第i個樣本xi 來說,它由第k 個model 生成的概率為: 在這一步,假設高斯模型的參數(shù)和是已知的(由上一步迭代而來或由初始值決定)。 2)(M step) 高斯混合模型GMM(Gaussian Mixture Model) 3)重復上述兩步驟直到算法收斂。 二分k均值(bisecting kmeans)二分k均值(bisecting kmeans)算法的主要思想是:首先將所有點作為一個簇,然后將該簇一分為二。之后選擇能最大程度降低聚類代價函數(shù)(也就是誤差平
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1