freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[互聯(lián)網(wǎng)]數(shù)據(jù)挖掘偶然看到比較好的(編輯修改稿)

2025-01-25 12:08 本頁面
 

【文章內(nèi)容簡介】 = ? + ?1X1 + ?2 X22+ ?3 X33 ? 對不呈線性依賴的數(shù)據(jù)建模 ? 使用多項式回歸建模方法,然后進行變量變換,將非線性模型轉(zhuǎn)換為線性模型,然后用最小二乘法求解 211)())((????????Si iiSi ixxyyxx?xy ?? ??169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 評估分類法的準確性 ? 導(dǎo)出分類法后,再使用訓(xùn)練數(shù)據(jù)評估分類法,可能錯誤的導(dǎo)致樂觀的估計 ? 保持方法 ? 給定數(shù)據(jù)隨機劃分為兩個集合:訓(xùn)練集 (2/3)和測試集 (1/3) ? 訓(xùn)練集導(dǎo)出分類法,測試集對其準確性進行評估 ? 隨機子選樣 :保持方法的一個變形,將保持方法重復(fù) k次,然后取準確率的平均值 ? k折交叉確認 ? 初始數(shù)據(jù)被劃分為 k個不相交的,大小大致相同的子集S1,S2…S k ? 進行 k次訓(xùn)練和測試,第 i次時,以 Si做測試集,其他做訓(xùn)練集 ? 準確率為 k次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù) 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 提高分類法的準確性 ? Bagging技術(shù)和 boosting技術(shù)都通過將 T個學(xué)習(xí)得到的分類法 C1,C2…C T組合起來,從而創(chuàng)造一個改進的分類法 C* ? Bagging技術(shù) ?對訓(xùn)練集 S進行 T次迭代,每次通過放回取樣選取樣本集 St,通過學(xué)習(xí) St得到分類法 Ct ?對于未知樣本 X,每個分類法返回其類預(yù)測,作為一票 ? C*統(tǒng)計得票,并將得票最高的預(yù)測賦予 X ? Boosting技術(shù) ?每個訓(xùn)練樣本賦予一個權(quán)值 ? Ct的權(quán)值取決于其錯誤率 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 四、數(shù)據(jù)挖掘算法-聚類 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 聚類分析 ? 什么是聚類分析 ? ? 聚類分析中的數(shù)據(jù)類型 ? 主要聚類分析方法分類 ? 劃分方法( Partitioning Methods) ? 分層方法 ? 基于密度的方法 ? 基于表格的方法 ? 基于模型( ModelBased)的聚類方法 ? 異常分析 ? 總結(jié) 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 聚類的常規(guī)應(yīng)用 ?模式識別 ?空間數(shù)據(jù)分析 ?在 GIS中,通過聚類發(fā)現(xiàn)特征空間來建立主題索引; ?在空間數(shù)據(jù)挖掘中,檢測并解釋空間中的簇; ?圖象處理 ?經(jīng)濟學(xué) (尤其是市場研究方面 ) ? WWW ?文檔分類 ?分析 WEB日志數(shù)據(jù)來發(fā)現(xiàn)相似的訪問模式 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 應(yīng)用聚類分析的例子 ? 市場銷售 : 幫助市場人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識來開展一個目標明確的市場計劃; ? 土地使用 : 在一個陸地觀察數(shù)據(jù)庫中標識那些土地使用相似的地區(qū); ? 保險 : 對購買了汽車保險的客戶,標識那些有較高平均賠償成本的客戶; ? 城市規(guī)劃 : 根據(jù)類型、價格、地理位置等來劃分不同類型的住宅; ? 地震研究 : 根據(jù)地質(zhì)斷層的特點把已觀察到的地震中心分成不同的類; 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 聚類方法性能評價 ?一個好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結(jié)果 ——簇,這些簇要具備以下兩個特點: ?高的簇內(nèi)相似性 ?低的簇間相似性 ?聚類結(jié)果的好壞取決于該聚類方法采用的相似性評估方法以及該方法的具體實現(xiàn); ?聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式; 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 聚類方法性能評價 ? 可伸縮性 ? 能夠處理不同類型的屬性 ? 能發(fā)現(xiàn)任意形狀的簇 ? 在決定輸入?yún)?shù)的時候,盡量不需要特定的領(lǐng)域知識; ? 能夠處理噪聲和異常 ? 對輸入數(shù)據(jù)對象的順序不敏感 ? 能處理高維數(shù)據(jù) ? 能產(chǎn)生一個好的、能滿足用戶指定約束的聚類結(jié)果 ? 結(jié)果是可解釋的、可理解的和可用的 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 兩種數(shù)據(jù)結(jié)構(gòu) ? 數(shù)據(jù)矩陣 ? (two modes) ? 差異度矩陣 ? (one mode) ??????????????????npx. . .nfx. . .n1x. . .. . .. . .. . .. . .ipx. . .ifx. . .i1x. . .. . .. . .. . .. . .1px. . .1fx. . .11x????????????????0.. .)2,()1,(:::)2,3().. .ndnd0dd ( 3 , 10d ( 2 , 1 )0169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 評價聚類質(zhì)量 ? 差異度 /相似度矩陣 : 相似度通常用距離函數(shù)來表示; ? 有一個單獨的質(zhì)量評估函數(shù)來評判一個簇的好壞; ? 對不同類型的變量,距離函數(shù)的定義通常是不同的,這在下面有詳細討論; ? 根據(jù)實際的應(yīng)用和數(shù)據(jù)的語義,在計算距離的時候,不同的變量有不同的權(quán)值相聯(lián)系; ? 很難定義 “ 足夠相似了 ” 或者 “ 足夠好了 ” ? 只能憑主觀確定; 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 聚類分析中的數(shù)據(jù)類型 ? 區(qū)間標度變量( Intervalscaled variables) : ? 二元變量( Binary variables) : ? 標稱型,序數(shù)型和比例型變量( Nominal, ordinal, and ratio variables) : ? 混合類型變量( Variables of mixed types) : 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 區(qū)間標度變量 ? 數(shù)據(jù)標準化 ? 計算絕對偏差的平均值 : 其中 ? 計算標準度量值 (zscore) ? 使用絕對偏差的平均值比使用標準偏差更健壯( robust) .)...211 nffff xx(xn m ????|)|...|||(|1 21 fnffffff mxmxmxns ???????ffifif smx z ??169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 計算對象之間的相異度 ? 通常使用距離來衡量兩個對象之間的相異度。 ? 常用的距離度量方法有 : 明考斯基距離 ( Minkowski distance) : 其中 i = (xi1, xi2, … , xip) 和 j = (xj1, xj2, … , xjp) 是兩個 p維的數(shù)據(jù)對象 , q是一個正整數(shù)。 當(dāng) q = 1時 , d 稱為 曼哈坦距離 ( Manhattan distance) q qppqq jxixjxixjxixjid )||. ..|||(|),( 2211 ???????||...||||),( 2211 pp jxixjxixjxixjid ???????169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 計算對象之間的相異度 ? 當(dāng) q=2時 , d 就成為 歐幾里德距離 : ? 距離函數(shù)有如下特性: d(i,j) ? 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) ? d(i,k) + d(k,j) ? 可以根據(jù)每個變量的重要性賦予一個權(quán)重 )||. ..|||(|),( 2222211 pp jxixjxixjxixjid ???????169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 序數(shù)型變量 ? 一個序數(shù)型變量可以是離散的也可以是連續(xù)的 ? 離散的序數(shù)型變量類似于標稱變量,除了它的 M個狀態(tài)是以有意義的序列排序的,比如職稱 ? 連續(xù)的序數(shù)型變量類似于區(qū)間標度變量,但是它沒有單位,值的相對順序是必要的,而其實際大小并不重要。 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 序數(shù)型變量 ?相異度的計算 與區(qū)間標度變量的計算方法相類似 ?將 xif 用它對應(yīng)的秩代替 ?將每個變量的值域映射到 [, ]上,使得每個變量都有相同的權(quán)重。這通過用 zif來替代 rif來實現(xiàn) ?用前面所述的區(qū)間標度變量的任一種距離計算方法來計算 11???fifif Mrz},.. .,1{ fif Mr ?169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 比例標度型變量 ? 比例標度型變量 ( Ratioscaled variable) : 總是取正的度量值 , 有一個非線性的標度 , 近似的遵循指數(shù)標度 , 比如 AeBt or AeBt ? 計算相異度的方法 : ? 采用與處理區(qū)間標度變量相同的方法 — 不是一個好的選擇 ? 進行對數(shù)變換 , 對變換得到的值在采用與處理區(qū)間標度變量相同的方法 yif = log(xif) ? 將其作為連續(xù)的序數(shù)型數(shù)據(jù) , 將其秩作為區(qū)間標度的值來對待 。 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 混合類型的變量 ? 一個數(shù)據(jù)庫可能包含了所有這 6中類型的變量 用以下公式計算對象 i, j之間的相異度 . 其中, p為對象中的變量個數(shù) 如果 xif或 xjf 缺失(即對象 i或?qū)ο?j沒有變量 f的值),或者 xif = xjf =0,且變量 f是不對稱的二元變量,則指示項 δij(f)=0;否則δij(f)=1 )(1)()(1),(fijpffijfijpf djid???????169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 混合類型的變量 ? f 是二元變量或標稱變量 : if xif = xjf dij(f) = 0, else dij(f) = 1 ? f 是區(qū)間標度變量 : dij(f) = | xifxjf |/maxhxhfminhxhf 其中 h遍取變量 f的所有非空缺對象 ? f 是序數(shù)型或比例標度型 計算秩 rif 計算 zif并將其作為區(qū)間標度變量值對待 11???fifMrz if169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 主要聚類方法 ? Partitioning algorithms: Construct various partitions and then evaluate them by some criterion ? Hierarchy algorithms: Create a hierarchical deposition of the set of data (or objects) using some criterion ? Densitybased: based on connectivity and density functions ? Gridbased: based on a multiplelevel granularity structure ? Modelbased: A model is hypothesized for each of the clusters and the idea is to find the best fit of that model to each other 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 五、數(shù)據(jù)挖掘算法-關(guān)聯(lián) 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 什么是關(guān)聯(lián)挖掘 ? ? 關(guān)聯(lián)規(guī)則挖掘: ? 在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。 ? 應(yīng)用: ? 購物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計、 lossleader analysis、聚集、分類等。 ? 舉例: ? 規(guī)則形式: “ Body ???ead [support, confidence]‖. ? buys(x, ―diapers‖) ?? buys(x, ―beers‖) [%, 60%] ? major(x, ―CS‖) ^ takes(x, ―DB‖) ???grade(x,
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1