freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘概述ppt課件-文庫吧資料

2025-05-18 08:33本頁面
  

【正文】 折疊刀估計(jì)法計(jì)算 θ(1)=(3+2+2+1+2+1+2+3+3)/9=θ(2)= θ(9)=θ(10)=19/9。例:設(shè)總體的分布率如下:現(xiàn)有樣本的 10個(gè)觀察值: 3,3,2,2,1,2,1,2,3,3,分別用矩估計(jì)發(fā)、極大似然估計(jì)法和折疊刀估計(jì)法估計(jì) θ。二、估計(jì) 點(diǎn)估計(jì) 矩估計(jì)與極大似然估計(jì)另外一種常用的估計(jì)方法為折疊刀估計(jì),它通過從一組觀測值中忽略一個(gè)值來實(shí)現(xiàn)對參數(shù)的估計(jì)。分別計(jì)算 p=,分位數(shù)及樣本均值。 :若 np是整數(shù),則位于 np和 np+1位置的數(shù)據(jù)均符合要求,此時(shí)取這兩個(gè)數(shù)的平均值作為 xp; x( [np]+1) 當(dāng) np不是整數(shù)( x( np) +x( np+1) )/2 當(dāng) np是整數(shù)與分位數(shù)有關(guān)常用術(shù)語一、極差: x(n) x(1)。即: xp=1。B:至多有 n( 1p)個(gè)觀察值大于或等于 xp。此外,如果使用一個(gè)唯一的值表示遺漏值,該值通常用眾數(shù)。對于連續(xù)屬性,按照目前的定義,眾數(shù)通常沒有用(為什么?),但在某些情況下,眾數(shù)可能提供關(guān)于值的性質(zhì)或關(guān)于出現(xiàn)遺漏值的重要信息。這類數(shù)據(jù)最常用的相似度之一就是余弦相似度,定義如下Cos( x, y) =xy/(||x||||y||) 廣義 Jaccard系數(shù)廣義 Jaccard系數(shù)也可以用于文檔數(shù)據(jù),并在二元屬性情況下 歸約為 Jaccard系數(shù) ,其定義如下:例 x和 y如下,分別計(jì)算其余弦相似度 cos(x, y)和 EJx= ( 3 2 0 5 0 0 0 2 0 0)EJ=xy/(||x||2+||y||2xy)y=( 1 0 0 3 1 0 6 0 0 1) 相關(guān)性兩個(gè)具有二元變量或連續(xù)的數(shù)據(jù)之間對象之間的相關(guān)性是對象之間線性聯(lián)系的度量,一般可以用 Pearson相關(guān)系數(shù)( Pearson, s correlation)來描述。x=( 1 0 0 0 1 0 1 0 0 1)y=( 1 0 1 0 1 1 0 0 1 1)解: f00= 3 f01= 3 f10= 1 f11= 3因此, SMC=6/10,J=3/7例 x和 y購買的商品如下,計(jì)算 它們的相似系數(shù) SMC和 J。 Why? Jaccard 相似系數(shù)。設(shè) x和 y是兩個(gè)對象,都由 n個(gè)二元屬性組成。 — 相似性度量的例子。簡單屬性的相似度和相異度 區(qū)間或比率屬性的相異度和相似度d=|xy|相異度 較常用的相似度有: s=1/(1+d),例如,考慮如下的身高數(shù)據(jù)S=1(dmin_d)/(max_dmin_d)學(xué)生S1 S2 S3 S4 S5 S6 S7身高156178166170185168180可以計(jì)算學(xué)生身高的相異度矩陣如下:學(xué)生 S1 S2 S3 S4 S5 S6 S7身高 156 178166 170 185 168 180S1 S2 S3 S4 S5 S6 S7S1 0 22 10 14 29 12 24S2 0 12 8 7 10 2S3 0 4 19 2 14S4 0 15 2 10S5 0 17 5S6 0 12S7 0二元屬性:屬性的值只接受兩個(gè)值:如真 /假,男 /女、是 /否等,通常用 0/1表示。如team coachplay ball scoregamewin lost fauldoc1 3 0 5 6 0 1 8 0 4Doc2 0 7 8 9 3 0 1 5 6doc3 0 1 0 0 0 1 0 4 0時(shí)間序列數(shù)據(jù)其他四、數(shù)據(jù)對象之間的相異度和相似度簡單屬性的相似度和相異度假設(shè)數(shù)據(jù)對象只有一個(gè)屬性,則通常其相似度和相異度可按如下定義。如距離矩陣,協(xié)方差矩陣,相關(guān)系數(shù)矩陣等。絕對 溫度、年齡 、 銷 售量等三、數(shù)據(jù)集的類型記錄數(shù)據(jù)。012 232 0 020 121 2 027 165 24 0 你做了相關(guān)的工作后再與數(shù)據(jù)提供者交流,字段 1只是一個(gè)標(biāo)號(hào)不代表任何實(shí)際意義,而字段4中 0表示缺失值,在錄入數(shù)據(jù)時(shí)偏偏所有的 10都變成了 0.? !二、數(shù)據(jù)屬性及其類型屬性( Attitude)是對象的性質(zhì)或特性。第二章 數(shù)據(jù)一、理解數(shù)據(jù)例 1。當(dāng)一個(gè)新的交易到達(dá)時(shí)就與之比較。信用卡欺詐檢測信用卡公司記錄每個(gè)持卡人所做的交易,同時(shí)也記錄信用限度、年齡、年薪和地址等個(gè)人信息。主要應(yīng)用包括檢測欺詐、網(wǎng)絡(luò)攻擊、疾病的不尋常模式等。五、數(shù)據(jù)挖掘的主要任務(wù)預(yù)測:分類和回歸關(guān)聯(lián)分析:如研究顧客的行為模式聚類分析:例如 對于新聞可以根據(jù)他們的主題分組。例如?想象一下,如果后人希望了解現(xiàn)在人們的生活狀況,他們面臨的已不再是信息缺失,而是需要從浩如煙海的資料中有選擇性的收集他們認(rèn)為有用的信息,若沒有一定技術(shù)支持,其難度恐怕可以用 “浪里淘金 ”或 “大海撈針 ”來形容。還有很多案例都可以印證,現(xiàn)在的社會(huì)是一個(gè)信息爆炸的社會(huì)。 “摩爾定律 ”。例 , Intel公司聯(lián)合創(chuàng)始人 Gordon Morore在準(zhǔn)備一個(gè)演講時(shí)發(fā)現(xiàn)了一個(gè)具有歷史意義的現(xiàn)象 :芯片的容量每 18~24個(gè)月增加一倍。例 Roth在聯(lián)合國世界電信論壇上又提出了一個(gè)關(guān)于網(wǎng)絡(luò)科技的一個(gè)觀點(diǎn):互聯(lián)網(wǎng)寬帶每 9個(gè)月會(huì)增加一
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1