freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

awvaaa聚類分析new(已修改)

2025-08-16 09:35 本頁面
 

【正文】 1 第一講 聚類分析 2 系統(tǒng)聚類分析 快速聚類 有序聚類 其它聚類分析 3 例 對 10位應(yīng)聘者做智能檢驗。 3項指標(biāo) X, Y和 Z分別表示數(shù)學(xué)推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計方法對應(yīng)聘者進行分類。 應(yīng)聘者 1 2 3 4 5 6 7 8 9 10 X 28 18 11 21 26 20 16 14 24 22 Y 29 23 22 23 29 23 22 23 29 27 Z 28 18 16 22 26 22 22 24 24 24 167。 1 什么是聚類分析 4 5 6 我們直觀地來看,這個分類是否合理? 計算 4號和 6號得分的離差平方和: (2120)2+(2323)2+(2222)2=1 計算 1號和 2號得分的離差平方和: (2818)2+(2923)2+(2818)2=236 計算 1號和 3號得分的離差平方和為 482,由此可見一般,分類可能是合理的,歐氏距離很大的應(yīng)聘者沒有被聚在一起。 由此,我們的問題是如何來選擇樣品間相似的測度指標(biāo),如何將有相似性的類連接起來? 7 聚類分析根據(jù)一批樣品的許多觀測指標(biāo) , 按照一定的數(shù)學(xué)公式具體地計算一些樣品或一些參數(shù)(指標(biāo) )的相似程度 , 把相似的樣品或指標(biāo)歸為一類 ,把不相似的歸為一類 。 例如對上市公司的經(jīng)營業(yè)績進行分類;據(jù)經(jīng)濟信息和市場行情,客觀地對不同商品、不同用戶及時地進行分類。又例如當(dāng)我們對企業(yè)的經(jīng)濟效益進行評價時,建立了一個由多個指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達到簡化指標(biāo)體系的目的。 8 一 、 變量測量尺度的類型 為了將樣本進行分類 , 就需要研究樣品之間的關(guān)系;而為了將變量進行分類 , 就需要研究變量之間的關(guān)系 。 但無論是樣品之間的關(guān)系 , 還是變量之間的關(guān)系 , 都是用變量來描述的 , 變量的類型不同 ,描述方法也就不同 。 通常 , 變量按照測量它們的尺度不同 , 可以分為三類 。 (1)間隔尺度 。 指標(biāo)度量時用數(shù)量來表示 , 其數(shù)值由測量或計數(shù) 、 統(tǒng)計得到 , 如長度 、 重量 、 收入 、支出等 。 一般來說 , 計數(shù)得到的數(shù)量是離散數(shù)量 ,測量得到的數(shù)量是連續(xù)數(shù)量 。 在間隔尺度中如果存在絕對零點 , 又稱比例尺度 。 167。 2 相似系數(shù)和距離 9 (2)順序尺度 。 指標(biāo)度量時沒有明確的數(shù)量表示 , 只有次序關(guān)系 , 或雖用數(shù)量表示 , 但相鄰兩數(shù)值之間的差距并不相等 , 它只表示一個有序狀態(tài)序列 。 如評價酒的味道 ,分成好 、 中 、 次三等 , 三等有次序關(guān)系 , 但沒有數(shù)量表示 。又如評價產(chǎn)品的質(zhì)量 , 雖可用一 、 二 、 三等來表示 , 但一等與二等之間 、 二等與三等之間的差距并不一定相等 。 (3)名義尺度 。 指標(biāo)度量時既沒有數(shù)量表示也沒有次序關(guān)系 , 只有一些特性狀態(tài) , 如眼睛的顏色 , 化學(xué)中催化劑的種類等 。 在名義尺度中只取兩種特性狀態(tài)的變量是很重要的 , 如電路的開和關(guān) , 天氣的有雨和無雨 , 人口性別的男和女 , 醫(yī)療診斷中的 “ 十 ” 和 “ 一 ” , 市場交易中的買和賣等都是此類變量 。 顯然 , 對于具有多個特性狀態(tài)的變量 , 可通過并類的方法將其轉(zhuǎn)化為二性狀態(tài)變量 。 10 二 、 數(shù)據(jù)的變換處理 所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個元素,按照某種特定的運算把它變成為一個新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。 中心化變換 中心化變換是一種坐標(biāo)軸平移處理方法 , 它是先求出每個變量的樣本平均值 , 再從原始數(shù)據(jù)中減去該變量的均值 , 就得到中心化變換后的數(shù)據(jù) 。 設(shè)原始觀測數(shù)據(jù)矩陣為: ?????????????npnnppxxxxxxxxx??????212222111211X11 jijij xxx ??* ),3,2,1。,3,2,1( pjni ?? ??中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為 0, 即每個變量的均值為 0, 而且每列數(shù)據(jù)的平方和是該列變量樣本方差的 (n—1)倍 , 任何不同兩列數(shù)據(jù)之交叉乘積是這兩列變量樣本協(xié)方差的 (n—1)倍 , 所以這是一種很方便地計算方差與協(xié)方差的變換 。 12 極差規(guī)格化變換 規(guī)格化變換是從數(shù)據(jù)矩陣的每一個變量中找出其最大值和最小值 , 這兩者之差稱為極差 , 然后從每個變量的每個原始數(shù)據(jù)中減去該變量中的最小值 , 再除以極差 , 就得到規(guī)格化數(shù)據(jù) 。 即有: jniijijij Rxxx ,2,1*)m in (???? ),3,2,1。,3,2,1( pjni ?? ??niijijnij xxR,2,1,2,1)m i n ()(m a x?? ????10 * ?? ijx13 經(jīng)過規(guī)格化變換后 , 數(shù)據(jù)矩陣中每列即每個變量的最大數(shù)值為 1, 最小數(shù)值為 0, 其余數(shù)據(jù)取值均在 0- 1之間;并且變換后的數(shù)據(jù)都不再具有量綱 , 便于不同的變量之間的比較 。 標(biāo)準(zhǔn)化變換 標(biāo)準(zhǔn)化變換也是對變量的數(shù)值和量綱進行類似于規(guī)格化變換的一種數(shù)據(jù)處理方法 。 首先對每個變量進行中心化變換 , 然后用該變量的標(biāo)準(zhǔn)差進行標(biāo)準(zhǔn)化 。 即有: jjijij Sxxx ??* ),3,2,1。,3,2,1( pjni ?? ??????? ni jijjxxnS12)(1114 經(jīng)過標(biāo)準(zhǔn)化變換處理后 , 每個變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為 0, 方差為 1, 且也不再具有量綱 , 同樣也便于不同變量之間的比較 。 變換后 , 數(shù)據(jù)短陣中任何兩列數(shù)據(jù)乘積之和是兩個變量相關(guān)系數(shù)的 ( n- 1) 倍 , 所以這是一種很方便地計算相關(guān)矩陣的變換 。 4. 對數(shù)變換 對數(shù)變換是將各個原始數(shù)據(jù)取對數(shù) , 將原始數(shù)據(jù)的對數(shù)值作為變換后的新值 。 即: )l o g (* ijij xx ?15 三、樣品間親疏程度的測度 研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種 , 一種叫相似系數(shù) , 性質(zhì)越接近的變量或樣品 , 它們的相似系數(shù)越接近于 1或一 l, 而彼此無關(guān)的變量或樣品它們的相似系數(shù)則越接近于0, 相似的為一類 , 不相似的為不同類;另一種叫距離 , 它是將每一個樣品看作 p維空間的一個點 , 并用某種度量測量點與點之間的距離 ,距離較近的歸為一類 , 距離較遠的點應(yīng)屬于不同的類 。 變量之間的聚類即只型聚類分析 , 常用相似系數(shù)來測度變量之間的親疏程度 。 而樣品之間的聚類即 Q型聚類分析 , 則常用距離來測度樣品之間的親疏程度 。 16 定義距離的準(zhǔn)則 定義距離要求滿足第 i個和第 j個樣品之間的距離如下四個條件 : 。0 成立和對一切的 jidij ?。0 成立當(dāng)且僅當(dāng) jid ij ??。0 成立和對一切的 jidd jiij ?.成立和對于一切的 jiddd kjikij ??17 常用距離的算法 設(shè) 和 是第 i和 j 個樣品的觀測值,則二者之間的距離 為: gpkgjkikij xxd11 )||(?? ???? ?? pk jkikij xxd 1 2)(? ??? ipii xxx , 21 ?ix ),( 21 ?? jpjj xxx ?jx明氏距離 特別,歐氏距離 (1) 明氏距離測度 18 該距離的缺點明考夫斯基距離主要有以下兩個缺點: ① 明氏距離的值與各指標(biāo)的量綱有關(guān) , 而各指標(biāo)計量單位的選擇有一定的人為性和隨意性 ,各變量計量單位的不同不僅使此距離的實際意義難以說清 , 而且 , 任何一個變量計量單位的改變都會使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計量單位的選擇 。 ② 明氏距離的定義沒有考慮各個變量之間的相關(guān)性和重要性 。 實際上 , 明考夫斯基距離是把各個變量都同等看待 , 將兩個樣品在各個變量上的離差簡單地進行了綜合 。 19 (2)杰氏距離 這是杰斐瑞和馬突斯塔 (Jffreys 8L Matusita)所定義的一種距離 , 其計算公式為: (3)蘭氏距離 這是蘭思和維廉姆斯 (Lance SL Williams)所給定的一種距離 , 其計算公式為: 這是一個自身標(biāo)準(zhǔn)化的量 , 由于它對大的奇異值不敏感, 這樣使得它特別適合于高度偏倚的數(shù)據(jù) 。 雖然這個距離有助于克服明氏距離的第一個缺點 , 但它也沒有考慮指標(biāo)之間的相關(guān)性 。 ? ? 211 2)()( ?? ?? pk jkikij xxJd?? ??? pkjkikjkikij xxxxLd1)(20 (4)馬氏距離 這是印度著名統(tǒng)計學(xué)家馬哈拉諾比斯(P. C. ’ Mahalanobis)所定義的一種距離 ,其計算公式為: )()(2 ji1ji xxxx ????? ?ijd 分別表示第 i個樣品和第 j樣品的 p指標(biāo)觀測值所組成的列向量 , 即樣本數(shù)據(jù)矩陣中第 i個和第 j個行向量的轉(zhuǎn)置 , ?表示觀測變量之間的協(xié)方差短陣 。 在實踐應(yīng)用中 , 若總體協(xié)方差矩陣 ?未知 , 則可用樣本協(xié)方差矩陣作為估計代替計算 。 21 馬氏距離又稱為廣義歐氏距離 。 顯然 , 馬氏距離與上述各種距離的主要不同就是馬氏距離考慮了觀測變量之間的相關(guān)性 。 如果假定各變量之間相互獨立 , 即觀測變量的協(xié)方差矩陣是對角矩陣 , 則馬氏距離就退化為用各個觀測指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)進行加權(quán)的歐氏距離 。 因此 ,馬氏距離不僅考慮了觀測變量之間的相關(guān)性 , 而且也考慮到了各個觀測指標(biāo)取值的差異程度 , 消除了各個觀測指標(biāo)不同量綱的影響 。 這表明 , 馬氏距離對任何非奇異線性變換都具有不變性 。 為了對馬氏距離和歐氏距離進行一下比較 , 以便更清楚地看清二者的區(qū)別和聯(lián)系 , 現(xiàn)考慮一個例子 。 例如 , 假設(shè)有一個二維正態(tài)總體 , 它的分布為: 22 ?????? ????????????,002N ?????????? ?11兩點。和設(shè) )1,1()1,1( ??BA)( ?Md A ?20)( ?Md B ?2)( ?Ud A ?2)( ?Ud B ?23 馬氏距離雖然考慮了觀測變量之間的相關(guān)性,并且也不受觀測變量量綱不同的影響,但是在聚類分析之前,如果用全部數(shù)據(jù)計算的均值向量和協(xié)方差矩陣來計算馬氏距離,效果并不是很好。比較合理的辦法是用各個類的樣本來計算各自的協(xié)方差矩陣,同一類樣本的馬氏距離應(yīng)當(dāng)用這一類的協(xié)方差短陣來計算。然而,類的形成要依賴于樣品之間的距離,反過來樣品間合理的馬氏距離又依賴于類,這就形成了一個惡性循環(huán)。因此,在實際聚類分析處理中,馬氏距離也不是理想的距離。 。 24 斜交空間距離 由于各變量之間往往存在著不同的相關(guān)關(guān)系,用正交空間的距離來計算樣本間的距離易變形,所以可以采用斜交空間距離。 當(dāng)各變量之間不相關(guān)時,斜交空間退化為歐氏距離。
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1