freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

awvaaa聚類分析new-展示頁(yè)

2024-08-19 09:35本頁(yè)面
  

【正文】 id ij ??。 16 定義距離的準(zhǔn)則 定義距離要求滿足第 i個(gè)和第 j個(gè)樣品之間的距離如下四個(gè)條件 : 。 變量之間的聚類即只型聚類分析 , 常用相似系數(shù)來(lái)測(cè)度變量之間的親疏程度 。 4. 對(duì)數(shù)變換 對(duì)數(shù)變換是將各個(gè)原始數(shù)據(jù)取對(duì)數(shù) , 將原始數(shù)據(jù)的對(duì)數(shù)值作為變換后的新值 。,3,2,1( pjni ?? ??????? ni jijjxxnS12)(1114 經(jīng)過(guò)標(biāo)準(zhǔn)化變換處理后 , 每個(gè)變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為 0, 方差為 1, 且也不再具有量綱 , 同樣也便于不同變量之間的比較 。 首先對(duì)每個(gè)變量進(jìn)行中心化變換 , 然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化 。,3,2,1( pjni ?? ??niijijnij xxR,2,1,2,1)m i n ()(m a x?? ????10 * ?? ijx13 經(jīng)過(guò)規(guī)格化變換后 , 數(shù)據(jù)矩陣中每列即每個(gè)變量的最大數(shù)值為 1, 最小數(shù)值為 0, 其余數(shù)據(jù)取值均在 0- 1之間;并且變換后的數(shù)據(jù)都不再具有量綱 , 便于不同的變量之間的比較 。 12 極差規(guī)格化變換 規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值 , 這兩者之差稱為極差 , 然后從每個(gè)變量的每個(gè)原始數(shù)據(jù)中減去該變量中的最小值 , 再除以極差 , 就得到規(guī)格化數(shù)據(jù) 。 設(shè)原始觀測(cè)數(shù)據(jù)矩陣為: ?????????????npnnppxxxxxxxxx??????212222111211X11 jijij xxx ??* ),3,2,1。 10 二 、 數(shù)據(jù)的變換處理 所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算把它變成為一個(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。 在名義尺度中只取兩種特性狀態(tài)的變量是很重要的 , 如電路的開和關(guān) , 天氣的有雨和無(wú)雨 , 人口性別的男和女 , 醫(yī)療診斷中的 “ 十 ” 和 “ 一 ” , 市場(chǎng)交易中的買和賣等都是此類變量 。 (3)名義尺度 。 如評(píng)價(jià)酒的味道 ,分成好 、 中 、 次三等 , 三等有次序關(guān)系 , 但沒有數(shù)量表示 。 2 相似系數(shù)和距離 9 (2)順序尺度 。 在間隔尺度中如果存在絕對(duì)零點(diǎn) , 又稱比例尺度 。 指標(biāo)度量時(shí)用數(shù)量來(lái)表示 , 其數(shù)值由測(cè)量或計(jì)數(shù) 、 統(tǒng)計(jì)得到 , 如長(zhǎng)度 、 重量 、 收入 、支出等 。 通常 , 變量按照測(cè)量它們的尺度不同 , 可以分為三類 。 8 一 、 變量測(cè)量尺度的類型 為了將樣本進(jìn)行分類 , 就需要研究樣品之間的關(guān)系;而為了將變量進(jìn)行分類 , 就需要研究變量之間的關(guān)系 。 例如對(duì)上市公司的經(jīng)營(yíng)業(yè)績(jī)進(jìn)行分類;據(jù)經(jīng)濟(jì)信息和市場(chǎng)行情,客觀地對(duì)不同商品、不同用戶及時(shí)地進(jìn)行分類。 1 什么是聚類分析 4 5 6 我們直觀地來(lái)看,這個(gè)分類是否合理? 計(jì)算 4號(hào)和 6號(hào)得分的離差平方和: (2120)2+(2323)2+(2222)2=1 計(jì)算 1號(hào)和 2號(hào)得分的離差平方和: (2818)2+(2923)2+(2818)2=236 計(jì)算 1號(hào)和 3號(hào)得分的離差平方和為 482,由此可見一般,分類可能是合理的,歐氏距離很大的應(yīng)聘者沒有被聚在一起。其得分如下,選擇合適的統(tǒng)計(jì)方法對(duì)應(yīng)聘者進(jìn)行分類。1 第一講 聚類分析 2 系統(tǒng)聚類分析 快速聚類 有序聚類 其它聚類分析 3 例 對(duì) 10位應(yīng)聘者做智能檢驗(yàn)。 3項(xiàng)指標(biāo) X, Y和 Z分別表示數(shù)學(xué)推理能力,空間想象能力和語(yǔ)言理解能力。 應(yīng)聘者 1 2 3 4 5 6 7 8 9 10 X 28 18 11 21 26 20 16 14 24 22 Y 29 23 22 23 29 23 22 23 29 27 Z 28 18 16 22 26 22 22 24 24 24 167。 由此,我們的問題是如何來(lái)選擇樣品間相似的測(cè)度指標(biāo),如何將有相似性的類連接起來(lái)? 7 聚類分析根據(jù)一批樣品的許多觀測(cè)指標(biāo) , 按照一定的數(shù)學(xué)公式具體地計(jì)算一些樣品或一些參數(shù)(指標(biāo) )的相似程度 , 把相似的樣品或指標(biāo)歸為一類 ,把不相似的歸為一類 。又例如當(dāng)我們對(duì)企業(yè)的經(jīng)濟(jì)效益進(jìn)行評(píng)價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡(jiǎn)化指標(biāo)體系的目的。 但無(wú)論是樣品之間的關(guān)系 , 還是變量之間的關(guān)系 , 都是用變量來(lái)描述的 , 變量的類型不同 ,描述方法也就不同 。 (1)間隔尺度 。 一般來(lái)說(shuō) , 計(jì)數(shù)得到的數(shù)量是離散數(shù)量 ,測(cè)量得到的數(shù)量是連續(xù)數(shù)量 。 167。 指標(biāo)度量時(shí)沒有明確的數(shù)量表示 , 只有次序關(guān)系 , 或雖用數(shù)量表示 , 但相鄰兩數(shù)值之間的差距并不相等 , 它只表示一個(gè)有序狀態(tài)序列 。又如評(píng)價(jià)產(chǎn)品的質(zhì)量 , 雖可用一 、 二 、 三等來(lái)表示 , 但一等與二等之間 、 二等與三等之間的差距并不一定相等 。 指標(biāo)度量時(shí)既沒有數(shù)量表示也沒有次序關(guān)系 , 只有一些特性狀態(tài) , 如眼睛的顏色 , 化學(xué)中催化劑的種類等 。 顯然 , 對(duì)于具有多個(gè)特性狀態(tài)的變量 , 可通過(guò)并類的方法將其轉(zhuǎn)化為二性狀態(tài)變量 。 中心化變換 中心化變換是一種坐標(biāo)軸平移處理方法 , 它是先求出每個(gè)變量的樣本平均值 , 再?gòu)脑紨?shù)據(jù)中減去該變量的均值 , 就得到中心化變換后的數(shù)據(jù) 。,3,2,1( pjni ?? ??中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為 0, 即每個(gè)變量的均值為 0, 而且每列數(shù)據(jù)的平方和是該列變量樣本方差的 (n—1)倍 , 任何不同兩列數(shù)據(jù)之交叉乘積是這兩列變量樣本協(xié)方差的 (n—1)倍 , 所以這是一種很方便地計(jì)算方差與協(xié)方差的變換 。 即有: jniijijij Rxxx ,2,1*)m in (???? ),3,2,1。 標(biāo)準(zhǔn)化變換 標(biāo)準(zhǔn)化變換也是對(duì)變量的數(shù)值和量綱進(jìn)行類似于規(guī)格化變換的一種數(shù)據(jù)處理方法 。 即有: jjijij Sxxx ??* ),3,2,1。 變換后 , 數(shù)據(jù)短陣中任何兩列數(shù)據(jù)乘積之和是兩個(gè)變量相關(guān)系數(shù)的 ( n- 1) 倍 , 所以這是一種很方便地計(jì)算相關(guān)矩陣的變換 。 即: )l o g (* ijij xx ?15 三、樣品間親疏程度的測(cè)度 研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種 , 一種叫相似系數(shù) , 性質(zhì)越接近的變量或樣品 , 它們的相似系數(shù)越接近于 1或一 l, 而彼此無(wú)關(guān)的變量或樣品它們的相似系數(shù)則越接近于0, 相似的為一類 , 不相似的為不同類;另一種叫距離 , 它是將每一個(gè)樣品看作 p維空間的一個(gè)點(diǎn) , 并用某種度量測(cè)量點(diǎn)與點(diǎn)之間的距離 ,距離較近的歸為一類 , 距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類 。 而樣品之間的聚類即 Q型聚類分析 , 則常用距離來(lái)測(cè)度樣品之間的親疏程度 。0 成立和對(duì)一切的 jidij ?。0 成立和對(duì)一切的 jidd jiij ?.成立和對(duì)于一切的 jiddd kjikij ??17 常用距離的算法 設(shè) 和 是第 i和 j 個(gè)樣品的觀測(cè)值,則二者之間的距離 為: gpkgjkikij xxd11 )||(?? ???? ?? pk jkikij xxd 1 2)(? ??? ipii xxx , 21 ?ix ),( 21 ?? jpjj xxx ?jx明氏距離 特別,歐氏距離 (1) 明氏距離測(cè)度 18 該距離的缺點(diǎn)明考夫斯基距離主要有以下兩個(gè)缺點(diǎn): ① 明氏距離的值與各指標(biāo)的量綱有關(guān) , 而各指標(biāo)計(jì)量單位的選擇有一定的人為性和隨意性 ,各變量計(jì)量單位的不同不僅使此距離的實(shí)際意義難以說(shuō)清 , 而且 , 任何一個(gè)變量計(jì)量單位的改變都會(huì)使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計(jì)量單位的選擇 。 實(shí)際上 , 明考夫斯基距離是把各個(gè)變量都同等看待 , 將兩個(gè)樣品在各個(gè)變量上的離差簡(jiǎn)單地進(jìn)行了綜合 。 雖然這個(gè)距離有助于克服明氏距離的第一個(gè)缺點(diǎn) , 但它也沒有考慮指標(biāo)之間的相關(guān)性 。 在實(shí)踐應(yīng)用中 , 若總體協(xié)方差矩陣 ?未知 , 則可用樣本協(xié)方差矩陣作為估計(jì)代替計(jì)算 。 顯然 , 馬氏距離與上述各種距離的主要不同就是馬氏距離考慮了觀測(cè)變量之間的相關(guān)性 。 因此 ,馬氏距離不僅考慮了觀測(cè)變量之間的相關(guān)性 , 而且也考慮到了各個(gè)觀測(cè)指標(biāo)取值的差異程度 , 消除了各個(gè)觀測(cè)指標(biāo)不同量綱的影響 。 為了對(duì)馬氏距離和歐氏距離進(jìn)行一下比較 , 以便更清楚地看清二者的區(qū)別和聯(lián)系 , 現(xiàn)考慮一個(gè)例子 。和設(shè) )1,1()1,1( ??BA)( ?Md A ?20)( ?Md B ?2)( ?Ud A ?2)( ?Ud B ?23 馬氏距離雖然考慮了觀測(cè)變量之間的相關(guān)性,并且也不受觀測(cè)變量量綱不同的影響,但是在聚類分析之前,如果用全部數(shù)據(jù)計(jì)算的均值向量和協(xié)方差矩陣來(lái)計(jì)算馬氏距離,效果并不是很好。然而,類的形成要依賴于樣品之間的距離,反過(guò)來(lái)樣品間合理的馬氏距離又依賴于類,這就形成了一個(gè)惡性循環(huán)。 。 當(dāng)各變量之間不相關(guān)時(shí),斜交空間退化為歐氏距離。 性質(zhì)越接近的變量 , 它們的相關(guān)系數(shù)的絕對(duì)值越接近 1, 而彼此無(wú)關(guān)的變量的相關(guān)系數(shù)則越接近 0。設(shè)在 n維空間的向量 觀測(cè)向量在原點(diǎn)出的夾角的余弦,若變量之間的相關(guān)程度密切,則夾角接近 0,其余弦接近 1;反之接近 0。 產(chǎn)生不同結(jié)果的原因 , 主要是由于不同的親疏測(cè)度指標(biāo)所衡量的親疏程度的實(shí)際意義不同 ,也就是說(shuō) , 不同的親疏測(cè)度指標(biāo)代表了不同意義上的親疏程度 。 通常 , 選擇親疏測(cè)度指標(biāo)時(shí) , 應(yīng)注意遵循的基本原則主要有: (1)所選擇的親疏測(cè)度指標(biāo)在實(shí)際應(yīng)用中應(yīng)有明確的意義 。 29 (2)親疏測(cè)度指標(biāo)的選擇要綜合考慮已對(duì)樣本觀測(cè)數(shù)據(jù)實(shí)施了的變換方法和將要采用的聚類分析方法 。 此外 , 所選擇的親疏測(cè)度指標(biāo) , 還須和所選用的聚類分析方法一致 。 30 (3)適當(dāng)?shù)乜紤]計(jì)算工作量的大小 。 樣品間或變量間親疏測(cè)度指標(biāo)的選擇是一個(gè)比較復(fù)雜且?guī)е饕?guī)性的問題 , 我們應(yīng)根據(jù)研究對(duì)象的特點(diǎn)作具體分折 , 以選擇出合適的親疏測(cè)度指標(biāo) 。 31 六、類的連接方法 單連接 (最短距離) 完全連接 (最長(zhǎng)距離) 平均連接 (平均距離) x21? x12? x22? x11? ? ? ? x11? x21? ? ? ? ? ? ? ? ? ? 13d12d991 dd ?? ?32 167。 將所有列表 , 記為 D( 0) 表 , 該表是一張對(duì)稱表 。 pqdpG qG ? ?qpr GGG ,? 利用遞推公式計(jì)算新類與其它類之間的距離 。 2nCijd(一)方法 33 0 0 0 pGqG 1G 2G nG?1G2GnG? ?12d nd121d1nd? ? ????2ndnd234 (二)常用的種類 最短距離法 設(shè)抽取五個(gè)樣品 , 每個(gè)樣品只有一個(gè)變量
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1