freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

相似性和相異性的度量-資料下載頁(yè)

2025-08-05 10:35本頁(yè)面
  

【正文】 18 圖示Bregman散度6)鄰近度計(jì)算問(wèn)題本節(jié)討論與鄰近性度量有關(guān)的一些重要問(wèn)題:(1)當(dāng)屬性具有不同的尺度(scale)或相關(guān)時(shí)如何處理;(2)當(dāng)對(duì)象包含不同類(lèi)型的屬性(例如,定量屬性和定性屬性)時(shí)如何計(jì)算對(duì)象之間的鄰近度;(3)當(dāng)屬性具有不同的權(quán)重(即并非所有的屬性都對(duì)對(duì)象的鄰近度具有相等的貢獻(xiàn))時(shí),如何處理鄰近度計(jì)算。1. 距離度量的標(biāo)準(zhǔn)化和相關(guān)性距離度量的一個(gè)重要問(wèn)題是當(dāng)屬性具有不同的值域時(shí)如何處理。(這種情況通常稱(chēng)作變量具有不同的尺度。)前面,使用歐幾里得距離,基于年齡和收入兩個(gè)屬性來(lái)度量人之間的距離。除非這兩個(gè)屬性是標(biāo)準(zhǔn)化的,否則兩個(gè)人之間的距離將被收入所左右。一個(gè)相關(guān)的問(wèn)題是,除值域不同外,當(dāng)某些屬性之間還相關(guān)時(shí),如何計(jì)算距離。當(dāng)屬性相關(guān)、具有不同的值域(不同的方差)、并且數(shù)據(jù)分布近似于高斯(正態(tài))分布時(shí),歐幾里得距離的拓廣,Mahalanobis距離是有用的。具體地說(shuō),兩個(gè)對(duì)象(向量)x和y之間的Mahalanobis距離定義為:其中 是數(shù)據(jù)協(xié)方差矩陣的逆。注意,協(xié)方差矩陣是這樣的矩陣,它的第ij個(gè)元素是第i個(gè)和第j個(gè)屬性的協(xié)方差,由公式(211)定義。例 在圖219中有1000個(gè)點(diǎn)。,但Mahalanobis距離僅為6。實(shí)踐中,計(jì)算Mahalanobis距離的費(fèi)用昂貴,但是對(duì)于其屬性相關(guān)的對(duì)象來(lái)說(shuō)是值得的。如果屬性相對(duì)來(lái)說(shuō)不相關(guān),只是具有不同的值域,則只需要對(duì)變量進(jìn)行標(biāo)準(zhǔn)化就足夠了。圖219 二維點(diǎn)的集合。兩個(gè)大點(diǎn)代表的點(diǎn)之間的Mahalanobis距離為6,2. 組合異種屬性的相似度前面的相似度定義所基于的方法都假定所有屬性具有相同類(lèi)型。當(dāng)屬性具有不同類(lèi)型時(shí),就需要更一般的方法。直截了當(dāng)?shù)姆椒ㄊ鞘褂帽?7分別計(jì)算出每個(gè)屬性之間的相似度,然后使用一種導(dǎo)致0和1之間相似度的方法組合這些相似度。總相似度一般定義為所有屬性相似度的平均值。不幸的是,如果某些屬性是非對(duì)稱(chēng)屬性,這種方法效果不好。例如,如果所有的屬性都是非對(duì)稱(chēng)的二元屬性,則相似性度量先歸結(jié)為簡(jiǎn)單匹配系數(shù)一種對(duì)于二元非對(duì)稱(chēng)屬性并不合適的度量。處理該問(wèn)題的最簡(jiǎn)單方法是:如果兩個(gè)對(duì)象在非對(duì)稱(chēng)屬性上的值都是0,則在計(jì)算對(duì)象相似度時(shí)忽略它們。類(lèi)似的方法也能很好地處理遺漏值。概括地說(shuō)。修改該過(guò)程可以很輕松地處理相異度。3. 使用權(quán)值在前面的大部分討論中,所有的屬性在計(jì)算鄰近度時(shí)都會(huì)被同等對(duì)待。但是,當(dāng)某些屬性對(duì)鄰近度的定義比其他屬性更重要時(shí),我們并不希望這種同等對(duì)待的方式。為了處理這種情況,可以通過(guò)對(duì)每個(gè)屬性的貢獻(xiàn)加權(quán)來(lái)修改鄰近度公式。如果權(quán) 的和為1,則公式(215)變成 閔可夫斯基距離的定義也可以修改為: 7)選取正確的鄰近性度量下面是一些一般觀察,可能會(huì)對(duì)你有所幫助。首先,鄰近性度量的類(lèi)型應(yīng)當(dāng)與數(shù)據(jù)類(lèi)型相適應(yīng)。對(duì)于許多稠密的、連續(xù)的數(shù)據(jù),通常使用距離度量,如歐幾里得距離等。連續(xù)屬性之間的鄰近度通常用屬性值的差來(lái)表示,并且距離度量提供了一種將這些差組合到總鄰近性度量的良好方法。盡管屬性可能有不同的取值范圍和不同的重要性,但這些問(wèn)題通常都可以用前面介紹的方法處理。對(duì)于稀疏數(shù)據(jù),常常包含非對(duì)稱(chēng)的屬性,通常使用忽略00匹配的相似性度量。從概念上講,這反映了如下事實(shí):對(duì)于一對(duì)復(fù)雜對(duì)象,相似度依賴(lài)于它們共同具有的性質(zhì)數(shù)目,而不是依賴(lài)于它們都缺失的性質(zhì)數(shù)目。在特殊的情況下,對(duì)于稀疏的、非對(duì)稱(chēng)的數(shù)據(jù),大部分對(duì)象都只具有少量被屬性描述的性質(zhì),因此如果考慮它們都不具有的性質(zhì)的話(huà),它們都高度相似。余弦、Jaccard和廣義Jaccard度量對(duì)于這類(lèi)數(shù)據(jù)是合適的。數(shù)據(jù)向量還有一些其他特征需要考慮。例如,假定對(duì)于比較時(shí)間序列感興趣。如果時(shí)間序列的量值是重要的(例如,每個(gè)時(shí)間序列表示同一單位不同年份的總銷(xiāo)售),則可以使用歐幾里得距離。如果時(shí)間序列代表不同的量(例如,血壓和氧消耗量),通常需要確定時(shí)間序列是否具有相同的形狀,而不是相同的量值,那么相關(guān)度可能更可取(使用考慮量和級(jí)的差異的內(nèi)置規(guī)范化)。在某些情況下,為了得到合適的相似性度量,數(shù)據(jù)的變換或規(guī)范化是重要的,因?yàn)檫@種變換并非總能在鄰近性度量中提供,例如,時(shí)間序列數(shù)據(jù)可能具有顯著影響相似性的趨勢(shì)或周期模式。此外,正確地計(jì)算相似度還需要考慮時(shí)間延遲。最后,兩個(gè)時(shí)間序列可能只在特定的時(shí)間周期上相似,例如,氣溫與天然氣的用量之間存在很強(qiáng)的聯(lián)系,但是這種聯(lián)系僅出現(xiàn)在取暖季節(jié)。實(shí)踐考慮也是重要的。有時(shí),一種或多種鄰近性度量已經(jīng)在某個(gè)特定領(lǐng)域使用,因此,其他人已經(jīng)回答了應(yīng)當(dāng)使用何種鄰近性度量的問(wèn)題;另外,所使用的軟件包或聚類(lèi)算法可能完全限制了選擇;如果關(guān)心效率,則我們可能希望選擇具有某些性質(zhì)的鄰近性度量,這些性質(zhì)(如三角不等式)可以用來(lái)降低鄰近度計(jì)算量。然而,如果通常的實(shí)踐或?qū)嵺`限制并未規(guī)定某種選擇,則正確地選擇鄰近性度量可能是一項(xiàng)耗時(shí)的任務(wù),需要仔細(xì)地考慮領(lǐng)域知識(shí)和度量使用的目的。可能需要評(píng)估許多不同的相似性度量,以確定哪些結(jié)果最有意義。
點(diǎn)擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1