freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

相似性和相異性的度量(編輯修改稿)

2025-09-01 10:35 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 3, 4},則AB = {1},而B(niǎo)A = 空集。我們可以將兩個(gè)集合A和B之間的距離定義為d(A, B) = size(AB),其中size是一個(gè)函數(shù),它返回集合元素的個(gè)數(shù)。該距離測(cè)度是大于或等于零的整數(shù)值,但不滿足非負(fù)性的第二部分,也不滿足對(duì)稱性,同時(shí)還不滿足三角不等式。然而,如果將相異度修改為d(A, B) = size(AB) + size(BA),則這些性質(zhì)都可以成立。例2 非度量的相異度:時(shí)間。這里給出一個(gè)更常見(jiàn)的例子,其中相異性測(cè)度并非度量,但依然是有用的。定義時(shí)間之間的距離測(cè)度如下:例如,d(1PM, 2PM) = 1小時(shí),而d(2PM, 1PM) = 23小時(shí)。這種定義是有意義的,例如,在回答如下問(wèn)題時(shí)就體現(xiàn)了這種定義的意義:如果一個(gè)事件在每天下午1點(diǎn)發(fā)生,現(xiàn)在是下午2點(diǎn),那么我們還需要等待多長(zhǎng)時(shí)間才能等到該事件再度發(fā)生?4) 數(shù)據(jù)對(duì)象之間的相似度對(duì)于相似度,三角不等式(或類似的性質(zhì))通常不成立,但是對(duì)稱性和非負(fù)性通常成立。更明確地說(shuō),如果s(x, y)是數(shù)據(jù)點(diǎn)x和y之間的相似度,則相似度具有如下典型性質(zhì)。(1) 僅當(dāng)x = y時(shí)s(x, y) = 1。(0≤s≤1)(2) 對(duì)于所有x和y,s(x, y) = s(y, x)。(對(duì)稱性)對(duì)于相似度,沒(méi)有與三角不等式對(duì)應(yīng)的一般性質(zhì)。然而,有時(shí)可以將相似度簡(jiǎn)單地變換成一種度量距離。稍后討論的余弦相似性度量和Jaccard相似性度量就是兩個(gè)例子。此外,對(duì)于特定的相似性度量,還可能在兩個(gè)對(duì)象相似性上導(dǎo)出本質(zhì)上與三角不等式類似的數(shù)學(xué)約束。例3 非對(duì)稱相似性度量。考慮一個(gè)實(shí)驗(yàn),實(shí)驗(yàn)中要求人們對(duì)屏幕上快速閃過(guò)的一小組字符進(jìn)行分類。該實(shí)驗(yàn)的混淆矩陣(confusion matrix)記錄每個(gè)字符被分類為自己的次數(shù)和被分類為另一個(gè)字符的次數(shù)。例如,假定0出現(xiàn)了200次,它被分類為0160次,而被分類為o40次。類似地,o出現(xiàn)200次并且分類為o170次,但是分類為0只有30次。如果取這些計(jì)數(shù)作為兩個(gè)字符之間相似性的度量,則得到一種相似性度量,但這種相似性度量不是對(duì)稱的。在這種情況下,通過(guò)選取s39。(x, y) = s39。 (y, x) = (s(x, y) + s(y, x))/2,相似性度量可以轉(zhuǎn)換成對(duì)稱的,其中s39。是新的相似性度量。5) 鄰近性度量的例子本節(jié)給出一些相似性和相異性度量的具體例子。1. 二元數(shù)據(jù)的相似性度量?jī)蓚€(gè)僅包含二元屬性的對(duì)象之間的相似性度量也稱為相似系數(shù)(similarity coefficient),并且通常在0和1之間取值,值為1表明兩個(gè)對(duì)象完全相似,而值為0表明對(duì)象一點(diǎn)也不相似。有許多理由表明在特定情形下,一種系數(shù)為何比另一種好。設(shè)x和y是兩個(gè)對(duì)象,都由n個(gè)二元屬性組成。這樣的兩個(gè)對(duì)象(即兩個(gè)二元向量)的比較可生成如下四個(gè)量(頻率):f00 =x取0并且y取0的屬性個(gè)數(shù)f01 =x取0并且y取1的屬性個(gè)數(shù)f10 =x取1并且y取0的屬性個(gè)數(shù)f11 =x取1并且y取1的屬性個(gè)數(shù)簡(jiǎn)單匹配系數(shù)(Simple Matching Coefficient, SMC),一種常用的相似性系數(shù)是簡(jiǎn)單匹配系數(shù),定義如下:該度量對(duì)出現(xiàn)和不出現(xiàn)都進(jìn)行計(jì)數(shù)。因此,SMC可以在一個(gè)僅包含是非題的測(cè)驗(yàn)中用來(lái)發(fā)現(xiàn)回答問(wèn)題相似的學(xué)生。Jaccard系數(shù)(Jaccard Coefficient),假定x和y是兩個(gè)數(shù)據(jù)對(duì)象,代表一個(gè)事務(wù)矩陣的兩行(兩個(gè)事務(wù))。如果每個(gè)非對(duì)稱的二元屬性對(duì)應(yīng)于商店的一種商品,則1表示該商品被購(gòu)買,而0表示該商品未被購(gòu)買。由于未被顧客購(gòu)買的商品數(shù)遠(yuǎn)大于被其購(gòu)買的商品數(shù),因而像SMC這樣的相似性度量將會(huì)判定所有的事務(wù)都是類似的。這樣,常常使用Jaccard系數(shù)來(lái)處理僅包含非對(duì)稱的二元屬性的對(duì)象。Jaccard系數(shù)通常用符號(hào)J表示,由如下等式定義:例4 SMC和Jaccard相似性系數(shù)。為了解釋這兩種相似性度量之間的差別,我們對(duì)如下二元向量計(jì)算SMC和J:x = (1, 0, 0, 0, 0, 0, 0, 0, 0, 0)y = (0, 0, 0, 0, 0, 0, 1, 0, 0, 1)f01 = 2 x取0并且y取1的屬性個(gè)數(shù)f10 = 1 x取1并且y取0的屬性個(gè)數(shù)f00 = 7 x取0并且y取0的屬性個(gè)數(shù)f11 = 0 x取1并且y取1的屬性個(gè)數(shù)2. 余弦相似度通常,文檔用向量表示,向量的每個(gè)屬性代表一個(gè)特定的詞(術(shù)語(yǔ))在文檔中出現(xiàn)的頻率。當(dāng)然,實(shí)際情況要復(fù)雜得多,因?yàn)樾枰雎猿S迷~,并使用各種技術(shù)處理同一個(gè)詞的不同形式、不同的文檔長(zhǎng)度以及不同的詞頻。盡管文檔具有數(shù)以百千計(jì)或數(shù)以萬(wàn)計(jì)的屬性(詞),但是每個(gè)文檔向量都是稀疏的,因?yàn)樗哂邢鄬?duì)較少的非零屬性值。(文檔規(guī)范化并不對(duì)零詞目創(chuàng)建非零詞目,即文檔規(guī)范化保持稀疏性。)這樣,與事務(wù)數(shù)據(jù)一樣,相似性不能依賴共享0的個(gè)數(shù),因?yàn)槿我鈨蓚€(gè)文檔多半
點(diǎn)擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1