freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

相似性和相異性的度量(編輯修改稿)

2024-09-01 10:35 本頁面
 

【文章內容簡介】 3, 4},則AB = {1},而BA = 空集。我們可以將兩個集合A和B之間的距離定義為d(A, B) = size(AB),其中size是一個函數(shù),它返回集合元素的個數(shù)。該距離測度是大于或等于零的整數(shù)值,但不滿足非負性的第二部分,也不滿足對稱性,同時還不滿足三角不等式。然而,如果將相異度修改為d(A, B) = size(AB) + size(BA),則這些性質都可以成立。例2 非度量的相異度:時間。這里給出一個更常見的例子,其中相異性測度并非度量,但依然是有用的。定義時間之間的距離測度如下:例如,d(1PM, 2PM) = 1小時,而d(2PM, 1PM) = 23小時。這種定義是有意義的,例如,在回答如下問題時就體現(xiàn)了這種定義的意義:如果一個事件在每天下午1點發(fā)生,現(xiàn)在是下午2點,那么我們還需要等待多長時間才能等到該事件再度發(fā)生?4) 數(shù)據(jù)對象之間的相似度對于相似度,三角不等式(或類似的性質)通常不成立,但是對稱性和非負性通常成立。更明確地說,如果s(x, y)是數(shù)據(jù)點x和y之間的相似度,則相似度具有如下典型性質。(1) 僅當x = y時s(x, y) = 1。(0≤s≤1)(2) 對于所有x和y,s(x, y) = s(y, x)。(對稱性)對于相似度,沒有與三角不等式對應的一般性質。然而,有時可以將相似度簡單地變換成一種度量距離。稍后討論的余弦相似性度量和Jaccard相似性度量就是兩個例子。此外,對于特定的相似性度量,還可能在兩個對象相似性上導出本質上與三角不等式類似的數(shù)學約束。例3 非對稱相似性度量??紤]一個實驗,實驗中要求人們對屏幕上快速閃過的一小組字符進行分類。該實驗的混淆矩陣(confusion matrix)記錄每個字符被分類為自己的次數(shù)和被分類為另一個字符的次數(shù)。例如,假定0出現(xiàn)了200次,它被分類為0160次,而被分類為o40次。類似地,o出現(xiàn)200次并且分類為o170次,但是分類為0只有30次。如果取這些計數(shù)作為兩個字符之間相似性的度量,則得到一種相似性度量,但這種相似性度量不是對稱的。在這種情況下,通過選取s39。(x, y) = s39。 (y, x) = (s(x, y) + s(y, x))/2,相似性度量可以轉換成對稱的,其中s39。是新的相似性度量。5) 鄰近性度量的例子本節(jié)給出一些相似性和相異性度量的具體例子。1. 二元數(shù)據(jù)的相似性度量兩個僅包含二元屬性的對象之間的相似性度量也稱為相似系數(shù)(similarity coefficient),并且通常在0和1之間取值,值為1表明兩個對象完全相似,而值為0表明對象一點也不相似。有許多理由表明在特定情形下,一種系數(shù)為何比另一種好。設x和y是兩個對象,都由n個二元屬性組成。這樣的兩個對象(即兩個二元向量)的比較可生成如下四個量(頻率):f00 =x取0并且y取0的屬性個數(shù)f01 =x取0并且y取1的屬性個數(shù)f10 =x取1并且y取0的屬性個數(shù)f11 =x取1并且y取1的屬性個數(shù)簡單匹配系數(shù)(Simple Matching Coefficient, SMC),一種常用的相似性系數(shù)是簡單匹配系數(shù),定義如下:該度量對出現(xiàn)和不出現(xiàn)都進行計數(shù)。因此,SMC可以在一個僅包含是非題的測驗中用來發(fā)現(xiàn)回答問題相似的學生。Jaccard系數(shù)(Jaccard Coefficient),假定x和y是兩個數(shù)據(jù)對象,代表一個事務矩陣的兩行(兩個事務)。如果每個非對稱的二元屬性對應于商店的一種商品,則1表示該商品被購買,而0表示該商品未被購買。由于未被顧客購買的商品數(shù)遠大于被其購買的商品數(shù),因而像SMC這樣的相似性度量將會判定所有的事務都是類似的。這樣,常常使用Jaccard系數(shù)來處理僅包含非對稱的二元屬性的對象。Jaccard系數(shù)通常用符號J表示,由如下等式定義:例4 SMC和Jaccard相似性系數(shù)。為了解釋這兩種相似性度量之間的差別,我們對如下二元向量計算SMC和J:x = (1, 0, 0, 0, 0, 0, 0, 0, 0, 0)y = (0, 0, 0, 0, 0, 0, 1, 0, 0, 1)f01 = 2 x取0并且y取1的屬性個數(shù)f10 = 1 x取1并且y取0的屬性個數(shù)f00 = 7 x取0并且y取0的屬性個數(shù)f11 = 0 x取1并且y取1的屬性個數(shù)2. 余弦相似度通常,文檔用向量表示,向量的每個屬性代表一個特定的詞(術語)在文檔中出現(xiàn)的頻率。當然,實際情況要復雜得多,因為需要忽略常用詞,并使用各種技術處理同一個詞的不同形式、不同的文檔長度以及不同的詞頻。盡管文檔具有數(shù)以百千計或數(shù)以萬計的屬性(詞),但是每個文檔向量都是稀疏的,因為它具有相對較少的非零屬性值。(文檔規(guī)范化并不對零詞目創(chuàng)建非零詞目,即文檔規(guī)范化保持稀疏性。)這樣,與事務數(shù)據(jù)一樣,相似性不能依賴共享0的個數(shù),因為任意兩個文檔多半
點擊復制文檔內容
職業(yè)教育相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1