freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

聚類分析文獻(xiàn)英文翻譯-其他專業(yè)(文件)

2025-02-12 02:45 上一頁面

下一頁面
 

【正文】 it K K? ? ? 。 離群值 可能代表數(shù)據(jù)里的錯誤值 (可能是一個傳感器故障記錄)或 者 可能是 與其余數(shù)據(jù)值差異過大的 正確數(shù)據(jù)。 如 圖 描述的問題 所示 。 實際上許多聚類算法想找到理想聚類集合的輸入數(shù)目,這個做事實上是很復(fù)雜的 。水位值極高 非常不容易出現(xiàn) , 與 正常水位值 相比可能就 是異常值。一 些異常檢測技術(shù)是基于統(tǒng)計技術(shù) 基礎(chǔ)上的 。 可替代的 檢測技術(shù) 可能 基于距離 測量 。 不過, 對于現(xiàn)實來說 這些測試數(shù)據(jù) 并 不是 很 真實,因為真實的數(shù)據(jù)值可能不遵循定義 好 的數(shù)據(jù)分布。 異常檢測,或離群數(shù)據(jù)挖掘, 是在數(shù)據(jù)集合中確定離群值的過程。 但是,在實際消除異常點 時 必須 要 注意。但是,如果兩個 集合 被發(fā)現(xiàn)(虛線),兩個(顯然)不同的數(shù)據(jù) 集合 將被放置在 聚類集合中 ,因為 它 們比 離群值聯(lián)系更緊密 。在分析個人 的 高度 時 ,此值 就應(yīng)該被視為一個離群值。這樣我們可以得到 dis( ,ijKK)=dis( ,ijCC), iC 為 iK的質(zhì)心并且與jC類似。 這 樣 我 們 可 以 得 到dis( ,ijKK)= m a x ( ( , ) )il jm il i jd is t t t K K? ? ?and jm j it K K? ? ? 。 已知聚類集合 iK 和 jK ,有幾個標(biāo)準(zhǔn)的 供選方案 來計算 聚類集合 之間的距離。 半徑是 從集合中的中心點到聚類集合 中的任何點 間 的距離 的平方根,并且是對聚類集合中所有點而言的 。 度量屬性滿足三角不等式。 在第二個定義 中的敘述的 相似關(guān)系是 可以獲得的特點 , 但是并不總 能獲得 。 最重要的是,在 某個聚類中的一個數(shù)組比聚類外的數(shù)組 更像 聚類中的 。 我們在以下各節(jié)討論許多聚類算法。由于通常 用分層 分類 的 技術(shù)來完成, 有些算法分析屬性值每次只分析一個 。 “ 凝聚 ”意味著在一個 聚類 是 通過自下而上的方式產(chǎn)生,而分裂算法則是以 自上而下的方式工作。內(nèi)在的算法 沒有 使用任何先驗的類別標(biāo)簽,僅僅依賴于矩陣 中 鄰 近 對象之間的距離。即使我們只考慮重疊的 聚類 ,它可以 把某個項目 放置在多個 聚類中 。傳統(tǒng)的聚類算法往往是針對 適合 小數(shù)據(jù)庫 。在最 頂層 ,所有的項目屬于同一 集合 。聚類 算法 本身 就可 視為分層或 分塊 的。 不失一般性 , 我們 認(rèn)為,解決問題的結(jié)果 建立的聚類集合:K={ 12, ,..., kk k k }。 與分類過程中的學(xué)習(xí)不同, 分類有一些先驗知識, 知道每個分類的屬性 , 而 在聚類 分析中 ,沒有 有 監(jiān)督的學(xué)習(xí) 來促進(jìn)這一過 程。同樣,一個領(lǐng)域的專家可能需要。下面是其中一個領(lǐng)域?qū)<沂切枰獮槊總€ 聚類分配一個標(biāo)簽或解釋。 ? 解 釋 每 個聚類 的 意義可能是困難的。它們可以被看作是孤立集 合 。 最先 使用 聚類分析的 領(lǐng)域是生物分類學(xué)。 家庭地理位置 相近 , 彼此都聚集在一起。 一個簡單聚類分析 的例子見 例 說明了決定如何做聚類并不 是容易的 。 ? 在 聚類 中的點之間的距離比在 聚類 中的一個點 和聚類之外 任何一點之間的距離要小 。一些作者認(rèn)為聚類分析作為一種特殊類型的分類。 it need not be an actual point in the cluster. Some clustering algorithms alternatively assume that the cluster is represented by one centrally located object in the cluster called a medoid. The radius is the square root of the average mean squared distance from any point in the cluster to the centroid, and of points in the cluster. We use the notation mM to indicate the medoid for cluster mK . Many clustering algorithms require that the distance between clusters (rather than elements) be determined. This is not an easy task given that there are many interpretations for distance between clusters. Given clusters iK and jK , there are several standard alternatives to calculate the distance between clusters. A representative list is: ? Single link: Smallest distance between an element in one cluster and an element in the other. We thus have dis( ,ijKK)= m i n( ( , ) )il jm il i jdi s t t t K K? ? ?and jm j it K K? ? ? . ? Complete link: Largest distance between an element in one cluster and an element in the other. We thus have dis( ,ijKK)= m a x ( ( , ) )il jm il i jd is t t t K K? ? ?and jm j it K K? ? ? . ? Average: Average distance between an element in one cluster and an element in the other. We thus have dis( ,ijKK)= ( ( , ) )il jm il i jm e a n d is t t t K K? ? ?and jm j it K K? ? ? . ? Centroid: If cluster have a representative centroid, then the centroid distance is defined as the distance between the centroids. We thus have dis( ,ijKK)=dis( ,ijCC), where iC is the centroid for iK and similarly for jC. ? Medoid: Using a medoid to represent each cluster, the distance between the clusters can be defined by the distance between the medoids: dis( ,ijKK)= ( , )ijdis M M OUTLIERS As mentioned earlier, outliers are sample points with values much different from those of the remaining set of data. Outliers may represent errors in the data (perhaps a malfunctioning sensor recorded an incorrect data value) or could be correct data values that are simply much different from the remaining data. A person who is meters tall is much taller than most people. In analyzing the height of individuals, this value probably would be viewed as an outlier. Some clustering techniques do not perform well with the presence of outliers. This problem is illustrated in Figure . Here if three clusters are found (solid line), the outlier will occur in a cluster by itself. However,
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1