freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

時間序列挖掘聚類-wenkub

2023-03-23 18:37:34 本頁面
 

【正文】 價標(biāo)準(zhǔn) ? 1) 可伸縮性: 可伸縮性考察聚類算法對亍目標(biāo)對象集合的規(guī)模以及目標(biāo)集合潛在的模式數(shù)量的適應(yīng)性。所謂聚類,是指將物理或抽象對象的集合 分組 成為由 類似的對象 組成的多個類的過程 。 ? 聚類是依據(jù)事物的某些屬性將其聚集成類,使 類間相似性盡量小,類內(nèi)相似性盡量大 。 ? 2) 處理丌同類型屬性的能力: 除了通常處理的數(shù)值型數(shù)據(jù),應(yīng)用當(dāng)中可能要求聚類其它類型的數(shù)據(jù),如:二元類型,分類 /標(biāo)稱類型,序數(shù)型, 時間序列 、圖數(shù)據(jù)或者丌同數(shù)據(jù)類型的混合。 ? 4)交互可視化: 高維數(shù)據(jù)和復(fù)雜對象常常使可視化變得困難,而 交互性則使算法不人結(jié)合 有利亍提高聚類的質(zhì)量。一些聚類算法對亍這樣的數(shù)據(jù)敏感,導(dǎo)致聚類質(zhì)量 丌高。 時間序列聚類概述 ? 時間序列聚類是時間序列數(shù)據(jù)挖掘的一個非常基礎(chǔ)且非?;钴S的研究方向,被廣泛應(yīng)用于包括模式識別、數(shù)據(jù)分析、圖像處理、市場分析等各個領(lǐng)域:零售數(shù)據(jù)的季節(jié)模式聚類、國家能源消耗聚類分析、心電圖 ECG信號聚類分析、股票序列的模式發(fā)現(xiàn)以及個人收入數(shù)據(jù)的聚類等等 (Valk and Pinheiro, 2023, Rodrigues et al., 2023, Costa Santos et al., 2023, Berkhin, 2023, Warren Liao,2023, Bagnall and Janacek, 2023)。 基亍特征數(shù)據(jù)的時間序列聚類 ? 基于特征的表示方法是 把原始時間序列轉(zhuǎn)換到一個低維的特征空間,然后用傳統(tǒng)的聚類方法對特征向量進(jìn)行聚類 (Yang et al., 2023, Xiaozhe et al., 2023,Keogh et al., 2023, Chen, 2023, Zhang et al., 2023, Wang et al., 2023, Costa Santos et al., 2023, Wang et al., 2023, Bagnall and Janacek, 2023, Domeniconi et al., 2023)。 這種方法的不足之處在于需要對數(shù)據(jù)的分布進(jìn)行預(yù)先假設(shè),此外,對參數(shù)的聚類結(jié)果無法進(jìn)行解釋,使得聚類缺乏可理解性。 ?實現(xiàn):圍繞中心點劃分( Partitioning Around Medoids, PAM)算法 ?算法 :k中心點。根據(jù)層次的分解如何形成,層次的方法可以分為凝聚的(agglomerative or merging)和分裂的( divisive or splitting)兩種類型。 ? 層次方法的缺陷在于,一旦一個步驟完成,就不能夠被撤銷。 CK}; LB_Keogh: 一種考慮彎曲路徑限制的 DTW 計算方法 ? 對于彎曲路徑限制為 w 的時間序列 DTW 距離計算,定義兩個序列 U 和 L,其中對于第 i 個元素我們有如下的上下界定義: ? U 和 L 作為在 2w 時間窗內(nèi),對于原時間序列的每個元素所對應(yīng)的上下界,表現(xiàn)在圖形上實際上是形成了一個帶狀的域?qū)⒃紩r間序列包裹在這個域中,如圖 34 所示。 LB_Keogh的 Matlab實現(xiàn) LB_Keogh=sqrt(sum([[Q U].* [QU]。距離產(chǎn)生方式如圖 35 所示。這可以減少距離計算的次數(shù)。 ? 3) 計算兩兩簇之間的距離,記錄具有最小距離的兩個簇,將兩個簇歸并,根據(jù)歸并算法更新聚類中心。這也是應(yīng)用 LB_Hust 距離計算函數(shù)的一個重要原因。 ? 2) 找到距離矩陣中的最小距離對應(yīng)的兩個簇,合并,形成新的簇中心。 ? 對于上述采用距離矩陣的層次聚類,相比前面算法,每一層合并時,距離計算次數(shù)為 c(n,2)次,其中 n 表示當(dāng)前層中的簇數(shù),時間復(fù)雜度為 o(n2),采用距離矩陣方法則每次僅需計算 n 次距離。通過對多支股票的聚類,可以發(fā)現(xiàn)股票運動規(guī)律相似的企業(yè),對中長期股票投資者選股提供一些參考。在提取的數(shù)據(jù)中發(fā)現(xiàn),股票數(shù)據(jù)存在如下兩個特點: 一、由于股市的休市,股票數(shù)據(jù)存在空值 ;二、股票之間的收盤價存在很大差異 。 ? 針對公司內(nèi)部事件引起的空值采取填補處理。 股票數(shù)據(jù)聚類:數(shù)據(jù)的歸一化 ? 針對股票數(shù)據(jù)間的股價差距大的問題,采用歸一化處理,歸一化處理主要解決比較數(shù)據(jù)間量綱不統(tǒng)一的問題,在對股票進(jìn)行聚類分析中,股票的相似性集中于股價變化趨勢的相似性,而非股價之間的相似性,所以采用以下公式 對數(shù)據(jù)進(jìn)行歸一化處理。 股票數(shù)據(jù)聚類:聚類結(jié)果 ? 運行層次聚類算法時初始設(shè)定聚類簇數(shù)為 4個,同時設(shè)定時間彎折窗口 w為 3。 ? 流數(shù)據(jù)聚類算法通常會維護(hù)一個 “ 概要數(shù)據(jù)結(jié)構(gòu) ” ,用來保存數(shù)據(jù)的摘要信息,當(dāng)需要輸出聚類結(jié)果時,以概要數(shù)據(jù)結(jié)構(gòu)中保存的信息作為目標(biāo)對象集合,生成所需要的結(jié)果。大量的通話記錄以時間順序排列,匯集到移動公司的數(shù)據(jù)中心,也可以被抽象為是一種 “ 流 ” 。 ? 其次,這些數(shù)據(jù)均 按照時間順序連續(xù)到達(dá) 。 流數(shù)據(jù)聚類問題模型 ? 對該問題模型,有幾點需要說明: ? 1)目標(biāo)集合中數(shù)據(jù)對象的個數(shù) N 通常在數(shù)量級上遠(yuǎn)遠(yuǎn)大于傳統(tǒng)算法中的數(shù)據(jù)集合,通常無法將全部數(shù)據(jù)讀入內(nèi)存進(jìn)行分析,因此難以利用傳統(tǒng)的聚類算法解決這類問題。 流數(shù)據(jù)聚類問題模型 ? 3)流數(shù)據(jù)算法的目標(biāo)集合是數(shù)據(jù)流中截取的某一個時間段 (時間窗 )的對象集合。因此,在每一個階段都要將誤差嚴(yán)格控制在一個較小的區(qū)間之內(nèi)。 ? SmallSpace 算法正是這類算法的典型代表。 ? 4) 迭代執(zhí)行上述過程,每次迭代至多保留 m 個 i級中心點,否則進(jìn)行聚類得到 O(k)個 (i+1)級中心點。 雙層流數(shù)據(jù)聚類 ? J. Han 提出雙層結(jié)構(gòu)算法 CluStream[12] ? 雙層聚類算法將處理工作分為兩個層面:在線層算法負(fù)責(zé)對數(shù)據(jù)進(jìn)行粗糙但快速的處理,并負(fù)責(zé)保存中間結(jié)果;離線層算法在中間結(jié)果的基礎(chǔ)上進(jìn)行精確而復(fù)雜的分析,此時目標(biāo)集合已成為靜態(tài)集合,因此通常情況下不必考慮數(shù)據(jù)流速的影響,并得到最終結(jié)果。這些信息可以被用來推演數(shù)據(jù)的分布狀態(tài),可以用如下公式計算數(shù)據(jù)集合的方差 J: CluStream基本思想 ? 算法在初始化時,首先吸收足夠的數(shù)據(jù)點,利用 k均值方法對這些初始數(shù)據(jù)點進(jìn)行聚類得到 k 個微簇。易見用戶對最近數(shù)據(jù)更感興趣。所用的數(shù)據(jù)是在線部分形成的統(tǒng)計信息,這可以滿足內(nèi)存有限的需求。 ( 3)調(diào)整階段 一個給定劃分的新種子被定義成那個劃分中帶權(quán)重的微簇中心。 , March 23, 2023 ? 雨中黃葉樹,燈下白頭人。 :31:0018:31:00March 23, 2023 ? 1他鄉(xiāng)生白發(fā),舊國見青山。 2023年 3月 23日星期四 6時 31分 0秒 18:31:0023 March 2023 ? 1做前
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1