【文章內(nèi)容簡(jiǎn)介】
? 股票數(shù)據(jù)作為典型的時(shí)間序列數(shù)據(jù),被眾多時(shí)間序列挖掘方法作為實(shí)驗(yàn)性數(shù)據(jù)。典型的股票行情原始數(shù)據(jù)包括股票的開盤價(jià)、最高價(jià)、最低價(jià)、收盤價(jià)、成交量、成交金額等,所有屬性的值對(duì)應(yīng)著一個(gè)特定時(shí)刻,在固定時(shí)間段內(nèi)形成了典型的時(shí)間序列數(shù)據(jù)。 ? 對(duì)于多支股票的聚類是從控股公司間的經(jīng)營(yíng)狀況、經(jīng)營(yíng)手段及外界影響因素的相似程度進(jìn)行聚類。通過對(duì)多支股票的聚類,可以發(fā)現(xiàn)股票運(yùn)動(dòng)規(guī)律相似的企業(yè),對(duì)中長(zhǎng)期股票投資者選股提供一些參考。 股票數(shù)據(jù)聚類:數(shù)據(jù)準(zhǔn)備 ? 采用搜狐財(cái)經(jīng)網(wǎng) (股票歷史行情數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),從中選擇 29 支股票作為實(shí)驗(yàn)數(shù)據(jù):寶鋼股份、包鋼股份、上海電力、招商輪船、中國石油 、中國銀行、中海油服、武鋼股份、東湖高新、萬東醫(yī)療、林海股份、中視傳媒等。在數(shù)據(jù)庫中,存儲(chǔ)股票的名稱采用字母代號(hào)表示,將 29 支股票對(duì)應(yīng)到 A~A3 的 29 個(gè)字母串。 ? 抽取從 2023年 3月份到 2023年五月份的股票歷史行情數(shù)據(jù),將其中的每日收盤價(jià)作為實(shí)驗(yàn)數(shù)據(jù)。在提取的數(shù)據(jù)中發(fā)現(xiàn),股票數(shù)據(jù)存在如下兩個(gè)特點(diǎn): 一、由于股市的休市,股票數(shù)據(jù)存在空值 ;二、股票之間的收盤價(jià)存在很大差異 。 股票數(shù)據(jù)聚類:數(shù)據(jù)準(zhǔn)備 ? 股票數(shù)據(jù)普遍存在空值,主要是基于兩種情況:一、正常的股市休市。二、個(gè)別控股公司由于內(nèi)部整合或者公司內(nèi)部事件出現(xiàn)停開。 ? 每支股票數(shù)據(jù)在休市時(shí)都是空值,因此可采用直接刪除的方法不會(huì)影響到時(shí)間序列的時(shí)間對(duì)等性。 ? 針對(duì)公司內(nèi)部事件引起的空值采取填補(bǔ)處理。填補(bǔ)數(shù)據(jù)根據(jù)線性化函數(shù)取得,對(duì)每個(gè)空值,以空值上下非空數(shù)據(jù)為端點(diǎn)得到一次線性化函數(shù),通過線性化函數(shù)可以取得空值對(duì)應(yīng)時(shí)間點(diǎn)的股價(jià)。 股票數(shù)據(jù)聚類:數(shù)據(jù)準(zhǔn)備 ? 采用線性化函數(shù)進(jìn)行填補(bǔ)處理是基于兩點(diǎn)考慮: ? 首先,基于對(duì) LB_Hust 距離計(jì)算的過程,對(duì)于時(shí)間序列曲線,趨勢(shì)的變動(dòng)和時(shí)間序列的連續(xù)能夠增強(qiáng)相似性比較效果,所以,對(duì)空值數(shù)據(jù)進(jìn)行線性的平滑處理可以更好地應(yīng)用 LB_Hust 距離計(jì)算方法。 ? 其次,從實(shí)際意義來看,在空值出現(xiàn)前的階段和空值結(jié)束后,兩者股價(jià)一般不同,可見在股價(jià)為空值的階段,實(shí)際上隱藏著一些影響股價(jià)變動(dòng)的因素發(fā)生著作用,通過線性化函數(shù),將期間出現(xiàn)的變化過程連續(xù)的表達(dá)出來,函數(shù)中的斜率保持了股價(jià)在空值出現(xiàn)階段的趨勢(shì)變動(dòng)變化規(guī)律,通過這種填補(bǔ)方法使得股價(jià)波動(dòng)曲線更連續(xù)和平滑 股票數(shù)據(jù)聚類:數(shù)據(jù)的歸一化 ? 除了空值問題,股票數(shù)據(jù)另一典型的特點(diǎn)就是不同公司的股價(jià)在數(shù)值上差異很大。 股票數(shù)據(jù)聚類:數(shù)據(jù)的歸一化 ? 針對(duì)股票數(shù)據(jù)間的股價(jià)差距大的問題,采用歸一化處理,歸一化處理主要解決比較數(shù)據(jù)間量綱不統(tǒng)一的問題,在對(duì)股票進(jìn)行聚類分析中,股票的相似性集中于股價(jià)變化趨勢(shì)的相似性,而非股價(jià)之間的相似性,所以采用以下公式 對(duì)數(shù)據(jù)進(jìn)行歸一化處理。 股票數(shù)據(jù)聚類:聚類結(jié)果 ? 運(yùn)行層次聚類算法時(shí)初始設(shè)定聚類簇?cái)?shù)為 4個(gè),同時(shí)設(shè)定時(shí)間彎折窗口 w為 3。 股票數(shù)據(jù)聚類:聚類結(jié)果 ? 運(yùn)行層次聚類算法時(shí)初始設(shè)定聚類簇?cái)?shù)為 4個(gè),同時(shí)設(shè)定時(shí)間彎折窗口 w為 3。 股票數(shù)據(jù)聚類:聚類結(jié)果 ? 運(yùn)行層次聚類算法時(shí)初始設(shè)定聚類簇?cái)?shù)為 4個(gè),同時(shí)設(shè)定時(shí)間彎折窗口 w為 3。 股票數(shù)據(jù)聚類:聚類結(jié)果 ? 運(yùn)行層次聚類算法時(shí)初始設(shè)定聚類簇?cái)?shù)為 4個(gè),同時(shí)設(shè)定時(shí)間彎折窗口 w為 3。 基亍 SAX表示的聚類 ? Hierarchical Clustering – Compute pairwise distance, merge similar clusters bottomup – Compared with Euclidean, IMPACTS, and SDA ? 基于 SAX表示的距離 PAA distance lowerbounds the Euclidean Distance 0 20 40 60 80 100 120 1 0 1 C Q 0 20 40 60 80 100 120 1 0 1 C Q = baabccbc C ? = babcacca Q ? ? ? ? ?? ???ni iicqCQD12,Euclidean Distance ? ?? ? ?? wi iiwn cqCQDR 1 2),( ? ????wi iiwn cqdistCQMINDIST12)?,?()?,?(dist() can be implemented using a table lookup. Hierarchical Clustering E u c li d e a n I MP A C T S ( a l p h a b e t = 8 ) S D A SAX We can objectively state that SAX is superior, since it correctly assigns each class to its own subtree. 數(shù)據(jù)類別事先已知: decreasing trend, upward shift and normal classes Clustering ? Hierarchical Clustering – Compute pairwise distance, merge similar clusters bottomup – Compared with Euclidean, IMPACTS, and SDA ? Partitional Clustering – Kmeans – Optimize the objective function by minimizing the sum of squared intracluster errors – Compared with Raw data – 比層次聚類具有更好的可伸縮性 Partitional (Kmeans) Clustering Working with an approximation of the data gives better results than working with the original data. It has been shown that initializing the clusters centers on a low dimension approximation of the data can improve the quality, this is what clustering with SAX i