【正文】
謂時(shí)間序列數(shù)據(jù)就是按時(shí)間先后順序排列各個(gè)觀測(cè)記錄的數(shù)據(jù)集[1],如金融證券市場(chǎng)中每天的股票價(jià)格變化;商業(yè)零售行業(yè)中,某項(xiàng)商品每天的銷(xiāo)售額;氣象預(yù)報(bào)研究中,某一地區(qū)的每天氣溫與氣壓的讀數(shù);以及在生物醫(yī)學(xué)中,某一癥狀病人在每個(gè)時(shí)刻的心跳變化等等。南昌大學(xué)2003級(jí)碩士學(xué)位論文文獻(xiàn)綜述報(bào)告基于股票時(shí)間序列數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究Study on Mining Association Rules from Stock Time Series Data 系 別: 計(jì)算機(jī)科學(xué)與技術(shù)系專(zhuān) 業(yè): 計(jì)算機(jī)應(yīng)用技術(shù)研究方向: 人工智能研 究 生: 汪廷華導(dǎo) 師: 程從從(教授)2005年03月一.引言隨著計(jì)算機(jī)信息系統(tǒng)的日益普及,大容量存儲(chǔ)技術(shù)的發(fā)展以及條形碼等數(shù)據(jù)獲取技術(shù)的廣泛應(yīng)用,人們?cè)谌粘J聞?wù)處理和科學(xué)研究中積累了大量的各種類(lèi)型的數(shù)據(jù)。在這些數(shù)據(jù)中,有很大一部分是呈現(xiàn)時(shí)間序列(time series)類(lèi)型的數(shù)據(jù)。然而,我們應(yīng)該注意到:時(shí)間序列數(shù)據(jù)不僅僅是歷史事件的記錄,更重要的是蘊(yùn)藏這些數(shù)據(jù)其中不顯現(xiàn)的、有趣的模式。時(shí)間序列數(shù)據(jù)分析按照不同的任務(wù)有各種不同的方法,一般包括趨勢(shì)分析、相似性搜索、與時(shí)間有關(guān)數(shù)據(jù)的序列模式挖掘、周期模式挖掘等[2]。二.股票時(shí)間序列傳統(tǒng)研究方法概述隨著我國(guó)市場(chǎng)經(jīng)濟(jì)建設(shè)的發(fā)展,人們的金融意識(shí)和投資意識(shí)日益增強(qiáng)。目前股票投資已經(jīng)是眾多個(gè)人理財(cái)中的一種重要方式。于是,在股票的預(yù)測(cè)和分析方面出現(xiàn)了大量的決策分析方法和工具,以期能有效地指導(dǎo)投資者的投資決策。1.基本分析和技術(shù)分析在股票市場(chǎng)上,當(dāng)投資者考慮是否投資于股票或購(gòu)買(mǎi)什么股票時(shí),一般可以運(yùn)用基本分析的方法對(duì)股市和股票進(jìn)行分析;而在買(mǎi)賣(mài)股票的時(shí)機(jī)把握上,一般可以運(yùn)用技術(shù)分析的方法[4]。技術(shù)分析是完全根據(jù)股市行情變化而加以分析的方法,它通過(guò)對(duì)歷史資料(成交價(jià)和成交量)進(jìn)行分析,來(lái)判斷大盤(pán)和個(gè)股價(jià)格的未來(lái)變化趨勢(shì),探討股市里投資行為的可能轉(zhuǎn)折,從而給投資者買(mǎi)賣(mài)股票的信號(hào),適合于投資者作短期投資。2.經(jīng)濟(jì)統(tǒng)計(jì)學(xué)分析主要針對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行數(shù)學(xué)建模和分析。傳統(tǒng)時(shí)間序列數(shù)據(jù)分析的研究目的在于[5]:●分析特定的數(shù)據(jù)集合,建立數(shù)學(xué)模型,進(jìn)行模式結(jié)構(gòu)分析和實(shí)證研究;●預(yù)測(cè)時(shí)間序列的未來(lái)發(fā)展情況。20世紀(jì)70年代,《時(shí)間序列分析:預(yù)測(cè)和控制》,對(duì)平穩(wěn)時(shí)間序列數(shù)據(jù)提出了自回歸滑動(dòng)平均模型(ARMA),以及一整套的建模、估計(jì)、檢驗(yàn)和控制方法,使得時(shí)序數(shù)據(jù)分析得以廣泛運(yùn)用于各種工程領(lǐng)域。該模型以證券市場(chǎng)為非有效市場(chǎng)為前提,當(dāng)期的股票價(jià)格變化不僅受當(dāng)期隨機(jī)因素的沖擊,而且受前期影響。采用的方法一般是在連續(xù)的時(shí)間流中截取一個(gè)時(shí)間窗口(一個(gè)時(shí)間段),窗口內(nèi)的數(shù)據(jù)作為一個(gè)數(shù)據(jù)單元,然后讓這個(gè)時(shí)間窗口在時(shí)間流上滑動(dòng),以獲得建立模型所需要的訓(xùn)練集[6]。其基本理論基礎(chǔ)是:一個(gè)線性模型不能描述混沌時(shí)間序列的全局性特征,但在一個(gè)小的時(shí)間間隔內(nèi),系統(tǒng)的行為卻可以用某種線性模型近似??梢钥闯觯?jīng)濟(jì)統(tǒng)計(jì)學(xué)為問(wèn)題的探索解決方案提供了有用而實(shí)際的框架;模型是經(jīng)濟(jì)統(tǒng)計(jì)學(xué)的核心,模型的選擇和計(jì)算往往被認(rèn)為是次要的,是建立模型的枝節(jié)。但是,在大量數(shù)據(jù)集中往往存在一些未被人們預(yù)期到但又具有價(jià)值的信息,人們?yōu)榘l(fā)現(xiàn)大量數(shù)據(jù)中隱藏的規(guī)律和模式,就需要新的具有“探索性”的分析工具。三.?dāng)?shù)據(jù)挖掘技術(shù)應(yīng)用于股票時(shí)間序列分析的研究現(xiàn)狀數(shù)據(jù)挖掘(DM,Data Mining),也稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD,Knowledge Discovery in Database)是數(shù)據(jù)庫(kù)技術(shù)和機(jī)器學(xué)習(xí)等人工智能技術(shù)相結(jié)合的產(chǎn)物,是一門(mén)新興的數(shù)據(jù)智能分析技術(shù)[9]。到了90年代,人們提出在數(shù)據(jù)庫(kù)基礎(chǔ)上建立數(shù)據(jù)倉(cāng)庫(kù),應(yīng)用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析相結(jié)合的方法處理數(shù)據(jù),這兩者的結(jié)合促成了數(shù)據(jù)挖掘技術(shù)的誕生。挖掘算法的好壞直接影響到知識(shí)發(fā)現(xiàn)的質(zhì)量和效率,因此目前大多數(shù)研究都集中于數(shù)據(jù)挖掘算法及其應(yīng)用上。關(guān)聯(lián)規(guī)則挖掘本質(zhì)是從大量的數(shù)據(jù)中或?qū)ο箝g抽取關(guān)聯(lián)性,它可以揭示數(shù)據(jù)間的依賴(lài)關(guān)系,根據(jù)這種關(guān)聯(lián)性就可以從某一數(shù)據(jù)對(duì)象的信息來(lái)推斷另一對(duì)象的信息。D中的每個(gè)事務(wù)T是項(xiàng)的集合,且滿(mǎn)足T205。稱(chēng)事務(wù)T支持物品集X,如果X205。關(guān)聯(lián)規(guī)則是如下形式的一種蘊(yùn)含式:X→Y,其中X205。I,且X∩Y= f。(2) 稱(chēng)規(guī)則X→Y在事務(wù)數(shù)據(jù)庫(kù)D中具有大小為c的可信度,如果D中支持物品集X的事務(wù)中有c%的事務(wù)同時(shí)也支持物品集Y,即confidence(X→Y)=P(Y|X)。用戶(hù)可以定義二個(gè)閾值,要求數(shù)據(jù)挖掘系統(tǒng)所生成的規(guī)則的支持度和可信度都不小于給定的閾值。已知事物數(shù)據(jù)庫(kù)D,關(guān)聯(lián)規(guī)則的挖掘問(wèn)題就是產(chǎn)生支持度與置信度分別大于用戶(hù)給定的最小閾值的所有關(guān)聯(lián)規(guī)則。具有最小支持度的項(xiàng)目集稱(chēng)為頻繁項(xiàng)集。形式地,對(duì)于每一個(gè)頻繁項(xiàng)目集A,找出A的所有非空子集a,如果比率support(A)/support(a)≥min_conf(可信度),就生成關(guān)聯(lián)規(guī)則a→(Aa)。目前已有不少挖掘頻繁項(xiàng)集的方法,[11],其核心是利用這樣一個(gè)性質(zhì):頻繁項(xiàng)集的所有非空子集都是頻繁的。首先找出頻繁1項(xiàng)集,記作L1;用L1找頻繁2項(xiàng)集L2;而L2用于找L3,如此下去,直到不能找到頻繁k項(xiàng)集。后來(lái)的一些研究人員對(duì)算法的連接和剪枝過(guò)程進(jìn)行各種優(yōu)化。它認(rèn)為不包含任何k項(xiàng)集的事務(wù)不可能包含任何k+1項(xiàng)集,這樣,這種事務(wù)在其后的考慮時(shí),可以加上標(biāo)記或刪除,因?yàn)闉楫a(chǎn)生j項(xiàng)集(j>k),掃描數(shù)據(jù)庫(kù)時(shí)不再需要它們。而[13]提出的AprioriPro算法,其基本思想與AprioriTid是一致的,也是減少對(duì)數(shù)據(jù)集的掃描,不同的是AprioriPro算法是通過(guò)在原有的數(shù)據(jù)集上增加一個(gè)屬性,通過(guò)這個(gè)屬性的取值來(lái)減少對(duì)某些事務(wù)的掃描。這些改進(jìn)算法雖然比Apriori算法在挖掘效率上有一些提高,但本質(zhì)上沒(méi)有什么區(qū)別,都要在挖掘過(guò)程中生成大量的候選模式集。利用FPTree 可以壓縮事務(wù)數(shù)據(jù)集,壓縮有的達(dá)到100多倍;而樹(shù)-投影方法從原理上講是適應(yīng)任何數(shù)據(jù)集的,無(wú)論其據(jù)量多大該算法都能有效運(yùn)行,從而使得關(guān)聯(lián)規(guī)則挖掘可以應(yīng)用于海量數(shù)據(jù)的挖掘和稠密數(shù)據(jù)集的挖掘。(1)繼續(xù)通過(guò)各種手段提高挖掘效率。(2)不同形式關(guān)聯(lián)規(guī)則的研究。由最簡(jiǎn)單的單維、單層、布爾關(guān)聯(lián)規(guī)則逐漸向復(fù)雜形式擴(kuò)展。關(guān)聯(lián)規(guī)則形式的多樣化,反映了人們從不同角度認(rèn)識(shí)同一事物的不同視點(diǎn),加深了對(duì)關(guān)聯(lián)規(guī)則的認(rèn)識(shí)與研究。引入粗糙集概念,使關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的模式具有較高的解釋能力和精確度[26];通過(guò)引入神經(jīng)網(wǎng)絡(luò)的概念,提出用相互激活與競(jìng)爭(zhēng)網(wǎng)絡(luò)來(lái)進(jìn)行數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)[27];還有基于遺傳算法的多維關(guān)聯(lián)規(guī)則挖掘[28]等。(4)關(guān)聯(lián)規(guī)則的價(jià)值評(píng)判標(biāo)準(zhǔn)研究。(5)關(guān)聯(lián)規(guī)則的應(yīng)用研究。關(guān)聯(lián)規(guī)則自提出以來(lái),經(jīng)過(guò)無(wú)數(shù)學(xué)者的研究努力,廣泛應(yīng)用于社會(huì)生產(chǎn)和科研的各個(gè)方面,產(chǎn)生了巨大的效益[30,31,32,33]。設(shè)有一個(gè)交易數(shù)據(jù)庫(kù)D,每個(gè)顧客可在不同時(shí)間購(gòu)買(mǎi)不同物品,每次購(gòu)買(mǎi)活動(dòng)稱(chēng)為交易(Transaction)。如果以Customer_ID為第一關(guān)鍵字,Transaction_Time為第二關(guān)鍵字對(duì)數(shù)據(jù)庫(kù)D排序,