【正文】
南昌大學(xué)2003級(jí)碩士學(xué)位論文文獻(xiàn)綜述報(bào)告基于股票時(shí)間序列數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究Study on Mining Association Rules from Stock Time Series Data 系 別: 計(jì)算機(jī)科學(xué)與技術(shù)系專(zhuān) 業(yè): 計(jì)算機(jī)應(yīng)用技術(shù)研究方向: 人工智能研 究 生: 汪廷華導(dǎo) 師: 程從從(教授)2005年03月一.引言隨著計(jì)算機(jī)信息系統(tǒng)的日益普及,大容量存儲(chǔ)技術(shù)的發(fā)展以及條形碼等數(shù)據(jù)獲取技術(shù)的廣泛應(yīng)用,人們?cè)谌粘J聞?wù)處理和科學(xué)研究中積累了大量的各種類(lèi)型的數(shù)據(jù)。在這些數(shù)據(jù)中,有很大一部分是呈現(xiàn)時(shí)間序列(time series)類(lèi)型的數(shù)據(jù)。所謂時(shí)間序列數(shù)據(jù)就是按時(shí)間先后順序排列各個(gè)觀測(cè)記錄的數(shù)據(jù)集[1],如金融證券市場(chǎng)中每天的股票價(jià)格變化;商業(yè)零售行業(yè)中,某項(xiàng)商品每天的銷(xiāo)售額;氣象預(yù)報(bào)研究中,某一地區(qū)的每天氣溫與氣壓的讀數(shù);以及在生物醫(yī)學(xué)中,某一癥狀病人在每個(gè)時(shí)刻的心跳變化等等。然而,我們應(yīng)該注意到:時(shí)間序列數(shù)據(jù)不僅僅是歷史事件的記錄,更重要的是蘊(yùn)藏這些數(shù)據(jù)其中不顯現(xiàn)的、有趣的模式。隨著時(shí)間推移和時(shí)間序列數(shù)據(jù)的大規(guī)模增長(zhǎng),如何對(duì)這些海量數(shù)據(jù)進(jìn)行分析處理,挖掘其背后蘊(yùn)藏的價(jià)值信息,對(duì)于我們揭示事物發(fā)展規(guī)律變化的內(nèi)部規(guī)律,發(fā)現(xiàn)不同事物之間的相互關(guān)系,為人們正確認(rèn)識(shí)事物和科學(xué)決策提供依據(jù)具有重要的實(shí)際意義。時(shí)間序列數(shù)據(jù)分析按照不同的任務(wù)有各種不同的方法,一般包括趨勢(shì)分析、相似性搜索、與時(shí)間有關(guān)數(shù)據(jù)的序列模式挖掘、周期模式挖掘等[2]。本綜述是針對(duì)證券業(yè)中股票時(shí)間序列分析的,試圖通過(guò)列舉、分析有關(guān)證券業(yè)中股票時(shí)間序列數(shù)據(jù)分析的原理、方法與技術(shù),著重探討數(shù)據(jù)挖掘中基于股票時(shí)間序列數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘的概念、原理技術(shù)、實(shí)施過(guò)程及存在的障礙和問(wèn)題,以期能有新的發(fā)現(xiàn)和領(lǐng)悟。二.股票時(shí)間序列傳統(tǒng)研究方法概述隨著我國(guó)市場(chǎng)經(jīng)濟(jì)建設(shè)的發(fā)展,人們的金融意識(shí)和投資意識(shí)日益增強(qiáng)。股票市場(chǎng)作為市場(chǎng)經(jīng)濟(jì)的重要組成部分,正越來(lái)越多地受到投資者的關(guān)注。目前股票投資已經(jīng)是眾多個(gè)人理財(cái)中的一種重要方式。不言而喻,如果投資者能正確預(yù)測(cè)股票價(jià)格、選準(zhǔn)買(mǎi)賣(mài)時(shí)機(jī),無(wú)疑會(huì)給投資者帶來(lái)豐厚的收益。于是,在股票的預(yù)測(cè)和分析方面出現(xiàn)了大量的決策分析方法和工具,以期能有效地指導(dǎo)投資者的投資決策。目前,我國(guó)股市用得較多的方法概括起來(lái)有兩類(lèi)[3]:一類(lèi)是基本分析和技術(shù)分析,另一類(lèi)是經(jīng)濟(jì)統(tǒng)計(jì)分析。1.基本分析和技術(shù)分析在股票市場(chǎng)上,當(dāng)投資者考慮是否投資于股票或購(gòu)買(mǎi)什么股票時(shí),一般可以運(yùn)用基本分析的方法對(duì)股市和股票進(jìn)行分析;而在買(mǎi)賣(mài)股票的時(shí)機(jī)把握上,一般可以運(yùn)用技術(shù)分析的方法[4]。基本分析指的是通過(guò)對(duì)影響股票市場(chǎng)供求關(guān)系的基本因素(如宏觀政治經(jīng)濟(jì)形勢(shì)、金融政策、行業(yè)變動(dòng)、公司運(yùn)營(yíng)財(cái)務(wù)狀況等)進(jìn)行分析,來(lái)確定股票的真正價(jià)值,判斷未來(lái)股市走勢(shì),是長(zhǎng)期投資者不可或缺的有效分析手段。技術(shù)分析是完全根據(jù)股市行情變化而加以分析的方法,它通過(guò)對(duì)歷史資料(成交價(jià)和成交量)進(jìn)行分析,來(lái)判斷大盤(pán)和個(gè)股價(jià)格的未來(lái)變化趨勢(shì),探討股市里投資行為的可能轉(zhuǎn)折,從而給投資者買(mǎi)賣(mài)股票的信號(hào),適合于投資者作短期投資。目前技術(shù)分析常用的工具是各種各樣的走勢(shì)圖(K線圖、分時(shí)圖)和技術(shù)指標(biāo)(MA、RSI、OBV等)。2.經(jīng)濟(jì)統(tǒng)計(jì)學(xué)分析主要針對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行數(shù)學(xué)建模和分析。傳統(tǒng)的時(shí)間序列數(shù)據(jù)分析已經(jīng)是一個(gè)發(fā)展得相當(dāng)成熟的學(xué)科,有著一整套分析理論和工具,是目前時(shí)間序列數(shù)據(jù)分析的主要方法,它主要用經(jīng)濟(jì)統(tǒng)計(jì)學(xué)的理論和方法對(duì)經(jīng)濟(jì)變量進(jìn)行描述、分析和推算。傳統(tǒng)時(shí)間序列數(shù)據(jù)分析的研究目的在于[5]:●分析特定的數(shù)據(jù)集合,建立數(shù)學(xué)模型,進(jìn)行模式結(jié)構(gòu)分析和實(shí)證研究;●預(yù)測(cè)時(shí)間序列的未來(lái)發(fā)展情況。傳統(tǒng)的時(shí)間序列數(shù)據(jù)分析最基本的理論是40年代分別由Norbor Wiener和Andrei Kolmogomor提出的。20世紀(jì)70年代,《時(shí)間序列分析:預(yù)測(cè)和控制》,對(duì)平穩(wěn)時(shí)間序列數(shù)據(jù)提出了自回歸滑動(dòng)平均模型(ARMA),以及一整套的建模、估計(jì)、檢驗(yàn)和控制方法,使得時(shí)序數(shù)據(jù)分析得以廣泛運(yùn)用于各種工程領(lǐng)域。其基本思想是根據(jù)各隨機(jī)變量間的依存關(guān)系或自相關(guān)性,從而由時(shí)間序列的過(guò)去值及現(xiàn)在值來(lái)預(yù)測(cè)出未來(lái)的值。該模型以證券市場(chǎng)為非有效市場(chǎng)為前提,當(dāng)期的股票價(jià)格變化不僅受當(dāng)期隨機(jī)因素的沖擊,而且受前期影響。換句話說(shuō),就是歷史信息會(huì)對(duì)當(dāng)前的股票價(jià)格產(chǎn)生一定程度的影響。采用的方法一般是在連續(xù)的時(shí)間流中截取一個(gè)時(shí)間窗口(一個(gè)時(shí)間段),窗口內(nèi)的數(shù)據(jù)作為一個(gè)數(shù)據(jù)單元,然后讓這個(gè)時(shí)間窗口在時(shí)間流上滑動(dòng),以獲得建立模型所需要的訓(xùn)練集[6]。[7]基于股票時(shí)間序列是一種混沌時(shí)間序列的認(rèn)知,提出一種新穎的非線性時(shí)間序列預(yù)測(cè)模型,即滑動(dòng)窗口二次自回歸(MWDAR)模型,該模型使用部分的歷史數(shù)據(jù)及其二次項(xiàng)構(gòu)造自回歸模型,模型參數(shù)用最小二乘法估計(jì)。其基本理論基礎(chǔ)是:一個(gè)線性模型不能描述混沌時(shí)間序列的全局性特征,但在一個(gè)小的時(shí)間間隔內(nèi),系統(tǒng)的行為卻可以用某種線性模型近似。[8]則提出了一種基于嵌入理論和確定集上的預(yù)測(cè)誤差的混沌時(shí)間序列預(yù)測(cè)方法,并探討了在股票價(jià)格預(yù)測(cè)上的應(yīng)用??梢钥闯觯?jīng)濟(jì)統(tǒng)計(jì)學(xué)為問(wèn)題的探索解決方案提供了有用而實(shí)際的框架;模型是經(jīng)濟(jì)統(tǒng)計(jì)學(xué)的核心,模型的選擇和計(jì)算往往被認(rèn)為是次要的,是建立模型的枝節(jié)。經(jīng)濟(jì)統(tǒng)計(jì)學(xué)本質(zhì)上是從事“確定性”分析的,可以說(shuō)統(tǒng)計(jì)方法是“目標(biāo)驅(qū)動(dòng)”的。但是,在大量數(shù)據(jù)集中往往存在一些未被人們預(yù)期到但又具有價(jià)值的信息,人們?yōu)榘l(fā)現(xiàn)大量數(shù)據(jù)中隱藏的規(guī)律和模式,就需要新的具有“探索性”的分析工具。顯然,數(shù)據(jù)挖掘就是這樣的一門(mén)工具。三.?dāng)?shù)據(jù)挖掘技術(shù)應(yīng)用于股票時(shí)間序列分析的研究現(xiàn)狀數(shù)據(jù)挖掘(DM,Data Mining),也稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD,Knowledge Discovery in Database)是數(shù)據(jù)庫(kù)技術(shù)和機(jī)器學(xué)習(xí)等人工智能技術(shù)相結(jié)合的產(chǎn)物,是一門(mén)新興的數(shù)據(jù)智能分析技術(shù)[9]。20世紀(jì)80年代末,隨著數(shù)據(jù)庫(kù)、互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展以及管理信息系統(tǒng)(MIS)和網(wǎng)絡(luò)數(shù)據(jù)中心(IDC)的推廣應(yīng)用,數(shù)據(jù)的存取、查詢(xún)、描述統(tǒng)計(jì)等技術(shù)已日臻完善,但高層次的決策分析、知識(shí)發(fā)現(xiàn)等實(shí)用技術(shù)還很不成熟,導(dǎo)致了“信息爆炸”但“知識(shí)貧乏”的現(xiàn)象。到了90年代,人們提出在數(shù)據(jù)庫(kù)基礎(chǔ)上建立數(shù)據(jù)倉(cāng)庫(kù),應(yīng)用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析相結(jié)合的方法處理數(shù)據(jù),這兩者的結(jié)合促成了數(shù)據(jù)挖掘技術(shù)的誕生。所謂數(shù)據(jù)挖掘,簡(jiǎn)單地說(shuō),就是從大量數(shù)據(jù)中提取或挖掘知識(shí)[2];詳細(xì)一點(diǎn)可以描述為主要利用某些特定的知識(shí)發(fā)現(xiàn)算法,在一定的運(yùn)算效率的限制下,從大量的數(shù)據(jù)中抽取出潛在的、有價(jià)值的知識(shí)(模型、規(guī)則和趨勢(shì))的過(guò)程。挖掘算法的好壞直接影響到知識(shí)發(fā)現(xiàn)的質(zhì)量和效率,因此目前大多數(shù)研究都集中于數(shù)據(jù)挖掘算法及其應(yīng)用上。1.相關(guān)技術(shù)介紹(1)關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則是美國(guó)IBM Almaden Research Center的 Rakesh Agrawal等人于1993年首先提出來(lái)的KDD研究的一個(gè)重要課題[10]。關(guān)聯(lián)規(guī)則挖掘本質(zhì)是從大量的數(shù)據(jù)中或?qū)ο箝g抽取關(guān)聯(lián)性,它可以揭示數(shù)據(jù)間的依賴(lài)關(guān)系,根據(jù)這種關(guān)聯(lián)性就可以從某一數(shù)據(jù)對(duì)象的信息來(lái)推