【正文】
次結(jié)構(gòu),他們的數(shù)據(jù)模型通過(guò)組合多個(gè)維關(guān)系或合并函數(shù)來(lái)表示維層次結(jié)構(gòu)。[Leh98]可以顯示給出維層次結(jié)構(gòu),但是它僅支持簡(jiǎn)單維層次結(jié)構(gòu),即只允許每一個(gè)維具有單條層次路徑。 統(tǒng)計(jì)對(duì)象模型[LMW96]:支持結(jié)構(gòu)化的分類層次,但是每個(gè)結(jié)構(gòu)化的分類層次必須與一個(gè)特定的聚集函數(shù)相關(guān),而且每個(gè)結(jié)構(gòu)化的分類層次只能定義在一個(gè)度量屬性上,用來(lái)回答特定的統(tǒng)計(jì)分析查詢。該類模型與上兩類模型相比具有查詢速度快、信息語(yǔ)義強(qiáng)的特點(diǎn),靈活性較差。 復(fù)雜多維數(shù)據(jù)模型[LG00]:針對(duì)現(xiàn)實(shí)應(yīng)用中的實(shí)際問(wèn)題,許多專家紛紛提出了一些復(fù)雜多維數(shù)據(jù)模型,但是這些多維模型通常僅僅針對(duì)某一方面的復(fù)雜情況而提出。主要是支持復(fù)雜的維成員和復(fù)雜結(jié)構(gòu)的度量。 IRC基于OLAP和多維數(shù)據(jù)模型滿足需求所做的設(shè)計(jì)由上文需求分析我們知道,為了滿足決策分析的需求,我們需要建立大量的維表和事實(shí)表,而中科院原有存儲(chǔ)為關(guān)系型實(shí)體,因此我們選擇以ROLAP來(lái)存儲(chǔ),以星型模式來(lái)組織數(shù)據(jù)。通過(guò)需求分析我們知道:為了滿足決策分析的需要,每一個(gè)維都需要多條層次路徑,即需要結(jié)構(gòu)化的分類層次結(jié)構(gòu),又需要維的多條層次路徑,所以我們按照需要建立了復(fù)雜多維數(shù)據(jù)模型:簡(jiǎn)單Cube模型的基礎(chǔ)上,將維信息進(jìn)行抽取,提取具有代數(shù)格特征的維層次結(jié)構(gòu),根據(jù)需求要求為每個(gè)維建立多條層次路徑。如機(jī)構(gòu)維的建立:三層|二層:機(jī)構(gòu)實(shí)體(eg:化學(xué)所)三層:二級(jí)機(jī)構(gòu)(eg:北京分院)三層:一級(jí)機(jī)構(gòu)(eg:中科院)二層:一級(jí)機(jī)構(gòu)(eg:院外機(jī)構(gòu)) IRC應(yīng)用發(fā)現(xiàn)目前多維數(shù)據(jù)模型仍然存在的問(wèn)題前文所分析的多維數(shù)據(jù)模型雖然具有多維的特點(diǎn),但是他們都是從實(shí)際的應(yīng)用需求出發(fā),為解決某些特定問(wèn)題而提出的,大都存在以下一些缺陷: 有些多維數(shù)據(jù)模型不能顯示地表示維層次結(jié)構(gòu)[GBLP96,DT97,GiLa98] 有些能顯示表示維層次結(jié)構(gòu),但是僅能表示簡(jiǎn)單的維層次結(jié)構(gòu)(即僅包含一條路徑的維層次結(jié)構(gòu),所有的維成員構(gòu)成一顆高度平衡樹)[AGS97,LW96] 有些模型雖然能夠支持復(fù)雜的維層次結(jié)構(gòu),但是維層次屬性僅包含維層次分類屬性,多維數(shù)據(jù)模型不能支持復(fù)雜的維層次描述屬性的定義,難以有效的表達(dá)復(fù)雜維層次屬性的結(jié)構(gòu)和語(yǔ)義[Leh98,LG00] 大多數(shù)的多維數(shù)據(jù)模型僅支持簡(jiǎn)單數(shù)值類型的度量,不能有效地表達(dá)復(fù)雜結(jié)構(gòu)的度量,如記錄結(jié)構(gòu)的度量和復(fù)雜數(shù)據(jù)類型的度量 無(wú)法支持用戶自定義聚集函數(shù) 所有的多維數(shù)據(jù)模型均未給出多維數(shù)據(jù)模型的完整性約束條件在IRC應(yīng)用中維結(jié)構(gòu)變得非常復(fù)雜。 有些維層次結(jié)構(gòu)可以擁有同一底層數(shù)據(jù)的多條層次路徑,提供給用戶從多種角度來(lái)觀察數(shù)據(jù),也就是說(shuō)一個(gè)層次結(jié)構(gòu)并不需要包括維中的所有維中的所有維層次屬性。在時(shí)間維的維層次結(jié)構(gòu)中存在兩條維層次結(jié)構(gòu),分別為:T→年份→季度→月份→日期和T→年份→周次→日期 維成員樹可能是一棵高度不平衡樹。除根節(jié)點(diǎn)外,存在某些維成員節(jié)點(diǎn)與其前驅(qū)結(jié)點(diǎn)的層次距離〉1。維成員[院外機(jī)構(gòu)]和[清華大學(xué)]之間的層次距離=3 在許多維層次結(jié)構(gòu)中,某一維層次屬性不僅包含用以定義與其它維層次之間分類關(guān)系的分類屬性,如產(chǎn)品名稱、產(chǎn)品小類、產(chǎn)品大類等,同時(shí)還擁有用以描述該維層次特征的描述屬性,如產(chǎn)品名稱中的產(chǎn)品顏色、包裝大小等,用戶希望在分析過(guò)程中,可以方便獲得維層次分類屬性相對(duì)應(yīng)的維層次描述屬性,有些情況下還可以將維層次描述屬性變成維層次分類屬性,構(gòu)成另一條維層次路徑 在某些維層次結(jié)構(gòu)中還包含復(fù)雜數(shù)據(jù)類型的維成員。如在生態(tài)觀測(cè)點(diǎn)維的層次機(jī)構(gòu)中,可以包含維層次路徑:觀測(cè)點(diǎn)縣省地區(qū),其中觀測(cè)點(diǎn)為空間點(diǎn)類型,縣、省和地區(qū)為空間面類型第六章 本文工作總結(jié)隨著市場(chǎng)競(jìng)爭(zhēng)的加劇以及信息社會(huì)需求的發(fā)展,從大量數(shù)據(jù)中提取信息并用之于決策分析的要求顯得越來(lái)越迫切。數(shù)據(jù)倉(cāng)庫(kù)這一概念的提出,為上述問(wèn)題提供了良好的解答。作為數(shù)據(jù)倉(cāng)庫(kù)三層體系結(jié)構(gòu)中一層的聯(lián)機(jī)分析處理服務(wù)器層,迫切要求能夠支持復(fù)雜、高維、稀疏、海量數(shù)據(jù)的存儲(chǔ),能夠進(jìn)行數(shù)據(jù)的增量加載、能夠?qū)Σ樵円笞鞒隹焖夙憫?yīng)等等。OLAP作為支持分析決策的核心技術(shù)之一,近來(lái)在許多領(lǐng)域得到廣泛的應(yīng)用。多維數(shù)據(jù)模型是OLAP分析的核心。神州數(shù)碼承擔(dān)了中國(guó)科學(xué)院資源規(guī)劃項(xiàng)目,本文作者作為項(xiàng)目的參與者,承擔(dān)了信息資源中心部分工作,尤其是基于多維數(shù)據(jù)模型的數(shù)據(jù)展示平臺(tái)的設(shè)計(jì)及實(shí)現(xiàn)方面做了大量工作具體內(nèi)容如下: 信息資源中心數(shù)據(jù)展示平臺(tái)需求分析 狀態(tài)監(jiān)控指標(biāo)多維分析 多維數(shù)據(jù)模型實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)以及聯(lián)機(jī)分析處理技術(shù)作為一門新興的技術(shù)領(lǐng)域,目前還存在著大量需要研究的問(wèn)題。本文基于ARP項(xiàng)目對(duì)多維數(shù)據(jù)模型做了一些分析比較,然而還存在很多需要進(jìn)一步探討和研究的地方: 在實(shí)際應(yīng)用中維結(jié)構(gòu)變得非常復(fù)雜 在實(shí)際應(yīng)用中度量的結(jié)構(gòu)也變得非常復(fù)雜 聚集函數(shù)相當(dāng)復(fù)雜 要求提供更加復(fù)雜的OLAP操作參考文獻(xiàn)[AGS97] , ,. Modelling Multidimensional the ICDE97.[BSH+98] ,. Finding Your Way Through Multidimensional Data Models DEXA 1998,Vienna[CT98] ,:A Logical Approach to Multidimensional Database. the EDBT,1998[DT97] ,:A Conceptual Model and an algebra for Online Analytical Processing in Data Warehouse , WITS 1997[Gila98] ,: nDSQL: A Multidimensional Language for Interoperability and OLAP, Proc. Of the VLDB 1998, New York ,USA.[Leh98] : Modeling Large Scale OLAP Scenarios. Proc. Of the EDBT 98, Valencia Spain [LMW96] , ,:A Query Language for Multidimensional Arrays: Design,implementation,and Optimization of SIGMOD 1996,Motreal Canada[LRT96] , , M..Teschke: CROSSDB: A FeatureExtended Multidimensional Data Model for Statistical and Scientific Databases,Proc. Of the CIKM’96, Rockville, Maryland. [LW96] and . Wang:A data model for supporting online analytical processing. . On Information and Knowledge Management,November 1996.[LG00] 李建中,2000,11(7):908917[Vas98] :Modeling multidimensional databases,cubes and cube operations 10th SSDBM 1998,Capri[LIU03] 劉健.“基于多維數(shù)據(jù)模型的關(guān)聯(lián)規(guī)則挖掘工具的設(shè)計(jì)與實(shí)現(xiàn)”北京大學(xué)碩士研究生學(xué)位論文,2003年6月[TONG03] 童云海.“復(fù)雜多維數(shù)據(jù)的Data Cube 構(gòu)建方法研究”北京大學(xué)博士研究生學(xué)位論文,2002年6月[WANG03] 王東斌.“基于多維數(shù)據(jù)模型的時(shí)間序列分析工具的設(shè)計(jì)與實(shí)現(xiàn)”,北京大學(xué)碩士研究生學(xué)位論文,2003年6月[ZHANG02]張成亮.“多維數(shù)據(jù)的存儲(chǔ)機(jī)制研究與實(shí)現(xiàn)”,北京大學(xué)碩士研究生學(xué)位論文,2002年6月。致 謝首先非常感謝導(dǎo)師陳鐘教授和潘老師,在整個(gè)論文設(shè)計(jì)和完成的過(guò)程中,兩位老師給了我精心指導(dǎo)和幫助。感謝神州數(shù)碼中國(guó)有限公司給了我這樣一個(gè)難能可貴的實(shí)習(xí)機(jī)會(huì),使我學(xué)到了很多在學(xué)校、在書本里學(xué)不到的知識(shí),也深刻體會(huì)到了理論與實(shí)踐的相同和差異,對(duì)計(jì)算機(jī)軟件行業(yè)有了更深入的認(rèn)識(shí)。感謝蔣朝陽(yáng)老師,他在項(xiàng)目開發(fā)上和論文實(shí)現(xiàn)過(guò)程中給了我很多理論上和實(shí)踐上的指導(dǎo),使我受益匪淺。感謝IRC項(xiàng)目組所有的同事,感謝所有幫助過(guò)我的老師、同學(xué)和同事們!26 / 2