【正文】
。相比之下,操作數(shù)據(jù)庫包含的不僅僅是原始數(shù)據(jù),比如交易數(shù)據(jù),這些數(shù)據(jù)在進(jìn)行分析之前需要統(tǒng) 一。在這里,在操作系統(tǒng)中的數(shù)據(jù)盡管很多,但對于決策,常常還是不夠的。 最后,從數(shù)據(jù)倉庫中分離數(shù)據(jù)的操作是基于不同的數(shù)據(jù)結(jié)構(gòu),內(nèi)容和用法。在線分析系統(tǒng)查詢通常需要對數(shù)據(jù)記錄進(jìn)行只讀訪問 ,以進(jìn)行匯總和聚集。 另外,操作數(shù)據(jù)庫支持幾個交易的并行處理。它們涉及了一堆數(shù)據(jù)總括水平的大量運(yùn)算,它們中的一些需要特殊的算法,存儲和基于多維視圖的實(shí)現(xiàn)方法。操作數(shù)據(jù)庫是在己知的任務(wù)和負(fù)載設(shè)計(jì)的,如果用主關(guān)鍵字索引和散列,檢索特定的記錄和優(yōu)化“罐裝 ”的查詢。 其它區(qū)分聯(lián)機(jī)處理系統(tǒng)和在線分析系統(tǒng)包括數(shù)據(jù)大小,操作的頻率,性能的指標(biāo) 。如此的一個系統(tǒng)需要并發(fā)控制和恢復(fù)機(jī)制。由于體積的龐大,在線分析系統(tǒng)在多個數(shù)據(jù)媒體上建立存儲。總得來說,在線分析系統(tǒng)經(jīng)??缭皆S多數(shù)據(jù)庫版本,基于組織機(jī)構(gòu) 的改革。在線分析系統(tǒng)采用 星形或雪花模型和面向主題的數(shù)據(jù)庫設(shè)計(jì)。這些特征使得用戶在做決策上更簡單。 ( 2)數(shù)據(jù)內(nèi)容:聯(lián)機(jī)事務(wù)處理系統(tǒng)管理當(dāng)前數(shù)據(jù),特別的,都是一些詳細(xì)并且簡單可以用于做決定。 ( 1)用戶和系統(tǒng)定位:聯(lián)機(jī)事務(wù)處理是以顧客為導(dǎo)向,用于給客戶和信息技術(shù)專家 傳輸和職員查詢處理。這種系統(tǒng)稱為聯(lián)機(jī)分析處理( OLAP)系統(tǒng)。另一方面,數(shù)據(jù)倉庫系統(tǒng)在數(shù)據(jù)分析和決策方面為用戶或“知識工人”提供服務(wù)。這種系統(tǒng)稱為聯(lián)機(jī)事務(wù)處理( OLTP)系統(tǒng)。 由于大多數(shù)人都熟悉商品關(guān)系數(shù)據(jù)庫系統(tǒng),將數(shù)據(jù)倉庫與之比較,就容易理解什么是數(shù)據(jù)倉庫。此外,數(shù)據(jù)倉庫存儲并集成歷史信息,支持復(fù)雜的 查詢。然而,數(shù)據(jù)倉庫為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能,因?yàn)閿?shù)據(jù)被拷貝、預(yù)處理、集成、注釋、匯總,并重新組織到一個語義一致的數(shù)據(jù)存儲中。這種方法將來自多個異種源的信息預(yù)先集成,并存儲在數(shù)據(jù)倉庫中,供直接 查詢和分析。 對于異種數(shù)據(jù)庫集成的傳統(tǒng)方法,數(shù)據(jù)倉庫提供了一個有趣的替代方案。這種查 詢驅(qū)動的方法需要復(fù)雜的信息過濾和集成處理,并且與局部數(shù)據(jù)源上的處理競爭資 6 源。然后,將這些查詢映射和發(fā)送到局部查詢處理器。這方面的例子包括 IBM 的數(shù)據(jù)連接程序 和 Informix 的數(shù)據(jù)刀。數(shù)據(jù)庫工業(yè)界和研究界都正朝著實(shí)現(xiàn)這一目標(biāo)竭盡全力。許多組織收集了 不同類的 數(shù)據(jù),并由多個異種的 、自治的、分布的數(shù)據(jù)源維護(hù)大型數(shù)據(jù)庫。 (2)根據(jù)季度、年、地區(qū)的營銷情況比較,重新配置產(chǎn)品和管理投資,調(diào)整生產(chǎn)策略; (3)分析運(yùn)作和查找利潤源; (4)管理顧客關(guān)系、進(jìn)行環(huán)境調(diào)整、管理合股人的資產(chǎn)開銷。我們將不區(qū)分二者。這使得知識工作者能夠利用數(shù)據(jù)倉庫,快捷方便地得到數(shù)據(jù)總體視圖,根據(jù)數(shù)據(jù)倉庫中的信息做出準(zhǔn)確的決策。數(shù)據(jù)倉庫的構(gòu)造需要數(shù)據(jù)集成、數(shù)據(jù)清理和數(shù)據(jù)統(tǒng)一。 “好”,“現(xiàn)在你可以問什么是數(shù)據(jù)倉庫。 5 總得來說, 數(shù)據(jù)倉庫是一種語義上一致的數(shù)據(jù)存儲,它充當(dāng)了物理決策數(shù)據(jù)模型的實(shí)施關(guān)于哪種企業(yè)需要做戰(zhàn)略決策。 (4)非易失性:數(shù)據(jù)倉庫是物理地分離存放數(shù)據(jù);基于這種分法,數(shù)據(jù)倉庫不需要傳輸進(jìn)程,覆蓋和并發(fā)控制機(jī)制。 (3)隨時間變化:數(shù)據(jù)被存儲是用來提供變化歷史角度的信息。 (2)集成的:數(shù)據(jù)倉庫通常由多個數(shù)據(jù)源組成,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機(jī)事務(wù)處理記錄。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是構(gòu)造機(jī)構(gòu)日常操作和 事務(wù)處理。讓我們進(jìn)下來認(rèn)識它的四個特征。”這個簡短,但是復(fù)合的定義表述了數(shù)據(jù)倉庫的主要特點(diǎn)。數(shù)據(jù)倉庫允許不同應(yīng)用系統(tǒng)的集 成,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺,對信息處理提供支持。 “那么”,你可能會充滿神秘地問,“到底什么是數(shù)據(jù)倉庫?” 數(shù)據(jù)倉庫有不同的定義,但卻很難有一個嚴(yán)格的定義。 在最近的幾年里,許多公司花了幾百萬美元用于構(gòu)建企業(yè)數(shù)據(jù)庫。s take a closer look at each of these key features. (1)Subjectoriented: A data warehouse is anized around major subjects, such as customer, vendor, product, and sales. Rather than concentrating on the daytoday operations and transaction processing of an anization, a data warehouse focuses on the modeling and analysis of data for decision makers. Hence, data warehouses typically provide a simple and concise view around particular subject issues by excluding data that are not useful in the decision support process. (2)Integrated: A data warehouse is usually constructed by integrating multiple heterogeneous sources, such as relational databases, flat files, and online transaction records. Data cleaning and data integration techniques are applied to ensure consistency in naming conventions, encoding structures, attribute measures, and so on.. (3)Timevariant: Data are stored to provide information from a historical perspective (., the past 510 years). Every key structure in the data warehouse contains, either implicitly or explicitly, an element of time. (4)Nonvolatile: A data warehouse is always a physically separate store of data transformed from the application data found in the operational environment. Due to this separation, a data warehouse does not require transaction processing, recovery, and concurrency control mechanisms. It usually requires only two operations in data accessing: initial loading of data and access of data.. In sum, a data warehouse is a semantically consistent data store that serves as a physical