【正文】
。相比之下,操作數(shù)據(jù)庫包含的不僅僅是原始數(shù)據(jù),比如交易數(shù)據(jù),這些數(shù)據(jù)在進行分析之前需要統(tǒng)一。在這里,在操作系統(tǒng)中的數(shù)據(jù)盡管很多,但對于決策,常常還是不夠 的。 最后,從數(shù)據(jù)倉庫中分離數(shù)據(jù)的操作是基于不同的數(shù)據(jù)結(jié)構(gòu),內(nèi)容和用法。在線分析系統(tǒng)查詢通常需要對數(shù)據(jù)記錄進行只讀訪問,以進行匯總和聚集。 另外,操作數(shù)據(jù)庫支持幾個交易的并行處理。它們涉及了一堆數(shù)據(jù)總括水平的大量運算,它們中的一些需要特殊的算法,存儲和基于多維視圖的實現(xiàn)方法。操作數(shù)據(jù)庫是在己知的任務(wù)和負載設(shè)計的,如果用主關(guān)鍵字索引和散列,檢索特定的記錄和優(yōu)化“罐裝 ”的查詢。 其它區(qū)分聯(lián)機處理系統(tǒng)和在線分析系統(tǒng)包括數(shù)據(jù)大小,操作 的頻率,性能的指標。如此的一個系統(tǒng)需要并發(fā)控制和恢復機制。由于體積的龐大,在線分析系統(tǒng)在多個數(shù)據(jù)媒體上建立存儲??偟脕碚f,在線分析系統(tǒng)經(jīng)??缭皆S多數(shù)據(jù)庫版本,基于組織機構(gòu)的改革。在線分析系統(tǒng)采用 星形或雪花模 型和面向主題的數(shù)據(jù)庫設(shè)計。這些特征使得用戶在做決策上更簡單。 ( 2)數(shù)據(jù)內(nèi)容:聯(lián)機事務(wù)處理系統(tǒng)管理當前數(shù)據(jù),特別的,都是一些詳細并且簡單可以用于做決定。 ( 1)用戶和系統(tǒng)定位:聯(lián)機事務(wù)處理是以顧客為導向,用于給客戶和信息技術(shù)專家 傳輸和職員查詢處理。這種系統(tǒng)稱為聯(lián)機分析處理( OLAP)系統(tǒng)。另一方面,數(shù)據(jù)倉庫系統(tǒng)在數(shù)據(jù)分析和決策方面為用戶或“知識工人”提供服務(wù)。這種系統(tǒng)稱為聯(lián)機事務(wù)處理( OLTP)系統(tǒng)。 由于大多數(shù)人都熟悉商品關(guān)系數(shù)據(jù)庫系統(tǒng),將數(shù)據(jù)倉庫與之比較,就容易理解什么是數(shù)據(jù)倉庫。此外,數(shù)據(jù)倉庫存儲并集成歷史信息,支持復雜的查詢。然而,數(shù)據(jù)倉庫為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能,因為數(shù)據(jù)被拷貝、預處理、集成、注釋、匯總,并重新組織到一個語義一致的數(shù)據(jù)存儲中。這種方法將來自多個異種源的信息預先集成,并存儲在數(shù)據(jù)倉庫中,供直接查詢和分析。 對于異種數(shù)據(jù)庫集成的傳統(tǒng)方法,數(shù)據(jù)倉庫提供了一個有趣的替代方案。這種查 詢驅(qū)動的方法需要復雜的信息過濾和集成處理,并且與局部數(shù)據(jù)源上的處理競爭資 6 源。然后,將這些查詢映射和發(fā)送到局部查詢處理器。這方面的例子包括 IBM 的數(shù)據(jù)連接程序 和 Informix 的數(shù)據(jù)刀。數(shù)據(jù)庫工業(yè)界和研究界都正朝著實現(xiàn)這一目標竭盡全力。許多組織收集了不同類的數(shù)據(jù),并由多個異種的 、自治的、分布的數(shù)據(jù)源維護大型數(shù)據(jù)庫。 (2)根據(jù)季度、年、地區(qū)的營銷情況比較,重新配置產(chǎn)品和管理投資,調(diào)整生產(chǎn)策略; (3)分析運作和查找利潤源; (4)管理顧客關(guān)系、進行環(huán)境調(diào)整、管理合股人的資產(chǎn)開銷。我們將不區(qū)分二者。這使得知識工作者能夠利用數(shù)據(jù)倉庫,快捷方便地得到數(shù)據(jù)總體視圖,根據(jù)數(shù)據(jù)倉庫中的信息做出準確的決策。數(shù)據(jù)倉庫的構(gòu)造需要數(shù)據(jù)集成、數(shù)據(jù)清理和數(shù)據(jù)統(tǒng)一。 “好”,“現(xiàn)在你可以問什么是數(shù)據(jù)倉庫。 5 總得來說, 數(shù)據(jù)倉庫是一種語義上一致的數(shù)據(jù)存儲,它充當了物理決策數(shù)據(jù)模型的實施關(guān)于哪種企業(yè)需要做戰(zhàn)略決策。 (4)非易失性:數(shù)據(jù)倉庫是物理地分離存放數(shù)據(jù);基于這種分法,數(shù)據(jù)倉庫不需要傳輸進程,覆蓋和并發(fā)控制機制。 (3)隨時間變化:數(shù)據(jù)被存儲是用來提供變化歷史角度的信息。 (2)集成的:數(shù)據(jù)倉庫通常由多個數(shù)據(jù)源組成,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機事務(wù)處理記錄。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是構(gòu)造機構(gòu)日常操作和 事務(wù)處理。讓我們進下來認識它的四個特征?!边@個簡短,但是復合的定義表述了數(shù)據(jù)倉庫的主要特點。數(shù)據(jù)倉庫允許不同應(yīng)用系統(tǒng)的集 成,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,對信息處理提供支持。 “那么”,你可能會充滿神秘地問,“到底什么是數(shù)據(jù)倉庫?” 數(shù)據(jù)倉庫有不同的定義,但卻很難有一個嚴格的定義。 在最近的幾年里,許多公司花了幾百萬美元用于構(gòu)建企業(yè)數(shù)據(jù)庫。s take a closer look at each of these key features. (1)Subjectoriented: A data warehouse is anized around major subjects, such as customer, vendor, product, and sales. Rather than concentrating on the daytoday operations and transaction processing of an anization, a data warehouse focuses on the modeling and analysis of data for decision makers. Hence, data warehouses typically provide a simple and concise view around particular subject issues by excluding data that are not useful in the decision support process. (2)Integrated: A data warehouse is usually constructed by integrating multiple heterogeneous sources, such as relational databases, flat files, and online transaction records. Data cleaning and data integration techniques are applied to ensure consistency in naming conventions, encoding structures, attribute measures, and so on.. (3)Timevariant: Data are stored to provide information from a historical perspective (., the past 510 years). Every key structure in the data warehouse contains, either implicitly or explicitly, an element of time. (4)Nonvolatile: A data warehouse is always a physically separate store of data transformed from the application data found in the operational environment. Due to this separation, a data warehouse does not require transaction processing, recovery, and concurrency control mechanisms. It usually requires only two operations in data accessing: initial loading of data and access of data.. In sum, a data warehouse is a semantically consistent data store that serves as a physical imp