freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用第1章-免費閱讀

2025-06-10 02:13 上一頁面

下一頁面
  

【正文】 討論傳統(tǒng)數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別。 雖然日志文件法需要對日志本身進行比較復(fù)雜的分析,但是由于它能夠極大程度地減少工作量,所以得到了廣泛的應(yīng)用。 這種方法簡單 , 但是數(shù)據(jù)庫的數(shù)量級很大時 , 進行這樣全數(shù)據(jù)庫的比較將會耗費大量的系統(tǒng)資源和時間 , 所以這種方法并不實用 。 如果業(yè)務(wù)數(shù)據(jù)庫中的數(shù)據(jù)沒有發(fā)生變化,則不需要對數(shù)據(jù)倉庫進行追加,因此,數(shù)據(jù)追加實際上只增加在上次數(shù)據(jù)輸入后業(yè)務(wù)數(shù)據(jù)庫中變化了的數(shù)據(jù)。 如果能夠用一條記錄將兩條記錄所包含的信息記錄下來 , 則既能保留細節(jié)信息 ,又能大大減少數(shù)據(jù)量 。 還有一種形式被稱為簡單直接文件 , 它同簡單堆積文件非常類似 , 只是按照一定的時間間隔對業(yè)務(wù)數(shù)據(jù)庫進行快照并存儲 , 但是時間間隔不一定是每天 。 數(shù)據(jù)分割沒有固定的標(biāo)準(zhǔn) , 分割的方法和粒度應(yīng)當(dāng)根據(jù)實際情況來確定 。在數(shù)據(jù)倉庫中,多重的數(shù)據(jù)粒度是必不可少。 在數(shù)據(jù)倉庫中 , 輕度和高度綜合級別的數(shù)據(jù)一般是由細節(jié)數(shù)據(jù)聚合而來 , 但需要說明的是輕度和高度是相對的概念 , 而沒有絕對的界限 , 并且在數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度常常有很多的級別 。 根據(jù)數(shù)據(jù)的組織方式的不同 , 目前常見的 OLAP主要有基于多維數(shù)據(jù)庫的 MOLAP及基于關(guān)系數(shù)據(jù)庫的 ROLAP兩種 。 因此 OLAP也可以說是多維數(shù)據(jù)分析工具的集合 。 這就是說 , OLAP是使分析人員 、 管理人員或執(zhí)行人員能夠從多角度對信息進行快速 、一致 、 交互地查詢 , 從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù) 。 實現(xiàn)數(shù)據(jù)集市的周期一般是數(shù)以周計 , 而不是數(shù)以月計或數(shù)以年計 。 3. 數(shù)據(jù)集市( Data Market) 數(shù)據(jù)倉庫中存放的是整個企業(yè)的信息,并且數(shù)據(jù)是按照不同主題來組織的。 關(guān)于系統(tǒng)性能的數(shù)據(jù)信息 ,除刷新、更新和復(fù)制周期的定時和調(diào)度的規(guī)則外,還包括改善數(shù)據(jù)存取和檢索性能的索引和配置。 數(shù)據(jù)倉庫中的關(guān)鍵名詞( 3) 42 2. 元數(shù)據(jù)( MetaData) “什么是元數(shù)據(jù)?” 元數(shù)據(jù) 是描述數(shù)據(jù)的數(shù)據(jù)。再者,由于數(shù)據(jù)被冗余地存放在不同的數(shù)據(jù)庫中,如果不同數(shù)據(jù)庫間的數(shù)據(jù)刷新不是實時的,則可能出現(xiàn)數(shù)據(jù)不同步的情況。 具體來講 ,ETL工具包括:數(shù)據(jù)提取 ( data extract) 、 數(shù)據(jù)轉(zhuǎn)換 ( data transform) 、 數(shù)據(jù)清洗 ( data cleaning) 和數(shù)據(jù)加載 ( data loading) 。 1) 底層是數(shù)據(jù)倉庫服務(wù)器,它幾乎總是一個關(guān)系數(shù)據(jù)庫系統(tǒng)。一般的, OLTP提供了大量的原始數(shù)據(jù),這些數(shù)據(jù)不易被分析。 數(shù)據(jù)倉庫是面向主題的 , 用于知識工人 ( 包括經(jīng)理 、 主管和分析人員 ) 的決策分析 。 它們涵蓋了一個組織的大部分日常操作 , 如購買 、 庫存 、 制造 、 銀行 、 工資 、 注冊 、記帳等 。 但對于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須以大量的歷史數(shù)據(jù)為依托。這是因為: 1) 原有數(shù)據(jù)庫系統(tǒng)記錄的是每一項業(yè)務(wù)處理的流水帳,這些數(shù)據(jù)不適合于分析處理。該企業(yè)基于傳統(tǒng)數(shù)據(jù)庫已經(jīng)建立有計費數(shù)據(jù)庫 、 財務(wù)數(shù)據(jù)庫 、客戶服務(wù)數(shù)據(jù)庫等 。 “數(shù)據(jù)倉庫是對分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程”。 事務(wù)處理和信息分析數(shù)據(jù)環(huán)境的分離 , 劃清了數(shù)據(jù)處理的分析型環(huán)境與事務(wù)型環(huán)境之間的界限 , 從而由原來以單一數(shù)據(jù)庫為中心的數(shù)據(jù)環(huán)境發(fā)展為以數(shù)據(jù)庫為中心的事務(wù)處理系統(tǒng)和以數(shù)據(jù)倉庫為基礎(chǔ)的分析處理系統(tǒng) 。 這樣,數(shù)據(jù)處理被分為事務(wù)型處理和分析型處理兩大類。 另外 , 每個數(shù)據(jù)庫由于其數(shù)據(jù)量和業(yè)務(wù)處理的需求不同 , 對歷史數(shù)據(jù)的存儲時間也不同 , 因此在蜘蛛網(wǎng)環(huán)境中的系統(tǒng)難以提供完整的歷史數(shù)據(jù) 。換句話說,如果生成第一份企業(yè)報表需要大量資源,生成所有后繼報表可以建立在第一份企業(yè)報表基礎(chǔ)之上,那么不妨為生成第一份報表付出一些代價。 在一個大型企業(yè)中 , 不同級別的數(shù)據(jù)庫可能使用不同類型的數(shù)據(jù)庫系統(tǒng) , 對于擁有巨型數(shù)據(jù)量的企業(yè)級數(shù)據(jù)庫可能使用 IBM DB2, 而對于部門級和個人級的中小型數(shù)據(jù)庫可能使用 SQL Server。如市場部在星期日晚上提取分析所需的數(shù)據(jù),而計劃部在星期三下午就抽取了數(shù)據(jù)。 這種演變不是人為制造的 , 而是自然演變的結(jié)果 。 企業(yè)對信息的需求是多方面的 ,為了避免企業(yè)中各部門或各用戶間的沖突和簡化用戶的數(shù)據(jù)視圖 , 一種稱作 “ 抽取程序 ” 的方法被廣泛地應(yīng)用 。 而傳統(tǒng)數(shù)據(jù)庫只保留了當(dāng)前的業(yè)務(wù)處理信息 , 缺乏決策分析所需要的大量的歷史信息 。又如 , 部門經(jīng)理可能經(jīng)常抽取常用的數(shù)據(jù)到本地 , 有針對性的建立個人級數(shù)據(jù)庫就顯得尤為重要 。作為企業(yè)的最終決策者,將如何根據(jù)這樣的結(jié)論進行決策呢? 為什么分析同一個企業(yè)數(shù)據(jù)庫中的數(shù)據(jù),卻得到截然相反的結(jié)論呢? 首先,兩部門可能抽取數(shù)據(jù)的內(nèi)容不同。 最后,分析程序的差異。由于企業(yè)中使用的數(shù)據(jù)庫類型很多,因此可能需要使用多種技術(shù)來實現(xiàn)。比如,某電信公司要想分析某個大客戶今年的情況和過去 3年有什么不同?大客戶的情況可能包括呼叫行為、話費情況、交費情況、咨詢問題等。 數(shù)據(jù)庫技術(shù)一直力圖使自己能勝任從事務(wù)處理 、 批處理到分析處理的各種類型的信息處理任務(wù) 。 事務(wù)處理的使用人員通常是企業(yè)的具體操作人員 , 處理的數(shù)據(jù)通常是企業(yè)業(yè)務(wù)的細節(jié)信息 , 其目標(biāo)是實現(xiàn)企業(yè)的業(yè)務(wù)運營;而分析處理的使用人員通常是企業(yè)的中高層的管理者 , 或者是從事數(shù)據(jù)分析的工程師 。當(dāng)然,數(shù)據(jù)倉庫的主要驅(qū)動力并不是過去的缺點和問題,而是市場商業(yè)經(jīng)營行為的改變,市場競爭要求捕獲和分析事務(wù)級的業(yè)務(wù)數(shù)據(jù)。從數(shù)據(jù)組織的角度看, 主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對分析對象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關(guān)系。 面向主題( 3) 22 如圖 “客戶主題”的數(shù)據(jù)存儲,屬于“客戶”主題域的數(shù)據(jù)集合使用相同的公共鍵碼“客戶標(biāo)識”來連接。全面而正確的數(shù)據(jù)是有效地分析和決策的首要前提,相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就越可靠。數(shù)據(jù)批量載入(提?。┑闹芷趯嶋H上決定了動畫間隔的時間,數(shù)據(jù)提取的周期短,則動畫的速度快,圖 。 數(shù)據(jù)倉庫系統(tǒng)管理大量歷史的 、 存檔的 、 歸納的 、 計算的數(shù)據(jù) , 提供匯總和聚集機制 , 并在不同的粒度級別上存儲和管理信息 。 兩個系統(tǒng)的主要區(qū)別( 2) 30 兩個系統(tǒng)的其他區(qū)別包括使用頻率、數(shù)據(jù)訪問量、對響應(yīng)時間的要求等。 兩個系統(tǒng)數(shù)據(jù)組織模式示例比較( 3) 35 第一章 目錄 ? 從數(shù)據(jù)庫到數(shù)據(jù)倉庫 ? 什么是數(shù)據(jù)倉庫 ? 數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的比較 ? 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu) ? 數(shù)據(jù)倉庫的數(shù)據(jù)組織 ? 本章小結(jié) 36 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu) 三層數(shù)據(jù)倉庫結(jié)構(gòu) ( 1) 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)可以用圖 。 3) 頂層是客戶,它包括查詢和報告工具、分析工具和 /或數(shù)據(jù)挖掘工具(例如關(guān)聯(lián)分析、分類分析、預(yù)測等)。 40 ( 2) 數(shù)據(jù)轉(zhuǎn)換( Data Transform) 由于業(yè)務(wù)系統(tǒng)可能使用不同的數(shù)據(jù)庫廠商的產(chǎn)品,比如 IBM DB Oracle、 Informix、 Sybase、 NCR Teradata、 SQL Server等,各種數(shù)據(jù)庫產(chǎn)品提供的數(shù)據(jù)類型可能不同,因此,需要將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)格式。 現(xiàn)在 ETL工具的功能越來越強 。 操作元數(shù)據(jù) , 包括數(shù)據(jù)血統(tǒng)信息 ( 來自何處以及如何轉(zhuǎn)換的 ) , 數(shù)據(jù)流通信息 ( 主動的 、 檔案的或凈化的 ) 以及監(jiān)視信息( 倉庫使用統(tǒng)計 、 錯誤報告 、 審計跟蹤 ) 。例如元數(shù)據(jù)用作目錄,幫助決策支持系統(tǒng)分析者對數(shù)據(jù)倉庫的內(nèi)容定位;當(dāng)數(shù)據(jù)由操作環(huán)境到數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換時,作為數(shù)據(jù)映射指南;對于用在當(dāng)前細節(jié)數(shù)據(jù)與稍加綜合的數(shù)據(jù)之間以及稍加綜合的數(shù)據(jù) 與高度綜合的數(shù)據(jù)之間的匯總算法,也作為指南。 典型示例是銷售部門 、 庫存和發(fā)貨部門 、 財務(wù)部門和高級管理部門等的數(shù)據(jù)集市 。 數(shù)據(jù)倉庫中的關(guān)鍵名詞( 7) 46 4. OLAP 數(shù)據(jù)倉庫是管理決策分析的基礎(chǔ) , 要有效地利用數(shù)據(jù)倉庫的信息資源 , 必須要有強大的工具對數(shù)據(jù)倉庫的信息進行分析決策 。 而這些維的不同組合和所考察的度量指標(biāo)構(gòu)成的多維數(shù)組則是 OLAP分析的基礎(chǔ) , 可形式化表示為 ( 維 1, 維 2, …… , 維 n, 度量指標(biāo) ) , 如( 地區(qū) 、 時間 、 產(chǎn)品 、 銷售額 ) 。 它包括向上探取 ( roll up) 和向下鉆取 ( drill down) 。 粒度越大 , 表示細節(jié)程度越低 , 綜合程度越高 。 在數(shù)據(jù)倉庫中 , 處理提取和綜合后的數(shù)據(jù)還包含非常重要的元數(shù)據(jù) , 它描述的是提取和綜合后的數(shù)據(jù)的組織方式 , 屬于數(shù)據(jù)的一種綜合類型 , 我們在數(shù)據(jù)倉庫的體系結(jié)構(gòu) ( ) 中已經(jīng)介紹了元數(shù)據(jù) 。 在數(shù)據(jù)倉庫環(huán)境中粒度之所以是一個極其重要的概念,是因為它深深地影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答的查詢類型,在數(shù)據(jù)倉庫中數(shù)據(jù)量大小與查詢的詳細程度之間要做出權(quán)衡。 但是 , 假如粒度處理不當(dāng) ,并且分割也沒有認真地設(shè)計與實現(xiàn) , 將嚴重影響其他方面的設(shè)計效果 。 3. 連續(xù)文件 定期綜合文件其數(shù)據(jù)量級小時丟失了數(shù)據(jù)細節(jié),簡單堆積文件保留細節(jié)但數(shù)據(jù)量級又很大,是否可以綜合兩者的優(yōu)點呢?答案是肯定的。一個系統(tǒng)某些性能的提高,總是以犧牲其他性能為代價的。數(shù)據(jù)庫應(yīng)用的設(shè)計者主要是從實現(xiàn)事務(wù)處理的功能角度來
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1