freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘概念與技術(shù)引言(完整版)

2025-10-21 09:02上一頁面

下一頁面
  

【正文】 似可建立不確定性規(guī)則(含可信度),并用判定表表示這些規(guī)則。 ? 預(yù)測是數(shù)據(jù)分析的一種重要形式,通過建立連續(xù)值函數(shù)模型,可以預(yù)測數(shù)據(jù)的未來變化趨勢。 58 可視化技術(shù) ? 可視化數(shù)據(jù)分析技術(shù)拓寬了傳統(tǒng)的圖表功能,使用戶對數(shù)據(jù)的剖析更清楚、更直觀。 62 競技運動中的數(shù)據(jù)挖掘 ? 美國著名的國家籃球隊 NBA的教練,利用 IBM公司提供的數(shù)據(jù)挖掘工具臨場決定替換隊員。 ? 早期的數(shù)據(jù)倉庫大都采用當時流行的客戶 /服務(wù)器結(jié)構(gòu)。 ? PLATINUM: 提出了由 InfoPump(數(shù)據(jù)倉庫建模與數(shù)據(jù)加載工具)和 Forestamp。 (Data Warehouse) ? 數(shù)據(jù)倉庫用來保存從多個數(shù)據(jù)庫或其它信息源選取的數(shù)據(jù) , 并為上層應(yīng)用提供統(tǒng)一 用戶接口,完成數(shù)據(jù)查詢和分析。為了創(chuàng)建一個有效的主題域,必須將這些來自不同數(shù)據(jù)源的數(shù)據(jù)集成起來,使之遵循統(tǒng)一的編碼規(guī)則。 OLAP從數(shù)據(jù)倉庫中的綜合數(shù)據(jù)出發(fā),提供面向分析的多維模型,并使用多維分析的方法從多個角度、多個層次對多維數(shù)據(jù)進行分析,使決策者能夠以更加自然的方式來分析數(shù)據(jù)。事務(wù)型處理是用來協(xié)助企業(yè)對響應(yīng)事件或事務(wù)的日常商務(wù)活動進行處理。細節(jié)數(shù)據(jù)量太大,會嚴重影響分析的效率,而且太多的細節(jié)數(shù)據(jù)不利于分析人員將注意力集中于有用的信息。 進一步發(fā)展和探討 ? 發(fā)現(xiàn)驅(qū)動的探查 :預(yù)計算的度量指出數(shù)據(jù)異常 ,避免人工檢查數(shù)據(jù) . ? 擴充 SQL語句的實現(xiàn) (多粒度上的復(fù)雜聚集 ). ? 聯(lián)機聚集 ,可以顯示迄今為止所知道的 ,而不是等待查詢完全處理完 . ? 最高 N查詢 ,只查詢最高的 N項 ,而不是整個排序的表 ,這導致較快的響應(yīng)時間并減少資源浪費 . 從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘 ? 信息處理 :支持查詢和基本的統(tǒng)計分析 ,并使用表或圖進行報告 . ? 分析處理 :支持基本的 OLAP操作 ,在匯總的和細節(jié)的歷史數(shù)據(jù)上操作 . ? 數(shù)據(jù)挖掘 :支持知識發(fā)現(xiàn) ,包括找出隱藏的模式和關(guān)聯(lián) ,構(gòu)造分析模型 ,進行分類和預(yù)測 ,并用可視化工具提供挖掘結(jié)果 . 數(shù)據(jù)倉庫的應(yīng)用 聯(lián)機分析挖掘 (OLAM) 將聯(lián)機分析處理與數(shù)據(jù)挖掘集成 ,有以下幾 個原因 : ? 數(shù)據(jù)倉庫中數(shù)據(jù)的高質(zhì)量 :大部分數(shù)據(jù)挖掘工具需要在集成的一致的和清理過的數(shù)據(jù)上進行 ,經(jīng)由這些預(yù)處理而構(gòu)造的數(shù)據(jù)倉庫不僅用作 OLAP而且也用作數(shù)據(jù)挖掘的數(shù)據(jù)源 . ? 環(huán)繞數(shù)據(jù)倉庫的有價值的信息處理基礎(chǔ)設(shè)施 :謹慎的做法是盡量利用可用的基礎(chǔ)設(shè)施 ,而不是一切從頭做起 . ? 基于 OLAP的探測式數(shù)據(jù)分析 :有效的數(shù)據(jù)挖掘需要探測式數(shù)據(jù)分析 .用戶常常想在不同粒度上分析它們 .聯(lián)機分析挖掘提供在不同的數(shù)據(jù)子集和不同的抽象層上進行數(shù)據(jù)挖掘的工具 . ? 數(shù)據(jù)挖掘功能的聯(lián)機選擇 :用戶常常不知道想挖掘些什么 .通過將 OLAP與多種數(shù)據(jù)挖掘功能集成在一起 ,聯(lián)機分析挖掘為用戶選擇所期望的數(shù)據(jù)挖掘功能動態(tài)修改挖掘任務(wù)提供了靈活性 。 事務(wù)型處理數(shù)據(jù)和分析型處理數(shù)據(jù)的區(qū)別 事務(wù)型處理數(shù)據(jù) 分析型處理數(shù)據(jù) 細節(jié)的 綜合的,或提煉的 在存取瞬間是準確的 代表過去的數(shù)據(jù) 可更新 不可更新,只讀的 操作需求事先可知道 操作需求事先不知 生命周期符合 SDLC 完全不同的生命周期 對性能要求高 對性能要求寬松 一個時刻操作一個單元 一個時刻操作一個 事務(wù)驅(qū)動 分析驅(qū)動 面向應(yīng)用 面向分析 一次操作數(shù)據(jù)量小 一次操作數(shù)據(jù)量大 支持日常操作 支持管理需求 OLTP和 OLAP的區(qū)別 ? 用戶和系統(tǒng)的面向性 : OLTP是面向顧客的 ,用于事務(wù)和查詢處理 OLAP是面向市場的 ,用于數(shù)據(jù)分析 ? 數(shù)據(jù)內(nèi)容 : OLTP系統(tǒng)管理當前數(shù)據(jù) . OLAP系統(tǒng)管理大量歷史數(shù)據(jù) ,提供匯總和 聚集機制 . ? 數(shù)據(jù)庫設(shè)計 : OLTP采用實體 聯(lián)系 ER模型和面向應(yīng)用的 數(shù)據(jù)庫設(shè)計 . OLAP采用星型或雪花模型和面向主題的數(shù) 據(jù)庫設(shè)計 . ? 視圖 : OLTP主要關(guān)注一個企業(yè)或部門內(nèi)部的當前 數(shù)據(jù) ,不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù) OLAP則相反 . ? 訪問模式 : OLTP系統(tǒng)的訪問主要由短的原子事務(wù)組成 . 這種系統(tǒng)需要并行和恢復(fù)機制 . OLAP系統(tǒng)的訪問大部分是只讀操作 . 為什么需要分離的數(shù)據(jù)倉庫 ? 分離操作數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫的主要 原因是提高兩個系統(tǒng)的性能 .操作數(shù)據(jù)庫系統(tǒng)是為已知的任務(wù)和負載設(shè)計的 ,而數(shù)據(jù)倉庫的查詢通常是復(fù)雜的 ,涉及大量數(shù)據(jù)在匯總級的計算 ,在操作數(shù)據(jù)庫系統(tǒng)上處理 OLAP查詢 ,可能會大大降低操作任務(wù)的性能 . 多維數(shù)據(jù)模型 ? 數(shù)據(jù)倉庫和 OLAP工具基于多維數(shù)據(jù)模型 ,該模型將數(shù)據(jù)看作數(shù)據(jù)立方體形式 ? 數(shù)據(jù)立方體允許以多維對數(shù)據(jù)建模和觀察 .具體圖形詳見 71頁圖 31 多維數(shù)據(jù)庫模式 星型 ,雪花和事實星座模式是主要的存在形式 ? 星型模式包含一個大的包含大批數(shù)據(jù)的事實表和一系列維表 .如 73頁圖 34 ? 雪花模式是星型模式的變種 ,不同的是將某些維表規(guī)范化 .如 74頁圖 35 ? 事實星座模式對應(yīng)多個事實表共享維表 .如 74頁圖 36 定義模式的例子 定義圖 34的星型模式 : ? 定義立方體 : Define cube sales_star[time,item,branch,location]: dollars_sold=sum(sales_in_dollars), units_old=count(*) ? 定義維 Define dimension time as (time_key,day,day_of_week,month,quarter,year) 度量的分類和計算 ? 分布的 : 設(shè)數(shù)據(jù)被劃分為 n個集合 ,函數(shù)在每一部分上的計算得到一個聚集值 .如果將函數(shù)用于 n個聚集值得到的結(jié)果 ,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣則該度量是分布的 ,如 count(),sum()等 ? 代數(shù)的 : 如果一個聚集函數(shù)能夠由一個具有 M個參數(shù)的代數(shù)函數(shù)計算 ,且每個參數(shù)都可以用一個分布聚集函數(shù)求得 .如 avg()可以由sum()/count()計算 ,其中 sum()和 count()是分布聚集函數(shù) . ? 整體的 : 如果一個聚集函數(shù)無法用具有 M個參數(shù)的代數(shù)函數(shù)進行這一計算 ,則這個函數(shù)稱是整體的 ,如 rand()等 ? 許多度量可以用關(guān)系的聚集操作計算 對應(yīng)圖 24,我們也可寫出 SQL語句 . 計算 dollars_sold和 units_sold Select sum(*) Sum() From time t,item i,branch b,location l,sales s, Where = and = and = and = Group by ,n_key 概念分層 全序相關(guān) 偏序相關(guān) (具體見 3,4章 ) Country year City quarter month week Street day 多維數(shù)據(jù)模型的 OLAP操作 ? 上卷操作 ,通過維規(guī)約 ,在數(shù)據(jù)立方體上進行聚集 . ? 下鉆操作 ,是上卷操作的逆操作 ,由不太詳細的數(shù)據(jù)到更詳細的數(shù)據(jù) . ? 切片和切塊 ,切片在給定的數(shù)據(jù)立方體的一個維上進行選擇 ,切塊則是在兩個或兩個以上的維進行選擇 . ? 轉(zhuǎn)軸操作 ,轉(zhuǎn)動數(shù)據(jù)的視覺 ,是目視操作 . 如圖 210所示 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu) ? 自頂向下視圖 ,使我們可以選擇數(shù)據(jù)倉庫所需的相關(guān)信息 . ? 數(shù)據(jù)源視圖 ,揭示被操作數(shù)據(jù)庫系統(tǒng)捕獲存儲和管理的信息 . ? 數(shù)據(jù)倉庫視圖 ,包括事實表和維表 . ? 商務(wù)查詢視圖 ,從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù) . 數(shù)據(jù)倉庫設(shè)計過程 ? 選取待建模的商務(wù)處理 ? 選取商務(wù)處理的粒度 ,例如單個事務(wù) ,一天的快照等 ? 選取用于每個事實表記錄的維 . ? 選取將安放在事實表中的度量如圖 34中的 dollars_sold和 units_sold 三層數(shù)據(jù)倉庫結(jié)構(gòu) ? 底層數(shù)據(jù)倉庫服務(wù)器 ,使用稱作網(wǎng)間連接程序的應(yīng)用程序 ,由操作數(shù)據(jù)庫和外部數(shù)據(jù)源提取數(shù)據(jù) . ? 中間層是 OLAP服務(wù)器 ,實現(xiàn)方法有 關(guān)系 OLAP模型 ,在多維數(shù)據(jù)上的操作映射為標準的關(guān)系操作 多維 OLAP模型 ,直接實現(xiàn)多維數(shù)據(jù)的操作 ? 頂層是客戶 ,它包括查詢和報告工具 ,分析工具和數(shù)據(jù)挖掘工具 (例如趨勢分析 ,預(yù)測等 ) 數(shù)據(jù)倉庫的類型 ? 企業(yè)倉庫 :企業(yè)倉庫收集了關(guān)于主題的所有信息 ,跨越整個組織 ,它提供企業(yè)范圍內(nèi)的數(shù)據(jù)集成 . ? 數(shù)據(jù)集市 :包含企業(yè)范圍數(shù)據(jù)的一個子集 ,對于特定的用戶是有用的 ,其范圍限于選定的主題 . ? 虛擬倉庫 :是操作數(shù)據(jù)庫上的視圖集合 .為了有效地處理查詢 ,只有一些可能的匯總視圖被物化 ,虛擬倉庫易于建立 ,但需要操作數(shù)據(jù)庫服務(wù)器具有剩余能力 . OLAP服務(wù)器類型 ? 關(guān)系 OLAP(ROLAP)模型 ,使用關(guān)系或擴充關(guān)系 DBMS存放并管理數(shù)據(jù)倉庫 ? 多維 OLAP(MOLAP)服務(wù)器 ,這些服務(wù)器通過基于數(shù)組的多維存儲 ,支持數(shù)組的多維視圖 ? 混合 OLAP(HOLAP)服務(wù)器 ,結(jié)合 ROLAP和MOLAP技術(shù) ,得宜于 ROLAP的可伸縮性 ,和MOLAP的快速計算 . ? 特殊的 SQL服務(wù)器 ,為了滿足在關(guān)系數(shù)據(jù)庫中日益增長的 OLAP需要 ,實現(xiàn)了特殊的SQL服務(wù)器 ,提供高級查詢語言和查詢處理 ,在星型和雪花模式上支持 SQL查詢 . 數(shù)據(jù)立方體的有效計算 ? 計算量 :對一個 n維數(shù)據(jù)立方體 ,第 i維的層次是 Li,則可能產(chǎn)生的立方體總數(shù)是T=(L1+1)*… *(Ln+1)如果 10維每維 4個層次產(chǎn)生的方體數(shù)是 5的 10次方=9800000. ? 預(yù)先計算并物化所有可能產(chǎn)生的方體是不現(xiàn)實的 ,較合理的是部分物化 數(shù)據(jù)倉庫實現(xiàn) 方體的選擇計算 ? 不物化 :導致運行時計算昂貴的多維聚集 ,速度極慢 .
點擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1