freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與商務(wù)智能第1~3章(編輯修改稿)

2025-02-10 23:09 本頁面
 

【文章內(nèi)容簡介】 列,并挖掘時序模式、周期性、趨勢和偏離等。例如,它可以導(dǎo)出類似“若 ATT股票連續(xù)上漲兩天且 DEC股票不下跌,則第三天 IBM股票上漲的可能性為 75%”的數(shù)據(jù)關(guān)系。序列模式可以看成是一種特定的關(guān)聯(lián)模型,它在關(guān)聯(lián)模型中增加了時間屬性。 35 偏差檢測與模式相似性挖掘 ? 偏差檢測( Deviation Detection) :用于檢測并解釋數(shù)據(jù)分類的偏差,它有助于濾掉知識發(fā)現(xiàn)引擎所抽取的無關(guān)信息,也可濾掉那些不合適的數(shù)據(jù),同時可產(chǎn)生新的關(guān)注性事實。 ? 模式相似性挖掘: 用于在時間數(shù)據(jù)庫或空間數(shù)據(jù)庫中搜索相似模式時,從所有對象中找出用戶定義范圍內(nèi)的對象;或找出所有元素對,元素對中兩者的距離小于用戶定義的距離范圍。模式相似性挖掘的方法有相似度測量法、遺傳算法等。 36 Web數(shù)據(jù)挖掘 ? Web數(shù)據(jù)挖掘:萬維網(wǎng)是一個巨大的、分布廣泛的和全球性的信息服務(wù)中心,其中包含了豐富的超鏈接信息,為數(shù)據(jù)挖掘提供了豐富的資源。Web數(shù)據(jù)挖掘包括 Web使用模式挖掘、 Web結(jié)構(gòu)挖掘和 Web內(nèi)容挖掘等。 ? Web使用模式挖掘:在 Web環(huán)境中,文檔和對象一般都是通過鏈接來便于用戶訪問。捕捉用戶的存取模式或發(fā)現(xiàn)一個 Web網(wǎng)站最頻繁的訪問路徑稱為 Web使用模式挖掘或 Web路徑挖掘。 ? Web結(jié)構(gòu)挖掘:是挖掘 Web的鏈接結(jié)構(gòu),并找出關(guān)于某一主題的權(quán)威網(wǎng)站。 ? Web內(nèi)容挖掘:是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對象之間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息篩選,從而獲得指定內(nèi)容的信息。 ? 基于 Web的研究:搜索引擎的設(shè)計、文件自動分類技術(shù)、關(guān)鍵詞的自動提取、半結(jié)構(gòu)化信息的提取及 Web上新型應(yīng)用的研究等。 37 第 2章 數(shù)據(jù)倉庫的數(shù)據(jù)模型與數(shù)據(jù)組織 ? 數(shù)據(jù)倉庫的數(shù)據(jù)模型 ? 概念模型 ? 邏輯模型 ? 物理模型 ? 數(shù)據(jù)倉庫數(shù)據(jù)組織的基本概念 ? 粒度 ? 維度 ? 元數(shù)據(jù) ? 數(shù)據(jù)分割 ? 數(shù)據(jù)倉庫的數(shù)據(jù)組織 ? 數(shù)據(jù)倉庫的數(shù)據(jù)組織方式 ? 數(shù)據(jù)倉庫的數(shù)據(jù)存儲組織 38 數(shù)據(jù)倉庫中的數(shù)據(jù)組織 高度綜合級 輕度綜合級 當(dāng)前綜合級 早期細(xì)節(jié)級 多級數(shù)據(jù) 39 40 星型圖模型 物理數(shù)據(jù)模型 概念模型 邏輯模型 物理模型 面向用戶的需求 細(xì) 化層次 更詳細(xì)的 技術(shù)細(xì)節(jié) 數(shù)據(jù)倉庫的數(shù)據(jù)模型 信息包圖 41 信息包圖(概念模型) ? 信息包圖: 是數(shù)據(jù)倉庫的數(shù)據(jù)模型的第一層或最高層。由于大多數(shù)商務(wù)數(shù)據(jù)是多維的,但傳統(tǒng)的數(shù)據(jù)模型表示三維以上的數(shù)據(jù)有一定困難。而信息包圖簡化了這一過程并且允許用戶設(shè)計多維信息包并與開發(fā)者和其他用戶建立聯(lián)系。這種模型集中在用戶對信息包的需要,信息包提供了分析人員思維模式的可視化表示。 ? 工作: ? 確定系統(tǒng)邊界:決策類型、需要的信息、原始信息 ? 確定主題域及其內(nèi)容:主題域的公共鍵碼、聯(lián)系、屬性組 ? 確定維度:如時間維、銷售位置維、產(chǎn)品維、組別維等 ? 確定類別:相應(yīng)維的詳細(xì)類別 ? 確定指標(biāo)和事實:用于進(jìn)行分析的數(shù)值化信息 42 信息包圖 信息包: 維度 類別 空白信息包圖樣式 指標(biāo)和事實 43 信息包圖 〖例〗試畫出銷售分析的信息包圖。 解:首先根據(jù)銷售分析的實際需求,確定信息包的維度、類別和指標(biāo)與事實: ( 1)維度:包括日期維、銷售地點維、銷售產(chǎn)品維、年齡組別維、性別維等。 ( 2)類別:確定各維的詳細(xì)類別,如:日期維包括年( 10)、季度( 40)、月( 120)等類別,括號中的數(shù)字分別指出各類別的數(shù)量;銷售地點維包括國家( 15)、區(qū)域( 45)、城市( 280)、區(qū)( 880)、商店( 2023)等類別,括號中的數(shù)字同樣分別指出各類別的數(shù)量;類似地,可以確定銷售產(chǎn)品、年齡組別維、性別維等的詳細(xì)類別。 ( 3)指標(biāo)和事實:確定用于進(jìn)行分析的數(shù)值化信息,包括預(yù)測銷售量、實際銷售量和預(yù)測偏差等。 44 銷售分析的信息包圖 日期 銷售地點 銷售產(chǎn)品 年齡組別 性別 年 (10) 國家 (15) 產(chǎn)品類 (6) 年齡組 (8) 性別組 (2) 季度(40) 區(qū)域 (45) 產(chǎn)品組 (48) 月(120) 城市 (280) 產(chǎn)品 (240) 區(qū) (880) 商店(2023) 指標(biāo)和事實 : 預(yù)測銷售量、實際銷售量、預(yù)測偏差 信息包: 銷售分析 維度 類別 45 星型圖模型(邏輯模型) ? 星型圖:數(shù)據(jù)倉庫的數(shù)據(jù)模型的第二層是向最終的數(shù)據(jù)結(jié)構(gòu)添加某些細(xì)節(jié)的星型圖模型。與傳統(tǒng)的關(guān)系模型相比,星型圖模型簡化了用戶分析所需的關(guān)系,從支持決策的角度去定義數(shù)據(jù)實體,更適合大量復(fù)雜查詢。 ? 星形圖包括了三種邏輯實體: ? 指標(biāo) ? 維度 ? 詳細(xì)類別 46 星型圖模型(邏輯模型) 〖例〗銷售分析的星型圖模型。 時間維 產(chǎn)品維 地區(qū)維 組別維 其他維 銷售分析: 實際銷售 預(yù)測銷售 預(yù)測偏差 47 物理數(shù)據(jù)模型 ? 物理數(shù)據(jù)模型:數(shù)據(jù)模型的第三層,它是星型圖模型在數(shù)據(jù)倉庫中的實現(xiàn),如物理的存取方式、數(shù)據(jù)存儲結(jié)構(gòu)等。 ? 在物理設(shè)計時,常常要按數(shù)據(jù)的重要程度、使用頻率以及對響應(yīng)時間的要求進(jìn)行分類,并將不同類的數(shù)據(jù)分別存儲在不同的存儲設(shè)備中。重要程度高、經(jīng)常存取并對響應(yīng)時間高的數(shù)據(jù)就存放在高速存儲設(shè)備上,如硬盤;存取頻率低或?qū)Υ嫒№憫?yīng)時間要求低的數(shù)據(jù)則可以放在低速存儲設(shè)備上。 48 粒度- 第一種形式 ? 粒度:對數(shù)據(jù)倉庫中的數(shù)據(jù)綜合程度高低的一個度量,它既影響數(shù)據(jù)倉庫中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉庫所能回答詢問的種類。 ? 粒度越小,綜合程度越低,回答查詢的種類越多; 粒度越高,綜合程度越高,查詢的效率也越高。 ? 在數(shù)據(jù)倉庫中可將小粒度的數(shù)據(jù)存儲在低速存儲器上;大粒度的數(shù)據(jù)存儲在高速存儲器上。 49 粒度- 第二種形式:樣本數(shù)據(jù)庫 ? 樣本數(shù)據(jù)庫:在分析過程中,有許多探索的過程有時分析的目的并不要求精確的結(jié)果,只需要得到相對準(zhǔn)確、能反映趨勢的數(shù)據(jù),所以可以提取出樣本數(shù)據(jù)庫。 ? 樣本數(shù)據(jù)庫的粒度:是根據(jù)采樣率的高低來劃分的,采樣粒度不同的樣本數(shù)據(jù)庫可以具有相同的綜合級別,它是按一定的采樣率從細(xì)節(jié)數(shù)據(jù)庫或輕度綜合數(shù)據(jù)庫中提取的一個子集。 ? 樣本數(shù)據(jù)庫的抽取按照數(shù)據(jù)的重要程度不同進(jìn)行,利用樣本數(shù)據(jù)庫采集重要數(shù)據(jù)進(jìn)行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。 50 維度 ? 維度:是一個物理特性(如時間、地點、產(chǎn)品等),它是表達(dá)數(shù)據(jù)倉庫中信息的一個基本途徑,可作為標(biāo)識數(shù)據(jù)的索引。通常的報表只包含有行和列兩維,但在數(shù)據(jù)倉庫中所存儲的數(shù)據(jù)大多是用多維(三維或三維以上)視圖表示的。 ? 例如: ? 一個銷售系統(tǒng)中的數(shù)據(jù)可分為時間維、產(chǎn)品維和地理位置維等; ? 一個財務(wù)系統(tǒng)中的數(shù)據(jù)可分為時間維、支出維和收入維等; ? 一個企業(yè)決策支持系統(tǒng)中的數(shù)據(jù)可分為成本開支維、銷售收入維、利潤維、股票價值維等。 51 聚合 ? 在數(shù)據(jù)倉庫技術(shù)中,每一維可包括多個層次,這些層次反過來可以向用戶提供某一層次的數(shù)據(jù)。例如,在地理位置維中,由所有的街區(qū)組成了地區(qū),由所有的地區(qū)組成了城市等。聚合就是指在維的不同層次內(nèi)移動數(shù)據(jù),從而構(gòu)成維內(nèi)不同層次的數(shù)據(jù)集,使用戶不僅能夠在一個維度內(nèi)觀察數(shù)據(jù),而且能夠在維度內(nèi)的不同層次上觀察數(shù)據(jù)。 52 分解與合成 ? 分解與合成是在一個維度內(nèi)進(jìn)一步細(xì)分?jǐn)?shù)據(jù)或?qū)?shù)據(jù)按照另一標(biāo)準(zhǔn)組合的過程。例如,當(dāng)以地理位置維觀察數(shù)據(jù)時,用戶可以首先以國家(如中國)為單位觀察數(shù)據(jù),然后可以選擇觀察某一個地區(qū)(如華東地區(qū))的數(shù)據(jù),接下來可以選擇觀察某一個省或城市(如上海)的數(shù)據(jù),這就是數(shù)據(jù)分解的過程。而合成則是分解的逆過程,例如用戶開始以省市為觀察對象,接著再以地區(qū)、國家等為觀察對象,就是一個數(shù)據(jù)合成的過程。 53 分割及其標(biāo)準(zhǔn) ? 分割:將數(shù)據(jù)分散到各自的物理單元中去以便能分別處理,提高數(shù)據(jù)處理效率,數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片。 ? 數(shù)據(jù)分割的標(biāo)準(zhǔn):可按日期、地域、業(yè)務(wù)領(lǐng)域或按多個分割標(biāo)準(zhǔn)的組合。 ? 數(shù)據(jù)分割的目的:便于進(jìn)行數(shù)據(jù)的重構(gòu)、索引、重組、恢復(fù)、監(jiān)控、掃描 54 數(shù)據(jù)分割的方法 ? 垂直分割:垂直分割就是把一個表垂直分成兩部分。這種類型的分割有助于把一大堆列分成兩個獨立的表,這兩個表之間通過一個關(guān)鍵字段相關(guān)聯(lián)。 ? 水平分割:水平分割就是把表按行分成兩部分。這種類型的分割被用來存儲與用戶聯(lián)系緊密的本地重要數(shù)據(jù),從而減少網(wǎng)絡(luò)查詢。 ? 圖解分割:經(jīng)由多個分布系統(tǒng)把一個圖分解成兩部分??梢詮闹付ǖ姆?wù)器或在多個服務(wù)器之間建立連接而得到
點擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1