freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)分析技術(shù)ppt課件(存儲版)

2024-11-20 00:04上一頁面

下一頁面
  

【正文】 如:時間維:日、周、月、季、年 地理維:城市、地區(qū)、國家,多維分析的基本分析動作,切片(Slice) 從多維數(shù)組選定一個二維子集,切出一個“平面” 切塊(Dice) 從多維數(shù)組選定一個三維子集,切出一個“立方體” 旋轉(zhuǎn) 改變一個報告(或頁面)顯示的維方向,關(guān)系的交叉表表示,關(guān)系表,關(guān)系的交叉表表示,交叉表,用SQL生成交叉表,SELECT Model, Year, Color, SUM(Sales) FROM Sales WHERE Model = 39。Chevy39。ALL Years39。) END, CASE WHEN (GROUPING(color)=1) THEN ’ALL’ ELSE ISNULL(color, 39。) END FROM my_cube GROUP BY model, theyear, color WITH ROLLUP,OLAP Server的分類:數(shù)據(jù)存儲方式,Relational OLAP (ROLAP) 利用關(guān)系數(shù)據(jù)庫來存儲和管理基本數(shù)據(jù)和聚合數(shù)據(jù),并利用一些中間件來支持缺失數(shù)據(jù)的處理 具有良好的可擴展性 Multidimensional OLAP (MOLAP) 利用多維數(shù)據(jù)庫來存放和管理基本數(shù)據(jù)和聚合數(shù)據(jù) ,其中需要對稀疏矩陣處理技術(shù) 對預(yù)綜合的數(shù)據(jù)進(jìn)行快速索引 Hybrid OLAP (HOLAP) 利用關(guān)系數(shù)據(jù)庫來存儲和管理基本數(shù)據(jù),利用多維數(shù)據(jù)庫來存儲和管理聚合數(shù)據(jù),多維數(shù)據(jù)庫存儲,由許多(經(jīng)壓縮的)類似于數(shù)組的對象構(gòu)成 每個對象由聚集成組的單元塊組成 每個單元塊按類似于多維數(shù)組的結(jié)構(gòu)存儲 通過直接偏移計算進(jìn)行存取 每個對象帶有(壓縮的)索引和指針結(jié)構(gòu) 分析時常需維間的組合 需“旋轉(zhuǎn)”(數(shù)據(jù)立方體)及“切片” 高效的稀疏數(shù)據(jù)處理能力,略過缺失和重復(fù)數(shù)據(jù) 許多維間的組合沒有值:6月份冰鞋銷售量 許多值重復(fù)存儲:今年醬油的價格,用關(guān)系結(jié)構(gòu)表示多維數(shù)據(jù),關(guān)系數(shù)據(jù)庫使用廣泛,相當(dāng)成熟 用兩類表來表示多維結(jié)構(gòu): 事實表,維表 事實(fact)表:用來存儲變量值和各維的碼值 維表:用來存儲維的描述信息(元數(shù)據(jù)),包括層次和類等 事實表描述了主題的數(shù)據(jù),維表是從不同的角度描述了對主題的分析尺度 維表就象星星的角一樣,分布在事實表的外圍,描述了業(yè)務(wù)的各個維,星型模式(Star Schema),雪片模式(Snow Flake Schema),雪片模式,一個廣為流傳的數(shù)據(jù)挖掘例子,美國加州某個超市連鎖店通過數(shù)據(jù)挖掘從記錄著每天銷售和顧客基本情況的數(shù)據(jù)庫中發(fā)現(xiàn): 在下班后前來購買嬰兒尿布的顧客多數(shù)是男性,他們往往也同時購買啤酒。,利用決策樹進(jìn)行數(shù)據(jù)分類:ID3,⑸標(biāo)記節(jié)點N為test_attribute。設(shè)sij是子集sj中類Ci的樣本數(shù),則根據(jù)由A劃分成子集的熵或期望信息是: 其中pij= sij / sj 選擇A作為分裂屬性獲得的信息增益為: Gain(A)=I(s1,…, sm) E(A),決策樹分類舉例:訓(xùn)練數(shù)據(jù)集,決策樹分類舉例:計算屬性的熵,類標(biāo)號屬性 buys_computer,有兩個不同值{yes,no}, 有兩個類,類yes有9個樣本,類no有5個樣本 計算屬性的熵 age = “40”: s13=3, s23=2, I(s13, s23)=0.971,決策樹分類舉例:計算屬性的熵,Gain(age)=I(s1, s2) E(age)=0.246 Gain(income)=0.029 Gain(student)=0.151 Gain(credit_rating)=0.048 因此選擇age作為分裂屬性,決策樹分類舉例:分枝,age?,overcast,=30,40,3040,決策樹分類舉例:最終結(jié)果,由決策樹產(chǎn)生規(guī)則,IF age = “40” AND credit_rating = “excellent” THEN buys_computer = “no” IF age = “40” AND credit_rating = “fair” THEN buys_computer = “yes”,聚類分析(Clustering),含義 聚類是把一組對象按照相似性歸成若干類別,即“物以類聚”。 else 加上一個由Generate_decision_tree(si, sttribute_listtest_attribute)返回的節(jié)點。例如,信譽良好的持卡人的特征為: 收入在25000以上 年齡在4555之間 居住在XYZ地區(qū) 對同類記錄特征的描述(規(guī)則或模型)可用來分類新記錄,分類分析舉例,顧客購物分類 顧客屬性:姓名、年齡、收入、職業(yè)、信譽度 為每個顧客賦予一個標(biāo)記,即是否購買計算機 按該標(biāo)記將顧客分類,建立分類模型 新來一個顧客,按分類模型識別該顧客是否屬于購買計算機類 若顧客屬于購買計算機的類別,則將有關(guān)新的計算機的促銷材料分發(fā)給他,利用決策樹進(jìn)行數(shù)據(jù)分類,決策樹 一個類似與流程圖的樹結(jié)構(gòu) 內(nèi)部接點表示一個與屬性值相關(guān)的判斷 邊表示判斷的結(jié)果 每個葉節(jié)點是一個類別的標(biāo)識,利用決策樹進(jìn)行數(shù)據(jù)分類:ID3,利用決策樹進(jìn)行數(shù)據(jù)分類:ID3,隨機判定分類器 雞蛋好壞的概率分別為6/10, 4/10 熵為(6/10*log(6/10)+4/10*log(4/10)),選擇用手搖晃判定的分類器 不搖晃時雞蛋好壞的概率分別為6/8, 2/8 搖晃時雞蛋好壞的概率分別為0/2, 2/2 熵為((6/8*log(6/8)+2/8*log(2/8))*8/10+ (0/2*log(0/2)+2/2*log(2/2))*2/10),選擇鹽水判定的分類器 沉下時雞蛋好壞的概率分別為6/6, 0/6 浮起時雞蛋好壞的概率分別為0/4, 4/4 熵為0,利用決策樹進(jìn)行數(shù)據(jù)分類:ID3,算法:Generate_decision_tree 輸入:訓(xùn)練樣本samples;候選屬性集合attribute_list 輸出:決策樹 步驟: ⑴創(chuàng)建節(jié)點N。) END, ’theyear’= CASE WHEN (GROUPING(theyear)=1) THEN ’ALL’ ELSE ISNULL(theyear, 39。,CUBE,CREATE VIEW auto_cube(units, model, theyear, color) AS SELECT SUM(units_sold), CASE WHEN (GROUPING(model)=1) THEN ’ALL’ ELSE ISNULL(model, 39。Units Sold39。用于支持管理決策,數(shù)據(jù)粒度,粒度 數(shù)據(jù)綜合程度高低的一個度量 粒度越小,越細(xì)節(jié),綜合程度越低,回答查詢種類越多,數(shù)據(jù)量大,性能低,數(shù)據(jù)粒度,細(xì)節(jié)級 一個月內(nèi)客戶的每個電話記錄 每月200個記錄,40000個字節(jié),綜合級 一個月內(nèi)客戶電話匯總(電話次數(shù)、平均通話時間、長途電話次數(shù)……) 每月1個記錄,200個字節(jié),能 回 答,不能回答,上周張三給他在上海的女朋友打電話了嗎?,能 回 答,能回答 性能低,上月人們從華盛頓打出的長途電話平均次數(shù)?,數(shù)據(jù)分割,分割 將數(shù)據(jù)分散到各自的物理單元中去,以便能分別獨立處理,靈活地訪問數(shù)據(jù),提高效率 實際需要 分析往往對某種相關(guān)性的數(shù)據(jù)集合進(jìn)行 某一時段的數(shù)據(jù) 某一地區(qū)的數(shù)據(jù) 某特定業(yè)務(wù)領(lǐng)域的數(shù)據(jù) 某一時段某特定業(yè)務(wù)領(lǐng)域的數(shù)據(jù) 日期往往是自然而均勻的分割,數(shù)據(jù)分割,健康保險 人壽保險 意外傷亡保險 1988 分片1 分片2 分片3 1989 分片4 分片5 分片6 1990 分片7 分片8 分片9,數(shù)據(jù)倉庫的體系結(jié)構(gòu),信息集成,信息集成的定義 information integration 把存儲在兩個或多個信息源中的數(shù)據(jù)提取出來,建立一個包含所有這些信息源的信息的大數(shù)據(jù)庫(該數(shù)據(jù)庫可以是虛擬的) 信息集成的方式 聯(lián)邦數(shù)據(jù)庫(federal database) 數(shù)據(jù)倉庫(data wa
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1