freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)分析技術(shù)ppt課件-wenkub.com

2024-11-20 00:04 本頁(yè)面
   

【正文】 設(shè)sij是子集sj中類(lèi)Ci的樣本數(shù),則根據(jù)由A劃分成子集的熵或期望信息是: 其中pij= sij / sj 選擇A作為分裂屬性獲得的信息增益為: Gain(A)=I(s1,…, sm) E(A),決策樹(shù)分類(lèi)舉例:訓(xùn)練數(shù)據(jù)集,決策樹(shù)分類(lèi)舉例:計(jì)算屬性的熵,類(lèi)標(biāo)號(hào)屬性 buys_computer,有兩個(gè)不同值{yes,no}, 有兩個(gè)類(lèi),類(lèi)yes有9個(gè)樣本,類(lèi)no有5個(gè)樣本 計(jì)算屬性的熵 age = “40”: s13=3, s23=2, I(s13, s23)=0.971,決策樹(shù)分類(lèi)舉例:計(jì)算屬性的熵,Gain(age)=I(s1, s2) E(age)=0.246 Gain(income)=0.029 Gain(student)=0.151 Gain(credit_rating)=0.048 因此選擇age作為分裂屬性,決策樹(shù)分類(lèi)舉例:分枝,age?,overcast,=30,40,3040,決策樹(shù)分類(lèi)舉例:最終結(jié)果,由決策樹(shù)產(chǎn)生規(guī)則,IF age = “40” AND credit_rating = “excellent” THEN buys_computer = “no” IF age = “40” AND credit_rating = “fair” THEN buys_computer = “yes”,聚類(lèi)分析(Clustering),含義 聚類(lèi)是把一組對(duì)象按照相似性歸成若干類(lèi)別,即“物以類(lèi)聚”。 else 加上一個(gè)由Generate_decision_tree(si, sttribute_listtest_attribute)返回的節(jié)點(diǎn)。,利用決策樹(shù)進(jìn)行數(shù)據(jù)分類(lèi):ID3,⑸標(biāo)記節(jié)點(diǎn)N為test_attribute。例如,信譽(yù)良好的持卡人的特征為: 收入在25000以上 年齡在4555之間 居住在XYZ地區(qū) 對(duì)同類(lèi)記錄特征的描述(規(guī)則或模型)可用來(lái)分類(lèi)新記錄,分類(lèi)分析舉例,顧客購(gòu)物分類(lèi) 顧客屬性:姓名、年齡、收入、職業(yè)、信譽(yù)度 為每個(gè)顧客賦予一個(gè)標(biāo)記,即是否購(gòu)買(mǎi)計(jì)算機(jī) 按該標(biāo)記將顧客分類(lèi),建立分類(lèi)模型 新來(lái)一個(gè)顧客,按分類(lèi)模型識(shí)別該顧客是否屬于購(gòu)買(mǎi)計(jì)算機(jī)類(lèi) 若顧客屬于購(gòu)買(mǎi)計(jì)算機(jī)的類(lèi)別,則將有關(guān)新的計(jì)算機(jī)的促銷(xiāo)材料分發(fā)給他,利用決策樹(shù)進(jìn)行數(shù)據(jù)分類(lèi),決策樹(shù) 一個(gè)類(lèi)似與流程圖的樹(shù)結(jié)構(gòu) 內(nèi)部接點(diǎn)表示一個(gè)與屬性值相關(guān)的判斷 邊表示判斷的結(jié)果 每個(gè)葉節(jié)點(diǎn)是一個(gè)類(lèi)別的標(biāo)識(shí),利用決策樹(shù)進(jìn)行數(shù)據(jù)分類(lèi):ID3,利用決策樹(shù)進(jìn)行數(shù)據(jù)分類(lèi):ID3,隨機(jī)判定分類(lèi)器 雞蛋好壞的概率分別為6/10, 4/10 熵為(6/10*log(6/10)+4/10*log(4/10)),選擇用手搖晃判定的分類(lèi)器 不搖晃時(shí)雞蛋好壞的概率分別為6/8, 2/8 搖晃時(shí)雞蛋好壞的概率分別為0/2, 2/2 熵為((6/8*log(6/8)+2/8*log(2/8))*8/10+ (0/2*log(0/2)+2/2*log(2/2))*2/10),選擇鹽水判定的分類(lèi)器 沉下時(shí)雞蛋好壞的概率分別為6/6, 0/6 浮起時(shí)雞蛋好壞的概率分別為0/4, 4/4 熵為0,利用決策樹(shù)進(jìn)行數(shù)據(jù)分類(lèi):ID3,算法:Generate_decision_tree 輸入:訓(xùn)練樣本samples;候選屬性集合attribute_list 輸出:決策樹(shù) 步驟: ⑴創(chuàng)建節(jié)點(diǎn)N。) END FROM my_cube GROUP BY model, theyear, color WITH ROLLUP,OLAP Server的分類(lèi):數(shù)據(jù)存儲(chǔ)方式,Relational OLAP (ROLAP) 利用關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和管理基本數(shù)據(jù)和聚合數(shù)據(jù),并利用一些中間件來(lái)支持缺失數(shù)據(jù)的處理 具有良好的可擴(kuò)展性 Multidimensional OLAP (MOLAP) 利用多維數(shù)據(jù)庫(kù)來(lái)存放和管理基本數(shù)據(jù)和聚合數(shù)據(jù) ,其中需要對(duì)稀疏矩陣處理技術(shù) 對(duì)預(yù)綜合的數(shù)據(jù)進(jìn)行快速索引 Hybrid OLAP (HOLAP) 利用關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和管理基本數(shù)據(jù),利用多維數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和管理聚合數(shù)據(jù),多維數(shù)據(jù)庫(kù)存儲(chǔ),由許多(經(jīng)壓縮的)類(lèi)似于數(shù)組的對(duì)象構(gòu)成 每個(gè)對(duì)象由聚集成組的單元塊組成 每個(gè)單元塊按類(lèi)似于多維數(shù)組的結(jié)構(gòu)存儲(chǔ) 通過(guò)直接偏移計(jì)算進(jìn)行存取 每個(gè)對(duì)象帶有(壓縮的)索引和指針結(jié)構(gòu) 分析時(shí)常需維間的組合 需“旋轉(zhuǎn)”(數(shù)據(jù)立方體)及“切片” 高效的稀疏數(shù)據(jù)處理能力,略過(guò)缺失和重復(fù)數(shù)據(jù) 許多維間的組合沒(méi)有值:6月份冰鞋銷(xiāo)售量 許多值重復(fù)存儲(chǔ):今年醬油的價(jià)格,用關(guān)系結(jié)構(gòu)表示多維數(shù)據(jù),關(guān)系數(shù)據(jù)庫(kù)使用廣泛,相當(dāng)成熟 用兩類(lèi)表來(lái)表示多維結(jié)構(gòu): 事實(shí)表,維表 事實(shí)(fact)表:用來(lái)存儲(chǔ)變量值和各維的碼值 維表:用來(lái)存儲(chǔ)維的描述信息(元數(shù)據(jù)),包括層次和類(lèi)等 事實(shí)表描述了主題的數(shù)據(jù),維表是從不同的角度描述了對(duì)主題的分析尺度 維表就象星星的角一樣,分布在事實(shí)表的外圍,描述了業(yè)務(wù)的各個(gè)維,星型模式(Star Schema),雪片模式(Snow Flake Schema),雪片模式,一個(gè)廣為流傳的數(shù)據(jù)挖掘例子,美國(guó)加州某個(gè)超市連鎖店通過(guò)數(shù)據(jù)挖掘從記錄著每天銷(xiāo)售和顧客基本情況的數(shù)據(jù)庫(kù)中發(fā)現(xiàn): 在下班后前來(lái)購(gòu)買(mǎi)嬰兒尿布的顧客多數(shù)是男性,他們往往也同時(shí)購(gòu)買(mǎi)啤酒。) END, ’theyear’= CASE WHEN (GROUPING(theyear)=1) THEN ’ALL’ ELSE ISNULL(theyear, 39。) END, CASE WHEN (GROUPING(color)=1) THEN ’ALL’ ELSE ISNULL(color, 39。,CUBE,CREATE VIEW auto_cube(units, model, theyear, color) AS SELECT SUM(units_sold), CASE WHEN (GROUPING(model)=1) THEN ’ALL’ ELSE ISNULL(model, 39。ALL Years39。Units Sold39。Chevy39。用于支持管理決策,數(shù)據(jù)粒度,粒度 數(shù)據(jù)綜合程度高低的一個(gè)度量 粒度越小,越細(xì)節(jié),綜合程度越低,回答查詢種類(lèi)越多,數(shù)據(jù)量大,性能低,數(shù)據(jù)粒度,細(xì)節(jié)級(jí) 一個(gè)月內(nèi)客戶的每個(gè)電話記錄 每月200個(gè)記錄,40000個(gè)字節(jié),綜合級(jí) 一個(gè)月內(nèi)客戶電話匯總(電話次數(shù)、平均通話時(shí)間、長(zhǎng)途電話次數(shù)……) 每月1個(gè)記錄,200個(gè)字節(jié),能 回 答,不能回答,上周張三給他在上海的女朋友打電話了嗎?,能 回 答,能回答 性能低,上月人們從華盛頓打出的長(zhǎng)途電話平均次數(shù)?,數(shù)據(jù)分割,分割 將數(shù)據(jù)分散到各自的物理單元中去,以便能分別獨(dú)立處理,靈活地訪問(wèn)數(shù)據(jù),提高效率 實(shí)際需要 分析往往對(duì)某種相關(guān)性的數(shù)據(jù)集合進(jìn)行 某一時(shí)段的數(shù)據(jù) 某一地區(qū)的數(shù)據(jù) 某特定業(yè)務(wù)領(lǐng)域的數(shù)據(jù) 某一時(shí)段某特定業(yè)務(wù)領(lǐng)域的數(shù)據(jù) 日期往往是自然而均勻的分割,數(shù)據(jù)分割,健康保險(xiǎn) 人壽保險(xiǎn) 意外傷亡保險(xiǎn) 1988 分片1 分片2 分片3 1989 分片4 分片5 分片6 1990 分片7 分片8 分片9,數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu),信息集成,信息集成的定義 information integration 把存儲(chǔ)在兩個(gè)或多個(gè)信息源中的數(shù)據(jù)提取出來(lái),建立一個(gè)包含所有這些信息源的信息的大數(shù)據(jù)庫(kù)(該數(shù)據(jù)庫(kù)可以是虛擬的) 信息集成的方式 聯(lián)邦數(shù)據(jù)庫(kù)(federal database) 數(shù)據(jù)倉(cāng)庫(kù)(data warehouse) 協(xié)調(diào)器(mediator),信息集成中的問(wèn)題,汽車(chē)公司有1000位代理商,想創(chuàng)建一個(gè)集成數(shù)據(jù)庫(kù),各個(gè)代理商使用不同的數(shù)據(jù)庫(kù)模式 代理商1:Cars(serialNo, model, color, autotrans, cdPlayer,…) 代理商2:Autos(serial, model, color), Options(serial, option) 問(wèn)題 數(shù)據(jù)類(lèi)型不同 取值不同 語(yǔ)義不同 數(shù)據(jù)丟失,聯(lián)邦數(shù)據(jù)庫(kù),DB1,DB2,DB3
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1