freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫第七章(更新版)

2025-04-04 09:06上一頁面

下一頁面
  

【正文】 續(xù)) 通常,用戶告訴數(shù)據(jù)挖掘系統(tǒng)每個(gè)維應(yīng)當(dāng)概化到多高層次并不困難,但確定數(shù)據(jù)集的定性描述應(yīng)包含哪些屬性是一件困難的事。 (續(xù) ) (3)P←generalization(W ) 通過用其在映射中對應(yīng)的 v’ 替換 W中每個(gè)值 v,累計(jì)計(jì)數(shù)并計(jì)算所有聚集值,導(dǎo)出主概化關(guān)系 P。號(hào)碼和街道的不同值一般很多,而且這些概念的層次相當(dāng)?shù)?。又假設(shè)屬性概化閾值置為 5,在初始數(shù)據(jù)集合中有 25個(gè)不同取值。如果屬性的不同值個(gè)數(shù)大于屬性概化閾值,則應(yīng)當(dāng)進(jìn)行進(jìn)一步的屬性刪除或?qū)傩愿呕? 屬性刪除 和 屬性概化 兩個(gè)規(guī)則都表明,如果某屬性有大量的不同值,應(yīng)當(dāng)進(jìn)行進(jìn)一步概化。 (續(xù)) 如: 出生地 維由屬性 城市 、 省 和 國家 定義。通過合并相同行并累計(jì)它們相應(yīng)的個(gè)數(shù)。 這些方法形成實(shí)現(xiàn)數(shù)據(jù)挖掘的兩個(gè)主要功能模塊的基礎(chǔ): 多層 特征化 和 比較 。(對比定性描述) 概念描述基本知識(shí)(續(xù)) 概念描述 與 數(shù)據(jù)概化 密切相關(guān)。第七章 概念描述 概念描述基本知識(shí) 數(shù)據(jù)概化與基于匯總的特征化 解析特征化 — 屬性相關(guān)分析 挖掘概念比較 — 區(qū)分不同的類 第七章 概念描述 (續(xù) ) DB中存放大量細(xì)節(jié)性數(shù)據(jù),而用戶通常希望以簡潔的描述形式觀察匯總的數(shù)據(jù)集。(定性描述) ?比較 :提供了基于多組不同類數(shù)據(jù)的對比概念描述。 概念描述基本知識(shí)(續(xù)) 概念描述的方法包括 多層概化、匯總、特征化和比較。數(shù)據(jù)概化是通過 屬性刪除 或 屬性概化 操作來完成。有時(shí),用戶只能選擇少量他感到可能重要的屬性,而遺漏在描述中可能起作用的其他屬性。 (續(xù)) ?屬性概化 基于如下規(guī)則: 若一個(gè)屬性有許多不同數(shù)值,且該屬性存在一組概化操作,則可以選擇一個(gè)概化操作對該屬性進(jìn)行處理。 (續(xù)) 有許多控制概化過程的方法,下面是兩種常用的方法: (1)屬性概化閾值控制 該技術(shù)是對所有屬性統(tǒng)一設(shè)置一個(gè)概化閾值( 取值范圍一般為 2到 8)。 (續(xù)) ? 3)專業(yè): 假設(shè)定義了一個(gè)概念分層,從而可以對專業(yè)屬性進(jìn)行概化。 (續(xù)) ? 6)居住地: 假定居住地被屬性號(hào)碼,街道,城市,省,國家定義。 (b)對每個(gè)屬性 ai ,根據(jù)給定的或缺省的屬性閾值,確定 ai是否應(yīng)當(dāng)刪除;如果不刪除,則計(jì)算它的最小期望層次 Li ,并確定映射對 (v,v’ ), 基中 v是 W中 ai的不同值, v’ 是其在層 Li對應(yīng)的概化值。 地點(diǎn) 商品 銷售額 (百萬 ) 個(gè)數(shù)累計(jì) (千 ) 亞洲 電視 15 300 歐洲 電視 12 250 北美 電視 28 450 亞洲 電腦 120 1000 歐洲 電腦 150 1200 北美 電腦 200 1800 表格表示 描述 地點(diǎn) 或 商品 電視 電腦 電視 +電腦 銷售額 累計(jì) 銷售額 累計(jì) 銷售額 累計(jì) 亞洲 15 300 120 1000 135 1300 歐洲 12 250 150 1200 162 1450 北美 28 450 200 1800 228 2250 所有地區(qū) 45 1000 470 4000 525 5000 組合表表示 描述 050100150200250電視 電腦 電視+ 電腦歐洲亞洲北美棒圖表示 描述 第七章 概念描述 概念描述基本知識(shí) 數(shù)據(jù)概化與基于匯總的特征化 解析特征化 — 屬性相關(guān)分析 挖掘概念比較 — 區(qū)分不同的類 解析特征化 — 屬性相關(guān)分析 在挖掘定性概念描述知識(shí)過程中,DW和 OLAP工具中的多維數(shù)據(jù)分析有兩個(gè)局限:一是無法處理復(fù)雜對象,二是缺乏自動(dòng)概化過程。 這意味著相關(guān)分析應(yīng)當(dāng)在多層次進(jìn)行,并且只有那些最相關(guān)的維層次應(yīng)當(dāng)包含在分析中。 (續(xù)) 下面介紹一種方法,它將信息增益分析技術(shù)和基于多維數(shù)據(jù)分析的方法集成在一起。它的計(jì)算公式如下: () A上該劃分得到的信息增益定義為 : Gain(A)=I(s1,s2,…,s m) E(A) () ? ?mjjjvimjjj sssIssssAE ,)(,2,1121 ???????? (續(xù)) ID3方法根據(jù) S集合中數(shù)據(jù)對象來計(jì)算每個(gè)屬性 Gain(A)值,并從中選擇出值 最大的作為 決策樹根結(jié)點(diǎn),并根據(jù)該屬性的取值個(gè)數(shù)將初始數(shù)據(jù)集劃分為 v份,即通過不斷對每個(gè)新產(chǎn)生的數(shù)據(jù)子集循環(huán)進(jìn)行上述操作,直到產(chǎn)生所有葉結(jié)點(diǎn)為止,至此就獲得一個(gè)決策樹。 3. 解析特征化實(shí)例 ?例 2: 使用解析特征化挖掘大學(xué)數(shù)據(jù)庫里研究生的一般特征描述。由此產(chǎn)生 初始目標(biāo)類工作關(guān)系。 (續(xù)) ?(2)對兩個(gè)不同類別數(shù)據(jù)集進(jìn)行屬性相關(guān)分析,消除無關(guān)和弱屬性。這里討論用規(guī)則的形式顯示概念比較。 d權(quán) 的取值范圍在 [0,1](或 [0%,100%])區(qū)
點(diǎn)擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1