freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫 第七章-預(yù)覽頁

2025-03-25 09:06 上一頁面

下一頁面
 

【正文】 業(yè): 假設(shè)定義了一個概念分層,從而可以對專業(yè)屬性進行概化。設(shè)出生地的概念分層為:城市 省 國家。 (續(xù)) ? 6)居住地: 假定居住地被屬性號碼,街道,城市,省,國家定義。 (續(xù)) ? 7)電話: 與屬性姓名一樣,因包含太多不同值,應(yīng)當(dāng)在概化中刪除。 (b)對每個屬性 ai ,根據(jù)給定的或缺省的屬性閾值,確定 ai是否應(yīng)當(dāng)刪除;如果不刪除,則計算它的最小期望層次 Li ,并確定映射對 (v,v’ ), 基中 v是 W中 ai的不同值, v’ 是其在層 Li對應(yīng)的概化值。 (續(xù) ) (b)在大部分情況下,由于主關(guān)系層不同值的個數(shù)很少,可以將主關(guān)系編碼,作為 m_維數(shù)組,其中 m 是 P 中的屬性數(shù),而每個維包含對應(yīng)的概化屬性值。 地點 商品 銷售額 (百萬 ) 個數(shù)累計 (千 ) 亞洲 電視 15 300 歐洲 電視 12 250 北美 電視 28 450 亞洲 電腦 120 1000 歐洲 電腦 150 1200 北美 電腦 200 1800 表格表示 描述 地點 或 商品 電視 電腦 電視 +電腦 銷售額 累計 銷售額 累計 銷售額 累計 亞洲 15 300 120 1000 135 1300 歐洲 12 250 150 1200 162 1450 北美 28 450 200 1800 228 2250 所有地區(qū) 45 1000 470 4000 525 5000 組合表表示 描述 050100150200250電視 電腦 電視+ 電腦歐洲亞洲北美棒圖表示 描述 第七章 概念描述 概念描述基本知識 數(shù)據(jù)概化與基于匯總的特征化 解析特征化 — 屬性相關(guān)分析 挖掘概念比較 — 區(qū)分不同的類 解析特征化 — 屬性相關(guān)分析 在挖掘定性概念描述知識過程中,DW和 OLAP工具中的多維數(shù)據(jù)分析有兩個局限:一是無法處理復(fù)雜對象,二是缺乏自動概化過程。 直觀上,若一個屬性的取值可以幫助有效地區(qū)分不同類別的數(shù)據(jù)集,則這個屬性就被認為是與相應(yīng)類別數(shù)據(jù)集密切相關(guān)的。 這意味著相關(guān)分析應(yīng)當(dāng)在多層次進行,并且只有那些最相關(guān)的維層次應(yīng)當(dāng)包含在分析中。哪些對比類應(yīng)當(dāng)用于相關(guān)分析并非是明顯的。 (續(xù)) 下面介紹一種方法,它將信息增益分析技術(shù)和基于多維數(shù)據(jù)分析的方法集成在一起。任意一個樣本屬于類 Ci的概率為 si/s,其中 s是集合 S 所有樣本總數(shù)。它的計算公式如下: () A上該劃分得到的信息增益定義為 : Gain(A)=I(s1,s2,…,s m) E(A) () ? ?mjjjvimjjj sssIssssAE ,)(,2,1121 ???????? (續(xù)) ID3方法根據(jù) S集合中數(shù)據(jù)對象來計算每個屬性 Gain(A)值,并從中選擇出值 最大的作為 決策樹根結(jié)點,并根據(jù)該屬性的取值個數(shù)將初始數(shù)據(jù)集劃分為 v份,即通過不斷對每個新產(chǎn)生的數(shù)據(jù)子集循環(huán)進行上述操作,直到產(chǎn)生所有葉結(jié)點為止,至此就獲得一個決策樹。 (續(xù)) ?(3)使用選定的相關(guān)分析度量刪除不相關(guān)和弱相關(guān)屬性: 使用選定的相關(guān)分析度量,評估候選關(guān)系中的每個屬性。 3. 解析特征化實例 ?例 2: 使用解析特征化挖掘大學(xué)數(shù)據(jù)庫里研究生的一般特征描述。得到下面兩張表: 性別 專業(yè) 出生國 年齡區(qū)間 GPA 累計計數(shù) 男 科學(xué) 中國 21— 25 良 16 女 科學(xué) 外國 26— 30 優(yōu) 22 男 工程 外國 26— 30 優(yōu) 18 女 科學(xué) 外國 26— 30 優(yōu) 25 男 科學(xué) 中國 21— 25 優(yōu) 21 女 工程 中國 21— 25 優(yōu) 18 由解析特征化得到的 候選關(guān)系 : 目標(biāo)類(研究生) 由解析特征化得到的 候選關(guān)系 : 對比類(本科生) 性別 專業(yè) 出生國 年齡區(qū)間 GPA 累計計數(shù) 男 科學(xué) 外國 =20 良 18 女 商學(xué) 中國 =20 及格 20 男 商學(xué) 中國 =20 及格 22 女 科學(xué) 中國 21— 25 及格 24 男 工程 外國 21— 25 良 22 女 工程 中國 =20 優(yōu) 24 3. 解析特征化實例 (續(xù) ) ?( 3) 使用選定的相關(guān)分析度量 (如信息增益 ),評估候選關(guān)系中的屬性。由此產(chǎn)生 初始目標(biāo)類工作關(guān)系。 在前面討論中,對處理單個類中的多層數(shù)據(jù)匯總和特征化所用的技術(shù),同樣可用于處理多個可比較類的類比較。 (續(xù)) ?(2)對兩個不同類別數(shù)據(jù)集進行屬性相關(guān)分析,消除無關(guān)和弱屬性。這種可視化表示包括 對比度量 (如累計數(shù) % ),以突出目標(biāo)類 和 比較類 之間存在的差異。這里討論用規(guī)則的形式顯示概念比較。其中, qa覆蓋 目標(biāo)類 的某些元組。 d權(quán) 的取值范圍在 [0,1](或 [0%,100%])區(qū)間內(nèi)。 類似的,也可以導(dǎo)出其他概化元組的 d
點擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1