freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫第七章-文庫吧在線文庫

2025-03-31 09:06上一頁面

下一頁面
  

【正文】 期望信息: 3. 解析特征化實(shí)例 (續(xù) ) ? ? ? ?250130log250130250120log250120130,120222,1????? IssI 3. 解析特征化實(shí)例 (續(xù) ) 下面計(jì)算每個(gè)屬性的信息熵,以專業(yè)為例: ?專業(yè) =“ 科學(xué) ” : S11= 84 S21= 42 I( S11, S21) = ?專業(yè) =“ 工程 ” : S12= 36 S22= 46 I( S12, S22) = ?專業(yè) =“ 商學(xué) ” : S13= 0 S23= 42 I( S13, S23) = 0 3. 解析特征化實(shí)例 (續(xù) ) 再利用公式 (),如果樣本根據(jù)專業(yè)劃分,則對給定的樣本進(jìn)行分類所需的期望信息為: ? ? ? ? ? ? ? ?,25042,25082,250126231322122111???? ssIssIssImajorE 3. 解析特征化實(shí)例 (續(xù) ) 從而得到,由這樣的劃分的信息增益為: Gain(專業(yè) )=I(s1,s2) E(專業(yè) )= 類似地,也可計(jì)算獲得其他屬性的信息增益,它們排序后結(jié)果為: 性別 (), 出生國 (), 專業(yè) (), GPA(), 年齡區(qū)間 () 3. 解析特征化實(shí)例 (續(xù) ) 若設(shè)定 屬性相關(guān)閾值 為 , 以此來判斷 弱相關(guān)屬性。給定了 屬性:姓名 , 性別 , 專業(yè) , 出生地 , 出生日 ,居住地 , 電話 和 GPA。 2. 概念比較描述的表示 概念比較描述 的可視化, 可以采用概化關(guān)系、交叉表、條型圖、餅圖、曲線和規(guī)則。 2. 概念比較描述的表示 (續(xù) ) qa的 d權(quán) 是 初始目標(biāo)類工作關(guān)系 中被qa覆蓋的 元組數(shù) 與 初始目標(biāo)類和對比類工作關(guān)系中 被 qa覆蓋的 總元組數(shù) 的比。例如上面的規(guī)則蘊(yùn)含:若 X滿足條件,則 X是 研究生的概率為 30%; 但決不表示 研究生有 30%可能 滿足這一條件。 2. 概念比較描述的表示 (續(xù) ) ?例 4: 在 例 3中假定對概化元組計(jì)數(shù),由前面兩張表得到概化元組: 專業(yè) =“科學(xué)” , 年齡區(qū)間 =“ 2125” , GPA=“ 良”的計(jì)數(shù)分布,如表所示: 學(xué)生類 專業(yè) 年齡區(qū)間 GPA 計(jì)數(shù) 研究生 科學(xué) 21— 25 良 90 本科生 科學(xué) 21— 25 良 210 概化元組研究生和本科生的計(jì)數(shù)分布 2. 概念比較描述的表示 (續(xù) ) 給定概化元組的 d權(quán) 關(guān)于 目標(biāo)類 是 90/(90+210)=30%, 關(guān)于 對比類 是210/(90+210)=70% 。量化區(qū)分規(guī)則對描述中每個(gè)概化元組附上一個(gè)統(tǒng)計(jì)興趣度度量 d權(quán) 。 ?(3)進(jìn)行同步概化:在 目標(biāo)數(shù)據(jù)集 和 對比數(shù)據(jù)集 上 進(jìn)行,概化到用戶指定的閾值控制的層,得到下面兩張表: 專業(yè) 年齡區(qū)間 GPA 累計(jì)數(shù) % 科學(xué) 21— 25 良 % 科學(xué) 26— 30 良 % 科學(xué) 30 優(yōu) % … … … … 商學(xué) 30 優(yōu) % 目標(biāo)類的 主概化 關(guān)系 (研究生 ) 對比類主概化關(guān)系 (本科生 ) 專業(yè) 年齡區(qū)間 GPA 累計(jì)數(shù) % 科學(xué) 16— 20 及格 % 科學(xué) 16— 20 良 % 科學(xué) 26— 30 良 % … … … … 商學(xué) 30 優(yōu) % (續(xù)) 由表可看出,與本科生相比,研究生一般趨向于年齡稍大, GPA較高。 第七章 概念描述 概念描述基本知識 數(shù)據(jù)概化與基于匯總的特征化 解析特征化 — 屬性相關(guān)分析 挖掘概念比較 — 區(qū)分不同的類 挖掘概念比較 — 區(qū)分 不同的類 在許多應(yīng)用中, 類(或概念)比較是我們感興趣的,它挖掘?qū)?目標(biāo)類 與 對比類 相區(qū)分的描述。 對比類 取本科生的集合。 ?(2)使用保守的 AOI進(jìn)行預(yù)相關(guān)分析: 這里進(jìn)行的 AOI使用的 屬性分析閾值要合理的大,使得更多的屬性在選定度量的進(jìn)一步相關(guān)分析中被考慮。 這里以 ID3決策樹歸納學(xué)習(xí)方法為例進(jìn)行 介紹。在挖掘 概念比較 時(shí), 目標(biāo)類 和 對比類 要明顯地在挖掘查詢中給出。我們引進(jìn)一些方法進(jìn)行屬性(或維)相關(guān)分析,以過濾掉統(tǒng)計(jì)上不相關(guān)或弱相關(guān)的屬性,而保留與挖掘任務(wù)最相關(guān)的屬性。 這一步可用下面兩種方法有效實(shí)現(xiàn): (a)對每個(gè)概化元組,通過二分檢索將它插入主關(guān)系 P中。因此,號碼和街道應(yīng)當(dāng)刪除,將居住地概化到居住城市。則通過對屬性概化和屬性概化控制,專業(yè)屬性被概化到指定的概念(如:科學(xué),工程,商學(xué))。 (續(xù)) (2)概化關(guān)系閾值控制 為概化關(guān)系設(shè)置一個(gè)閾值(通常取值范圍為 10到 30)。這就提出一個(gè)問題:多大才算“屬性具有大量不同值”? (續(xù)) 這取決于屬性或應(yīng)用,有的用戶愿意讓屬性留在較低的抽象層,而另一些用戶愿意
點(diǎn)擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1