freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數據倉庫第七章-文庫吧在線文庫

2025-03-31 09:06上一頁面

下一頁面
  

【正文】 期望信息: 3. 解析特征化實例 (續(xù) ) ? ? ? ?250130log250130250120log250120130,120222,1????? IssI 3. 解析特征化實例 (續(xù) ) 下面計算每個屬性的信息熵,以專業(yè)為例: ?專業(yè) =“ 科學 ” : S11= 84 S21= 42 I( S11, S21) = ?專業(yè) =“ 工程 ” : S12= 36 S22= 46 I( S12, S22) = ?專業(yè) =“ 商學 ” : S13= 0 S23= 42 I( S13, S23) = 0 3. 解析特征化實例 (續(xù) ) 再利用公式 (),如果樣本根據專業(yè)劃分,則對給定的樣本進行分類所需的期望信息為: ? ? ? ? ? ? ? ?,25042,25082,250126231322122111???? ssIssIssImajorE 3. 解析特征化實例 (續(xù) ) 從而得到,由這樣的劃分的信息增益為: Gain(專業(yè) )=I(s1,s2) E(專業(yè) )= 類似地,也可計算獲得其他屬性的信息增益,它們排序后結果為: 性別 (), 出生國 (), 專業(yè) (), GPA(), 年齡區(qū)間 () 3. 解析特征化實例 (續(xù) ) 若設定 屬性相關閾值 為 , 以此來判斷 弱相關屬性。給定了 屬性:姓名 , 性別 , 專業(yè) , 出生地 , 出生日 ,居住地 , 電話 和 GPA。 2. 概念比較描述的表示 概念比較描述 的可視化, 可以采用概化關系、交叉表、條型圖、餅圖、曲線和規(guī)則。 2. 概念比較描述的表示 (續(xù) ) qa的 d權 是 初始目標類工作關系 中被qa覆蓋的 元組數 與 初始目標類和對比類工作關系中 被 qa覆蓋的 總元組數 的比。例如上面的規(guī)則蘊含:若 X滿足條件,則 X是 研究生的概率為 30%; 但決不表示 研究生有 30%可能 滿足這一條件。 2. 概念比較描述的表示 (續(xù) ) ?例 4: 在 例 3中假定對概化元組計數,由前面兩張表得到概化元組: 專業(yè) =“科學” , 年齡區(qū)間 =“ 2125” , GPA=“ 良”的計數分布,如表所示: 學生類 專業(yè) 年齡區(qū)間 GPA 計數 研究生 科學 21— 25 良 90 本科生 科學 21— 25 良 210 概化元組研究生和本科生的計數分布 2. 概念比較描述的表示 (續(xù) ) 給定概化元組的 d權 關于 目標類 是 90/(90+210)=30%, 關于 對比類 是210/(90+210)=70% 。量化區(qū)分規(guī)則對描述中每個概化元組附上一個統(tǒng)計興趣度度量 d權 。 ?(3)進行同步概化:在 目標數據集 和 對比數據集 上 進行,概化到用戶指定的閾值控制的層,得到下面兩張表: 專業(yè) 年齡區(qū)間 GPA 累計數 % 科學 21— 25 良 % 科學 26— 30 良 % 科學 30 優(yōu) % … … … … 商學 30 優(yōu) % 目標類的 主概化 關系 (研究生 ) 對比類主概化關系 (本科生 ) 專業(yè) 年齡區(qū)間 GPA 累計數 % 科學 16— 20 及格 % 科學 16— 20 良 % 科學 26— 30 良 % … … … … 商學 30 優(yōu) % (續(xù)) 由表可看出,與本科生相比,研究生一般趨向于年齡稍大, GPA較高。 第七章 概念描述 概念描述基本知識 數據概化與基于匯總的特征化 解析特征化 — 屬性相關分析 挖掘概念比較 — 區(qū)分不同的類 挖掘概念比較 — 區(qū)分 不同的類 在許多應用中, 類(或概念)比較是我們感興趣的,它挖掘將 目標類 與 對比類 相區(qū)分的描述。 對比類 取本科生的集合。 ?(2)使用保守的 AOI進行預相關分析: 這里進行的 AOI使用的 屬性分析閾值要合理的大,使得更多的屬性在選定度量的進一步相關分析中被考慮。 這里以 ID3決策樹歸納學習方法為例進行 介紹。在挖掘 概念比較 時, 目標類 和 對比類 要明顯地在挖掘查詢中給出。我們引進一些方法進行屬性(或維)相關分析,以過濾掉統(tǒng)計上不相關或弱相關的屬性,而保留與挖掘任務最相關的屬性。 這一步可用下面兩種方法有效實現: (a)對每個概化元組,通過二分檢索將它插入主關系 P中。因此,號碼和街道應當刪除,將居住地概化到居住城市。則通過對屬性概化和屬性概化控制,專業(yè)屬性被概化到指定的概念(如:科學,工程,商學)。 (續(xù)) (2)概化關系閾值控制 為概化關系設置一個閾值(通常取值范圍為 10到 30)。這就提出一個問題:多大才算“屬性具有大量不同值”? (續(xù)) 這取決于屬性或應用,有的用戶愿意讓屬性留在較低的抽象層,而另一些用戶愿意
點擊復制文檔內容
法律信息相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1