freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫第七章-免費(fèi)閱讀

2025-03-25 09:06 上一頁面

下一頁面
  

【正文】 類似的,也可以導(dǎo)出其他概化元組的 d權(quán) 。其中, qa覆蓋 目標(biāo)類 的某些元組。這種可視化表示包括 對比度量 (如累計(jì)數(shù) % ),以突出目標(biāo)類 和 比較類 之間存在的差異。 在前面討論中,對處理單個(gè)類中的多層數(shù)據(jù)匯總和特征化所用的技術(shù),同樣可用于處理多個(gè)可比較類的類比較。得到下面兩張表: 性別 專業(yè) 出生國 年齡區(qū)間 GPA 累計(jì)計(jì)數(shù) 男 科學(xué) 中國 21— 25 良 16 女 科學(xué) 外國 26— 30 優(yōu) 22 男 工程 外國 26— 30 優(yōu) 18 女 科學(xué) 外國 26— 30 優(yōu) 25 男 科學(xué) 中國 21— 25 優(yōu) 21 女 工程 中國 21— 25 優(yōu) 18 由解析特征化得到的 候選關(guān)系 : 目標(biāo)類(研究生) 由解析特征化得到的 候選關(guān)系 : 對比類(本科生) 性別 專業(yè) 出生國 年齡區(qū)間 GPA 累計(jì)計(jì)數(shù) 男 科學(xué) 外國 =20 良 18 女 商學(xué) 中國 =20 及格 20 男 商學(xué) 中國 =20 及格 22 女 科學(xué) 中國 21— 25 及格 24 男 工程 外國 21— 25 良 22 女 工程 中國 =20 優(yōu) 24 3. 解析特征化實(shí)例 (續(xù) ) ?( 3) 使用選定的相關(guān)分析度量 (如信息增益 ),評估候選關(guān)系中的屬性。 (續(xù)) ?(3)使用選定的相關(guān)分析度量刪除不相關(guān)和弱相關(guān)屬性: 使用選定的相關(guān)分析度量,評估候選關(guān)系中的每個(gè)屬性。任意一個(gè)樣本屬于類 Ci的概率為 si/s,其中 s是集合 S 所有樣本總數(shù)。哪些對比類應(yīng)當(dāng)用于相關(guān)分析并非是明顯的。 直觀上,若一個(gè)屬性的取值可以幫助有效地區(qū)分不同類別的數(shù)據(jù)集,則這個(gè)屬性就被認(rèn)為是與相應(yīng)類別數(shù)據(jù)集密切相關(guān)的。 (續(xù) ) (b)在大部分情況下,由于主關(guān)系層不同值的個(gè)數(shù)很少,可以將主關(guān)系編碼,作為 m_維數(shù)組,其中 m 是 P 中的屬性數(shù),而每個(gè)維包含對應(yīng)的概化屬性值。 (續(xù)) ? 7)電話: 與屬性姓名一樣,因包含太多不同值,應(yīng)當(dāng)在概化中刪除。設(shè)出生地的概念分層為:城市 省 國家。 (續(xù)) 這兩種技術(shù)可以順序使用:首先使用 屬性概化閾值控制 技術(shù)概化每個(gè)屬性,然后使用 概化關(guān)系閾值控制 進(jìn)一步減少概化關(guān)系的(規(guī)模)大小。該過程的控制稱為 屬性概化控制 。換句話說,系統(tǒng)自動(dòng)地包括省和國家作為相關(guān)屬性,使得城市可以在歸納過程中概化到較高的概念層。給定的屬性有:姓名、性別、專業(yè)、出生地、出生日期、居住地、電話和 GPA(平均等級分)。 (續(xù)) 數(shù)據(jù)立方體提供了一種有效的數(shù)據(jù)概化方法,且構(gòu)成了描述性數(shù)據(jù)挖掘中一個(gè)重要功能。 這種 多維 ,多層數(shù)據(jù)概化 類似于 DW中的多維數(shù)據(jù)分析。這種描述性數(shù)據(jù)挖掘稱為概念描述,它是數(shù)據(jù)挖掘的一個(gè)重要部分。 概念描述基本知識 概念: 通常指數(shù)據(jù)的匯集。而 概念描述 類似于DW的 OLAP。但由于 OLAP的數(shù)據(jù)立方實(shí)現(xiàn)是將維的類型限制在簡單非數(shù)值類型,且將處理限制在簡單數(shù)據(jù)匯總方面,因此數(shù)據(jù)立方體并不能解決概念描述所能解決的一些重要問題。 ?AOI方法的 第一步: 利用 DB查詢語言從大學(xué) DB中將學(xué)生數(shù)據(jù)抽取出來,然后指定一組與挖掘任務(wù)相關(guān)的屬性集。 (續(xù)) 另一方面,用戶可能引進(jìn)過多的屬性,如:指定所有的屬性,這樣大學(xué) DB的所有屬性都將包含在分析中,而有些屬性對有趣的描述是沒有用的。 (續(xù)) 若屬性概化得“太高”,則導(dǎo)致過分概化,產(chǎn)生的規(guī)則可能沒有多少信息。無論使用哪種概化控制技術(shù),都應(yīng)當(dāng)允許用戶調(diào)整概化閾值,以便得到有趣的規(guī)則。如果初始關(guān)系中,國家取值超過了屬性概化閾值,則出生地應(yīng)當(dāng)刪除,因?yàn)楸M管可以進(jìn)行概化操作,概化閾值也不會(huì)滿足。 ? 8) GPA: 假定存在 GPA的概念分層,將平均成績分成若干區(qū)間,如: {, , …} , 也可相應(yīng)的描述為: {優(yōu)秀,良好, … }, 因此該屬性可以被概化。數(shù)組的每個(gè)元素存放對應(yīng)的計(jì)數(shù)和其他聚集值。 (續(xù)) ?例: 一輛汽車的顏色不太可能用于區(qū)分貴賤汽車(類別),但汽車的型號、品牌、制造商、款式和氣缸數(shù)可能是更相關(guān)的屬性。在這種情況下,除特征化的數(shù)據(jù)集外, DB中可比較的數(shù)據(jù)集都作為對比類。一個(gè)決策樹可用于對數(shù)據(jù)對象進(jìn)行分類 ,因此決策樹可以看成是 Ci的一個(gè)信息源 ,為產(chǎn)生相應(yīng)信息需要的信息熵為: (續(xù)) () 若屬性 A的取值為 {a1, a2, … , av}, 且該屬性用作決策樹的一個(gè)結(jié)點(diǎn)時(shí),可將S 劃分為子集 {S1, S2, … , Sv }。根據(jù)計(jì)算的屬性與數(shù)據(jù)挖掘任務(wù)的相關(guān)性,對屬性排序,然后刪除不相關(guān)和弱相關(guān)屬性。設(shè): C1對應(yīng)于研究生類,有 120個(gè)樣本; C2對應(yīng)于本科生類,有 130個(gè)樣本。 ?概念 比較的一般過程如下: ( 1)數(shù)據(jù)收集 ( 2)屬性相關(guān)分析 ( 3)同步概化 ( 4)挖掘結(jié)果表示 (續(xù)) ?例 3: 在大學(xué)數(shù)據(jù)庫中挖掘研究生與本科生概念對比描述知識。例如, % 的研究生選擇“
點(diǎn)擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1