freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉(cāng)庫(kù) 第七章-文庫(kù)吧

2025-02-27 09:06 本頁(yè)面


【正文】 。 (續(xù)) ?屬性概化 基于如下規(guī)則: 若一個(gè)屬性有許多不同數(shù)值,且該屬性存在一組概化操作,則可以選擇一個(gè)概化操作對(duì)該屬性進(jìn)行處理。 屬性刪除 和 屬性概化 兩個(gè)規(guī)則都表明,如果某屬性有大量的不同值,應(yīng)當(dāng)進(jìn)行進(jìn)一步概化。這就提出一個(gè)問(wèn)題:多大才算“屬性具有大量不同值”? (續(xù)) 這取決于屬性或應(yīng)用,有的用戶愿意讓屬性留在較低的抽象層,而另一些用戶愿意將它們概化到較高的抽象層。控制將屬性概化到多高的抽象層通常是相當(dāng)主觀的。該過(guò)程的控制稱為 屬性概化控制 。 (續(xù)) 若屬性概化得“太高”,則導(dǎo)致過(guò)分概化,產(chǎn)生的規(guī)則可能沒(méi)有多少信息。 若屬性概化沒(méi)有達(dá)到“足夠高的層次”,則“亞概化”也同樣可能使得到的規(guī)則變得失去意義。 因此 在基于屬性歸納時(shí), 掌握概化平衡 非常重要。 (續(xù)) 有許多控制概化過(guò)程的方法,下面是兩種常用的方法: (1)屬性概化閾值控制 該技術(shù)是對(duì)所有屬性統(tǒng)一設(shè)置一個(gè)概化閾值( 取值范圍一般為 2到 8)。如果屬性的不同值個(gè)數(shù)大于屬性概化閾值,則應(yīng)當(dāng)進(jìn)行進(jìn)一步的屬性刪除或?qū)傩愿呕? (續(xù)) (2)概化關(guān)系閾值控制 為概化關(guān)系設(shè)置一個(gè)閾值(通常取值范圍為 10到 30)。如果概化關(guān)系中不同元組的個(gè)數(shù)超過(guò)該閾值,則應(yīng)當(dāng)進(jìn)一步概化;否則,不再進(jìn)一步概化。 (續(xù)) 這兩種技術(shù)可以順序使用:首先使用 屬性概化閾值控制 技術(shù)概化每個(gè)屬性,然后使用 概化關(guān)系閾值控制 進(jìn)一步減少概化關(guān)系的(規(guī)模)大小。無(wú)論使用哪種概化控制技術(shù),都應(yīng)當(dāng)允許用戶調(diào)整概化閾值,以便得到有趣的規(guī)則。 (續(xù)) 例 1(續(xù)): 對(duì)前面得到的 初始工作關(guān)系的每個(gè)屬性,概化過(guò)程如下: ? 1)姓名: 由于姓名存在大量不同值,并且其上沒(méi)有定義概念分層,該屬性被刪除。 ? 2)性別: 由于性別只有兩個(gè)不同值,該屬性保留,并不對(duì)其進(jìn)行概化。 (續(xù)) ? 3)專業(yè): 假設(shè)定義了一個(gè)概念分層,從而可以對(duì)專業(yè)屬性進(jìn)行概化。又假設(shè)屬性概化閾值置為 5,在初始數(shù)據(jù)集合中有 25個(gè)不同取值。則通過(guò)對(duì)屬性概化和屬性概化控制,專業(yè)屬性被概化到指定的概念(如:科學(xué),工程,商學(xué))。 (續(xù)) ? 4)出生地: 該屬性有大量不同值,因此應(yīng)當(dāng)概化它。設(shè)出生地的概念分層為:城市 省 國(guó)家。如果初始關(guān)系中,國(guó)家取值超過(guò)了屬性概化閾值,則出生地應(yīng)當(dāng)刪除,因?yàn)楸M管可以進(jìn)行概化操作,概化閾值也不會(huì)滿足。但如果假定國(guó)家的取值個(gè)數(shù)小于概化閾值,則出生地應(yīng)當(dāng)概化到出生國(guó)家。 (續(xù)) ? 5)出生日期: 假定存在概念分層,可以將出生日期概化到年齡,而年齡概化到年齡分類,并且年齡分類的區(qū)間數(shù)小于對(duì)應(yīng)的屬性概化閾值,則應(yīng)當(dāng)對(duì)出生日期進(jìn)行概化。 (續(xù)) ? 6)居住地: 假定居住地被屬性號(hào)碼,街道,城市,省,國(guó)家定義。號(hào)碼和街道的不同值一般很多,而且這些概念的層次相當(dāng)?shù)?。因此,?hào)碼和街道應(yīng)當(dāng)刪除,將居住地概化到居住城市。這樣可包含較少的不同值。 (續(xù)) ? 7)電話: 與屬性姓名一樣,因包含太多不同值,應(yīng)當(dāng)在概化中刪除。 ? 8) GPA: 假定存在 GPA的概念分層,將平均成績(jī)分成若干區(qū)間,如: {, , …} , 也可相應(yīng)的描述為: {優(yōu)秀,良好, … }, 因此該屬性可以被概化。 (續(xù)) 概化過(guò)程會(huì)產(chǎn)生一系列內(nèi)容相同的數(shù)據(jù)行,相同內(nèi)容的數(shù)據(jù)行被合并成一個(gè),并累計(jì)它們的計(jì)數(shù)值。最終結(jié)果如下表: 性別 專業(yè) 出生國(guó) 年齡區(qū)間 出生城市 GPA 累計(jì) 男 科學(xué) 中國(guó) 20— 25 合肥 良好 16 女 工程 中國(guó) 25— 30 上海 優(yōu)秀 22 對(duì)初始關(guān)系的數(shù)據(jù)進(jìn)行基于屬性歸納得到的廣義關(guān)系: ? 算法: 基于屬性的歸納 ? 輸入 : (1)關(guān)系 DB; (2)數(shù)據(jù)挖掘命令 DMQuery; (3)屬性表 a_list; (4)屬性 ai上的概念分層或概化操作符的集合 Gen(a); (5)每個(gè)屬性 ai概化 閾值 a_gen_thresh(a) (續(xù) ) ? 輸出: 主概化關(guān)系 P(包含基于 a_list屬性集的一個(gè)定性概念描述) ? 方法: (1)W←get_task_relevant_data(DMQuery , DB); //工作關(guān)系 W存放任務(wù)相關(guān)的數(shù)據(jù) (2)prepare_for_generalization(W)//該步實(shí)現(xiàn)如下 : (續(xù) ) (a)掃描 W,收集每個(gè) ai屬性取不同值的個(gè)數(shù)。 (b)對(duì)每個(gè)屬性 ai ,根據(jù)給定的或缺省的屬性閾值,確定 ai是否應(yīng)當(dāng)刪除;如果不刪除,則計(jì)算它的最小期望層次 Li ,并確定映射對(duì) (v,v’ ), 基中 v是 W中 ai的不同值, v’ 是其在層 Li對(duì)應(yīng)的概化值。 (續(xù) ) (3)P←generalization(W ) 通過(guò)用其在映射中對(duì)應(yīng)的 v’ 替換 W中每個(gè)值 v,累計(jì)計(jì)數(shù)并計(jì)算所有聚集值,導(dǎo)出主概化關(guān)系 P。 這一步可用下面兩種方法有效實(shí)現(xiàn): (a)對(duì)每個(gè)概化元組,通過(guò)二分檢索將它插入主關(guān)系 P中。如果元組已在 P中,則簡(jiǎn)單地增加它的計(jì)數(shù)值并相應(yīng)處理其他聚集值;否則,將它插入 P。 (續(xù) ) (b)在大部
點(diǎn)擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1