freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[管理學(xué)]聚類及貝葉斯分類-資料下載頁

2024-12-29 12:15本頁面
  

【正文】 道挖掘出的知識是有用的還是無用的,甚至是錯誤的。雖然知識發(fā)現(xiàn)中有一步是進(jìn)行知識評估,但是這種評估并不能總是知識的可用性和有效性,特別不能確定先驗(yàn)信息是否正確時,這種評估更帶有不確定性。 ? (2) 處理數(shù)據(jù)復(fù)雜性高,因此時間和空間消耗也比較大。貝葉斯方法要進(jìn)行后驗(yàn)概率的計算、區(qū)間估計、假設(shè)檢驗(yàn)等,大量的計算是不可避免的。 ? 如果我們擁有大量的數(shù)據(jù),而且對數(shù)據(jù)的了解又很少,這時候可以使用樸素貝葉斯算法。 ? 例如:公司可能由于兼并了一家競爭對手而獲得了大量的銷售數(shù)據(jù),在處理這些數(shù)據(jù)的時候,可以用樸素貝葉斯算法作為起點(diǎn)。 ? 應(yīng)該了解的是, SQLSERVER中這個算法有一個明顯的局限:就是只能處理離散的內(nèi)容類型,如果選擇的數(shù)據(jù)結(jié)構(gòu)中包含有內(nèi)容類型不是Discrete的數(shù)據(jù)列,那么樸素貝葉斯算法建立的挖掘模型會忽略這些數(shù)據(jù) ? 實(shí)例:辦信用卡意愿分析 項(xiàng)目 性別 年齡 學(xué)生身分 收入 辦卡 1 男 45 否 高 會 2 女 31~45 否 高 會 3 女 20~30 是 低 會 4 男 20 是 低 不會 5 女 20~30 是 中 不會 6 女 20~30 否 中 會 7 女 31~45 否 高 會 8 男 31~45 是 中 不會 9 男 31~45 否 中 會 10 女 20 是 低 會 40 2022/1/4 41 解:首先根據(jù)訓(xùn)練樣本計算各屬性相對于不同分類結(jié)果的條件概率: ? P(辦卡 )=7/10 P(不辦卡 )=3/10 ? P(女 性 |辦卡 )=5/7 P(女 性 |不 辦卡 )=1/3 ? P(年齡 =31~45|辦卡 )=3/7 P(年齡 =31~45|不 辦卡 )=1/3 ? P(學(xué)生 =否 |辦卡 )=5/7 P(學(xué)生 =否 |不 辦卡 )=0/3 ? P(收入 =中 |辦卡 )=2/7 P(收入 =中 |不 辦卡 )=2/3 2022/1/4 判斷 : X=(女性,年齡介于 31~45之間,不具學(xué)生身份,收入中等 )會不會辦理信用卡。 其次,再應(yīng)用樸素貝氏分類器進(jìn)行類別預(yù)測: ? 計算 ? P(辦卡 )P(女 性 |辦卡 )P(年齡 31~45|辦卡 )P(不是學(xué)生 |辦卡 )P(收入 中 |辦卡 ) =15/343≈ ? P(不 辦卡 )P(女 性 |不 辦卡 )P(年齡 31~45|不 辦卡 )P(不是學(xué)生 |不 辦卡 )P(收入 中 等 |不 辦卡 )=0 ? 0 42 2022/1/4 1( ) = ( ) ( )ni i i k ikP X C P C P C P x C??()43 2022/1/4 ? 訓(xùn)練樣本中對于 (女性,年齡介于 31~45之間,不具學(xué)生身份,收入 中等 )的個人,按照樸素貝葉斯分類會將其分到辦信用卡一類中。 ? 辦卡的概率是 ()/(+0)=1 (正規(guī)化分類的結(jié)果 P(會 )/(P(會 )+P(不會 )) ? 聚類分析的基本思想是在樣品之間定義距離,在變量之間定義相似系數(shù),距離或相似系數(shù)代表樣品或變量之間的相似程度,按相似程度的大小,將樣品或變量逐一歸類,關(guān)系密切的類聚集到一個小的分類單位,然后逐步擴(kuò)大,使得關(guān)系疏遠(yuǎn)的聚合到一個大的分類單位,直到所有的樣品或變量都聚集完畢,形成一個表示親屬關(guān)系的譜系圖,依次按照某些要求對某些樣品或變量進(jìn)行分類。 ? 聚類和分類的主要區(qū)別是,在進(jìn)行聚類分析以前,對總體到底有幾種類型并不知道,對已知數(shù)據(jù)分幾類需在聚類的過程中探索調(diào)整, 而分類是在事前已知道分為哪些類。 ? 貝葉斯方法用于聚類的挖掘算法目前并不廣泛,目前主要是用簡單貝葉斯學(xué)習(xí)模型來進(jìn)行聚類。 ? 由于貝葉斯方法的主要特點(diǎn)是通過先驗(yàn)信息來推得后驗(yàn)知識,如果將貝葉斯方法進(jìn)行聚類,其基本思想就是:首先根據(jù)先驗(yàn)信息假定數(shù)據(jù)集中可能要聚為一類的數(shù)據(jù)服從某種分布,再用某種距離測度檢驗(yàn)先驗(yàn)信息給出的這種分布是否符合聚為一類的要求。如果達(dá)不到聚類的要求,則根據(jù)計算概率找出不符合要求的原因,重新確定其分布,或修正此分布的參數(shù),以獲得更準(zhǔn)確的分布。 ? 在 BIDS中打開 SQL Server示例 數(shù)據(jù)庫( Adventure Worksdw)中的 Targeted Mailing示例,單擊“挖掘模型”選項(xiàng)卡,在使用樸素貝葉斯的模型上單擊右鍵,然后單擊“設(shè)置算法參數(shù)”,打開“算法參數(shù)”對話框,如下圖所示:
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1