freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘緒論淺談數(shù)據(jù)挖掘(參考版)

2025-08-05 09:42本頁面
  

【正文】 2020/9/15 86 四、數(shù)據(jù)挖掘軟件 ? SQL2020 ? Clementine ? 馬克威分析系統(tǒng) ? Statistica ? SAS 87 2020/9/15 88 2020/9/15 。 ? 傳統(tǒng)的統(tǒng)計學方法是數(shù)據(jù)挖掘的經(jīng)典方法,統(tǒng)計學思想在整個數(shù)據(jù)挖掘過程都有重要的體現(xiàn),擔負著不可忽視的重任。 ? 統(tǒng)計學和數(shù)據(jù)挖掘有著共同的目標:發(fā)現(xiàn)數(shù)據(jù)中的結構或模式。 2020/9/15 84 在統(tǒng)計理論方面: ? 統(tǒng)計推斷的基礎“總體”和“樣本”的概念是否還繼續(xù)適用? ? 面對如此大量的數(shù)據(jù)很難定義總體和樣本; ? 大樣本漸近性質是否滿足? ? 由于數(shù)據(jù)量太大,傳統(tǒng)的統(tǒng)計量無論真實情況如何都會變得“顯著”; ? 統(tǒng)計假設檢驗使用的小概率原理是否還適用? ? 因為假定小概率事件在一次實驗中不會發(fā)生是合理的,而數(shù)據(jù)量大到一定程度之后,小概率事件一定會發(fā)生。而數(shù)據(jù)挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識。但是在數(shù)據(jù)挖掘中,算法也扮演著重要的角色。 ? 統(tǒng)計學具有某種保守性,它傾向于盡量地避免出現(xiàn)特殊方法的運用,而偏好于數(shù)學上的嚴格性;數(shù)據(jù)挖掘分析問題喜歡“冒險”的態(tài)度。 79 2020/9/15 ?文章分群 ? 在 Vassar College的唐佛斯教授實驗室中,這類利用文字挖掘技術相當成熟,能夠從一堆文章中自動找出哪些是莎士比亞寫的作品,同時該實驗室也發(fā)現(xiàn) 1823年發(fā)表的 《 圣誕老人 》 的作者并非是原先宣稱的 Clement Clark Moore,而是 Henry Livingston。 它特別適用于因變量為二項 , 多項分類的資料 。 ?能否用發(fā)病的概率 P來直接代替 y呢 ? 即 ?不行 。 ? 當需要把概率限制在 0~ 1時,就可以考慮使用LOGISTIC回歸。假設我們使用 100毫克毒物,根據(jù)方程式計算,這些老鼠的死亡率為 195%,也就是說每一百只老鼠會死195只,而如果我們完全不放任何毒物時,死亡率為 5%,也就是每一百只老鼠會死負五只。 ? 辦卡的概率是 ()/(+0)=1 (正規(guī)化分類的結果 P(會 )/(P(會 )+P(不會 )) ?羅吉斯回歸( Logistic Regression) ? 假設有個科學家想要了解某種毒物對于老鼠死亡率的分析,他做了三次實驗,分別使用不同的毒物用量,去計算每一百只老鼠的死亡概率,然后他得到以下的結果: ? 使用 10毫克毒物,死亡率為 15% ? 使用 20毫克毒物,死亡率 35% ? 使用 30毫克毒物,死亡率 55% ? 從這些數(shù)值看起來,毒物的用量與死亡率呈現(xiàn)顯著的正比關系,而且我們可以計算出一條非常完美準確的回歸線: Y=2X5( Y為死亡率, X為毒物用量)。ve Bayes 分類 ( | ) ( )( | )( | ) ( ) ( | ) ( )P X H P HP H XP X H P H P X H P H??? 實例:辦信用卡意愿分析 項目 性別 年齡 學生身分 收入 辦卡 1 男 45 否 高 會 2 女 31~45 否 高 會 3 女 20~30 是 低 會 4 男 20 是 低 不會 5 女 20~30 是 中 不會 6 女 20~30 否 中 會 7 女 31~45 否 高 會 8 男 31~45 是 中 不會 9 男 31~45 否 中 會 10 女 20 是 低 會 69 2020/9/15 70 解:首先根據(jù)訓練樣本計算各屬性相對于不同分類結果的條件概率: ? P(辦卡 )=7/10 P(不辦卡 )=3/10 ? P(女 性 |辦卡 )=5/7 P(女 性 |不 辦卡 )=1/3 ? P(年齡 =31~45|辦卡 )=3/7 P(年齡 =31~45|不 辦卡 )=1/3 ? P(學生 =否 |辦卡 )=5/7 P(學生 =否 |不 辦卡 )=0/3 ? P(收入 =中 |辦卡 )=2/7 P(收入 =中 |不 辦卡 )=2/3 2020/9/15 判斷 : X=(女性,年齡介于 31~45之間,不具學生身份,收入中等 )會不會辦理信用卡。貝葉斯定理提供了一種由P(X)、 P(H)和 P(X|H)計算后驗概率 P(H|X)的方法。 67 2020/9/15 ? 單純貝葉斯分類主要是根據(jù)貝葉斯定理 (Bayesian Theorem),來預測分類的結果。 ?神經(jīng)元的主要功能是接受刺激和傳遞信息。 ?發(fā)現(xiàn)這樣的規(guī)則可以應用于商品貨架擺設、庫存安排以及根據(jù)購買行為模式對客戶進行分類。 Step 0 Step 1 Step 2 Step 3 Step 4 b d c e a a b d e c d e a b c d e Step 4 Step 3 Step 2 Step 1 Step 0 agglomerative (AGNES) divisive (DIANA) 2020/9/15 62 KMeans Clustering K均 值 聚 類 方法 ? Example: 0123456789100 1 2 3 4 5 6 7 8 9 100 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0123456789100 1 2 3 4 5 6 7 8 9 100123456789100 1 2 3 4 5 6 7 8 9 100 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 K=2 Arbitrarily choose K object as initial cluster center Assign each objects to most similar center Update the cluster means Update the cluster means reassign reassign 常用聚類算法的比較 2020/9/15 63 ?關聯(lián)規(guī)則( Association) ?關聯(lián)規(guī)則是分析發(fā)現(xiàn)數(shù)據(jù)庫中不同變量或個體 (例如商品間的關系及年齡與購買行為 ……) 之間的關系程度 (概 率大小 ),并用這些規(guī)則找出顧客購買行為模式。 ? 可以幫助企業(yè)了解顧客的特征,將顧客分成新顧客、忠誠顧客、流失顧客、無規(guī)律購買顧客、新吸引的顧客等,便于企業(yè)針對不同群體的特征,設計出不同的營銷策略,更大程度地滿足消費者個性化需求。 57 2020/9/15 決策樹的應用舉例 2020/9/15 58 客戶信貸分類 輸出結果:關于“ buys_puter”的決策樹 59 2020/9/15 ?聚類( Cluster) ? 聚類目的在將相似的事物歸類。 ? 主要有兩個步驟:首先,通過一批已知的樣本數(shù)據(jù)建立一棵決策樹;然后,利用建好的決策樹,對數(shù)據(jù)進行預測。 2020/9/15 55 56 決策樹 聚類 時間序列 關聯(lián)規(guī)則 貝葉斯分類 類神經(jīng)網(wǎng)絡 羅吉斯回歸 線性回歸 文本數(shù)據(jù)挖掘 幾種數(shù)據(jù)挖掘技術 2020/9/15 ?Decision Tree決策 樹 ? 決策樹是用二叉樹形圖來表示處理邏輯的一種工具,是 對數(shù)據(jù)進行分類的方法。 ? 在序列分析模型中,先購買計算機再購買音箱,和先購買音箱再購買計算機是兩種不同的序列。 54 2020/9/15 ? 序列分析和關聯(lián)規(guī)則的 相似之處 在于,它們所用的樣本數(shù)據(jù)中,每一個樣本都包含
點擊復制文檔內(nèi)容
醫(yī)療健康相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1