freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘緒論淺談數(shù)據(jù)挖掘-資料下載頁

2025-07-31 09:42本頁面

【導(dǎo)讀】76269,8406,9405,吃了二兩酒,不是動(dòng)怒,就是動(dòng)武,7918934,1.91817。吃酒要被酒殺死,一點(diǎn)酒也不要吃。是23113731,您的移動(dòng)電話是939956956。而且還不包括房貸利息。今日提款機(jī)提款限額。布和啤酒的銷量雙雙增加了。

  

【正文】 中 會(huì) 10 女 20 是 低 會(huì) 69 2020/9/15 70 解:首先根據(jù)訓(xùn)練樣本計(jì)算各屬性相對(duì)于不同分類結(jié)果的條件概率: ? P(辦卡 )=7/10 P(不辦卡 )=3/10 ? P(女 性 |辦卡 )=5/7 P(女 性 |不 辦卡 )=1/3 ? P(年齡 =31~45|辦卡 )=3/7 P(年齡 =31~45|不 辦卡 )=1/3 ? P(學(xué)生 =否 |辦卡 )=5/7 P(學(xué)生 =否 |不 辦卡 )=0/3 ? P(收入 =中 |辦卡 )=2/7 P(收入 =中 |不 辦卡 )=2/3 2020/9/15 判斷 : X=(女性,年齡介于 31~45之間,不具學(xué)生身份,收入中等 )會(huì)不會(huì)辦理信用卡。 其次,再應(yīng)用樸素貝氏分類器進(jìn)行類別預(yù)測(cè): ? 計(jì)算 ? P(辦卡 )P(女 性 |辦卡 )P(年齡 31~45|辦卡 )P(不是學(xué)生 |辦卡 )P(收入 中 |辦卡 ) =15/343≈ ? P(不 辦卡 )P(女 性 |不 辦卡 )P(年齡 31~45|不 辦卡 )P(不是學(xué)生 |不 辦卡 )P(收入 中 等 |不 辦卡 )=0 ? 0 71 2020/9/15 1( ) = ( ) ( )ni i i k ikP X C P C P C P x C??()72 2020/9/15 ? 訓(xùn)練樣本中對(duì)于 (女性,年齡介于 31~45之間,不具學(xué)生身份,收入 中等 )的個(gè)人,按照樸素貝葉斯分類會(huì)將其分到辦信用卡一類中。 ? 辦卡的概率是 ()/(+0)=1 (正規(guī)化分類的結(jié)果 P(會(huì) )/(P(會(huì) )+P(不會(huì) )) ?羅吉斯回歸( Logistic Regression) ? 假設(shè)有個(gè)科學(xué)家想要了解某種毒物對(duì)于老鼠死亡率的分析,他做了三次實(shí)驗(yàn),分別使用不同的毒物用量,去計(jì)算每一百只老鼠的死亡概率,然后他得到以下的結(jié)果: ? 使用 10毫克毒物,死亡率為 15% ? 使用 20毫克毒物,死亡率 35% ? 使用 30毫克毒物,死亡率 55% ? 從這些數(shù)值看起來,毒物的用量與死亡率呈現(xiàn)顯著的正比關(guān)系,而且我們可以計(jì)算出一條非常完美準(zhǔn)確的回歸線: Y=2X5( Y為死亡率, X為毒物用量)。 73 2020/9/15 ? 但是,這個(gè)方程式包含有一個(gè)重大錯(cuò)誤。假設(shè)我們使用 100毫克毒物,根據(jù)方程式計(jì)算,這些老鼠的死亡率為 195%,也就是說每一百只老鼠會(huì)死195只,而如果我們完全不放任何毒物時(shí),死亡率為 5%,也就是每一百只老鼠會(huì)死負(fù)五只。 ? 很顯然,這個(gè)線性回歸模型沒有考慮到幾個(gè)重要的限制,即當(dāng)我們使用毒物量降低時(shí),死亡率應(yīng)該是近于零(不會(huì)是負(fù)值),而當(dāng)毒物量增加時(shí),死亡率應(yīng)該是接近于 100%。 ? 當(dāng)需要把概率限制在 0~ 1時(shí),就可以考慮使用LOGISTIC回歸。 74 2020/9/15 Logistic回歸模型的構(gòu)造 ?現(xiàn) y為發(fā)病或未發(fā)病 , 生存與死亡等定性分類變量 , 不能直接用回歸模型進(jìn)行分析 。 ?能否用發(fā)病的概率 P來直接代替 y呢 ? 即 ?不行 。 但可以 ?因此 , 定義 logit(P)= ln[P/(1P)] 為 Logistic 變換 , 則Logistic回歸模型為 : 0 1 1 2 2 p p+ + + +P X X X? ? ? ??0 1 1 2 2 p pl n + + + +1P X X XP ? ? ? ??? ??????? ? 0 1 1 2 2 p pl o g + + + +it P X X X? ? ? ??2020/9/15 75 經(jīng)數(shù)學(xué)變換可得 : 0 1 1 2 2 p p0 1 1 2 2 p pe x p ( + + + + )1 + e x p ( + + + + )X X XPX X X? ? ? ?? ? ? ??2020/9/15 76 ? Logistic回歸模型是一種概率模型 , 它是以疾病 ,死亡等結(jié)果發(fā)生的概率為因變量 , 影響疾病發(fā)生的因素為自變量建立回歸模型 。 它特別適用于因變量為二項(xiàng) , 多項(xiàng)分類的資料 。 2020/9/15 77 78 2020/9/15 ?文本挖掘 基礎(chǔ)領(lǐng)域 基本技術(shù) 應(yīng)用領(lǐng)域 ?網(wǎng)站文本分析 ? 通過文本挖掘,能夠讓搜索引擎找到更符合查詢者原意的內(nèi)容;入口網(wǎng)站可以偵測(cè)網(wǎng)頁文件的關(guān)鍵字,判斷哪些網(wǎng)頁內(nèi)容屬于限制級(jí);搜索引擎也可以運(yùn)用關(guān)鍵字將網(wǎng)頁內(nèi)容自動(dòng)分類,或者是判斷哪些電子郵件是垃圾郵件。 79 2020/9/15 ?文章分群 ? 在 Vassar College的唐佛斯教授實(shí)驗(yàn)室中,這類利用文字挖掘技術(shù)相當(dāng)成熟,能夠從一堆文章中自動(dòng)找出哪些是莎士比亞寫的作品,同時(shí)該實(shí)驗(yàn)室也發(fā)現(xiàn) 1823年發(fā)表的 《 圣誕老人 》 的作者并非是原先宣稱的 Clement Clark Moore,而是 Henry Livingston。 80 2020/9/15 2020/9/15 81 Top10 Algorithm Finally Selected at ICDM’06 ? 1: (61 votes) ? 2: KMeans (60 votes) ? 3: SVM (58 votes) ? 4: Apriori (52 votes) ? 5: EM (48 votes) ? 6: PageRank (46 votes) ? 7: AdaBoost (45 votes) ? 7: kNN (45 votes) ? 7: Naive Bayes (45 votes) ? 10: CART (34 votes) expectation maximum 最大期望 超鏈接分析算法 IEEE數(shù)據(jù)挖掘國際會(huì)議 三、數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的關(guān)系 ? 為什么數(shù)據(jù)挖掘不是傳統(tǒng)的數(shù)據(jù)分析? ? 數(shù)據(jù)挖掘不是統(tǒng)計(jì)學(xué)的分支 ? 統(tǒng)計(jì)學(xué)是數(shù)據(jù)挖掘的核心 82 2020/9/15 2020/9/15 83 ?為什么數(shù)據(jù)挖掘不是傳統(tǒng)的數(shù)據(jù)分析 ? ? 海量數(shù)據(jù) —— 高維、高復(fù)雜度的數(shù)據(jù) ? 算法必須能夠處理諸如千兆的海量數(shù)據(jù)。 ? 統(tǒng)計(jì)學(xué)具有某種保守性,它傾向于盡量地避免出現(xiàn)特殊方法的運(yùn)用,而偏好于數(shù)學(xué)上的嚴(yán)格性;數(shù)據(jù)挖掘分析問題喜歡“冒險(xiǎn)”的態(tài)度。 ? 在現(xiàn)代統(tǒng)計(jì)學(xué)中,模型是主要的,而對(duì)于模型的選擇標(biāo)準(zhǔn)、如何計(jì)算等則都是次要的。但是在數(shù)據(jù)挖掘中,算法也扮演著重要的角色。 ? 統(tǒng)計(jì)學(xué)方法的前提假設(shè)。而數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知、有效和可實(shí)用三個(gè)特征。 2020/9/15 84 在統(tǒng)計(jì)理論方面: ? 統(tǒng)計(jì)推斷的基礎(chǔ)“總體”和“樣本”的概念是否還繼續(xù)適用? ? 面對(duì)如此大量的數(shù)據(jù)很難定義總體和樣本; ? 大樣本漸近性質(zhì)是否滿足? ? 由于數(shù)據(jù)量太大,傳統(tǒng)的統(tǒng)計(jì)量無論真實(shí)情況如何都會(huì)變得“顯著”; ? 統(tǒng)計(jì)假設(shè)檢驗(yàn)使用的小概率原理是否還適用? ? 因?yàn)榧俣ㄐ「怕适录谝淮螌?shí)驗(yàn)中不會(huì)發(fā)生是合理的,而數(shù)據(jù)量大到一定程度之后,小概率事件一定會(huì)發(fā)生。 2020/9/15 85 ?數(shù)據(jù)挖掘不是統(tǒng)計(jì)學(xué)的分支 統(tǒng)計(jì)學(xué)是數(shù)據(jù)挖掘的核心 ? 統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有著共同的目標(biāo)。 ? 統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有著共同的目標(biāo):發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)或模式。 ? 統(tǒng)計(jì)學(xué)在數(shù)據(jù)挖掘中起著重要的作用。 ? 傳統(tǒng)的統(tǒng)計(jì)學(xué)方法是數(shù)據(jù)挖掘的經(jīng)典方法,統(tǒng)計(jì)學(xué)思想在整個(gè)數(shù)據(jù)挖掘過程都有重要的體現(xiàn),擔(dān)負(fù)著不可忽視的重任。 ? 數(shù)據(jù)挖掘技術(shù)與統(tǒng)計(jì)學(xué)集成是必然趨勢(shì)。 2020/9/15 86 四、數(shù)據(jù)挖掘軟件 ? SQL2020 ? Clementine ? 馬克威分析系統(tǒng) ? Statistica ? SAS 87 2020/9/15 88 2020/9/1
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1