freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘緒論(淺談數(shù)據(jù)挖掘)-全文預(yù)覽

2025-09-04 09:42 上一頁面

下一頁面
  

【正文】 驗(yàn)室中,這類利用文字挖掘技術(shù)相當(dāng)成熟,能夠從一堆文章中自動(dòng)找出哪些是莎士比亞寫的作品,同時(shí)該實(shí)驗(yàn)室也發(fā)現(xiàn) 1823年發(fā)表的 《 圣誕老人 》 的作者并非是原先宣稱的 Clement Clark Moore,而是 Henry Livingston。 ?能否用發(fā)病的概率 P來直接代替 y呢 ? 即 ?不行 。假設(shè)我們使用 100毫克毒物,根據(jù)方程式計(jì)算,這些老鼠的死亡率為 195%,也就是說每一百只老鼠會(huì)死195只,而如果我們完全不放任何毒物時(shí),死亡率為 5%,也就是每一百只老鼠會(huì)死負(fù)五只。ve Bayes 分類 ( | ) ( )( | )( | ) ( ) ( | ) ( )P X H P HP H XP X H P H P X H P H??? 實(shí)例:辦信用卡意愿分析 項(xiàng)目 性別 年齡 學(xué)生身分 收入 辦卡 1 男 45 否 高 會(huì) 2 女 31~45 否 高 會(huì) 3 女 20~30 是 低 會(huì) 4 男 20 是 低 不會(huì) 5 女 20~30 是 中 不會(huì) 6 女 20~30 否 中 會(huì) 7 女 31~45 否 高 會(huì) 8 男 31~45 是 中 不會(huì) 9 男 31~45 否 中 會(huì) 10 女 20 是 低 會(huì) 69 2020/9/15 70 解:首先根據(jù)訓(xùn)練樣本計(jì)算各屬性相對(duì)于不同分類結(jié)果的條件概率: ? P(辦卡 )=7/10 P(不辦卡 )=3/10 ? P(女 性 |辦卡 )=5/7 P(女 性 |不 辦卡 )=1/3 ? P(年齡 =31~45|辦卡 )=3/7 P(年齡 =31~45|不 辦卡 )=1/3 ? P(學(xué)生 =否 |辦卡 )=5/7 P(學(xué)生 =否 |不 辦卡 )=0/3 ? P(收入 =中 |辦卡 )=2/7 P(收入 =中 |不 辦卡 )=2/3 2020/9/15 判斷 : X=(女性,年齡介于 31~45之間,不具學(xué)生身份,收入中等 )會(huì)不會(huì)辦理信用卡。 67 2020/9/15 ? 單純貝葉斯分類主要是根據(jù)貝葉斯定理 (Bayesian Theorem),來預(yù)測(cè)分類的結(jié)果。 ?發(fā)現(xiàn)這樣的規(guī)則可以應(yīng)用于商品貨架擺設(shè)、庫存安排以及根據(jù)購買行為模式對(duì)客戶進(jìn)行分類。 ? 可以幫助企業(yè)了解顧客的特征,將顧客分成新顧客、忠誠顧客、流失顧客、無規(guī)律購買顧客、新吸引的顧客等,便于企業(yè)針對(duì)不同群體的特征,設(shè)計(jì)出不同的營銷策略,更大程度地滿足消費(fèi)者個(gè)性化需求。 ? 主要有兩個(gè)步驟:首先,通過一批已知的樣本數(shù)據(jù)建立一棵決策樹;然后,利用建好的決策樹,對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。 ? 在序列分析模型中,先購買計(jì)算機(jī)再購買音箱,和先購買音箱再購買計(jì)算機(jī)是兩種不同的序列。 ? 這里的序列一般指時(shí)間序列數(shù)據(jù)庫和序列數(shù)據(jù)庫( Web日志分析和 DNA分析)。 52 2020/9/15 異常值探測(cè) ? 異常值指的是數(shù)據(jù)庫中不符合數(shù)據(jù)一般模型的數(shù)據(jù)對(duì)象。各種分類模型也可以預(yù)測(cè),但主要是預(yù)測(cè)分類標(biāo)號(hào)。 2020/9/15 50 分類和預(yù)測(cè) ? 分類是對(duì)一個(gè)類別進(jìn)行描述及概括相關(guān)特征,并提取出描述重要數(shù)據(jù)類的模型。 保 險(xiǎn) 公 司 在 接 受 保 險(xiǎn) 前, 往 往 需 要 記 錄 投 保 人 詳 盡 的 信 息, 有 時(shí) 還 要 到 醫(yī) 院 做 身 體 檢 查。 2020/9/15 47 OLAP與數(shù)據(jù)挖掘的區(qū)別 數(shù)據(jù)挖掘的功能 ? 關(guān)聯(lián)分析 ? 分類和預(yù)測(cè) ? 聚類 ? 異常值探測(cè) ? 序列模式挖掘 48 2020/9/15 ? 關(guān)聯(lián)分析是用于挖掘、發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間存在的、重要的、有趣的知識(shí)。如果結(jié)果還不夠明顯,他也許要將年齡因素考慮進(jìn)去。如果剩余的維只有兩個(gè),則是切片;如果有三個(gè)或以上,則是切塊。 ?旋轉(zhuǎn)、切片(塊)、鉆取 ?鉆?。菏歉淖兙S的層次,變換分析的粒度。 ? OLAP除了能夠告訴你數(shù)據(jù)庫中都有什么,還能夠更進(jìn)一步告訴你下一步會(huì)怎么樣以及如果采取這樣的措施又會(huì)怎么樣。 事務(wù)數(shù)據(jù)庫 2020/9/15 42 ID 事務(wù)數(shù)據(jù)庫由一個(gè)文件組成,其中每個(gè)記錄代表一個(gè)事務(wù)。 數(shù)據(jù)挖掘:多種學(xué)科的交叉 39 Data Mining Database Technology Statistics Machine Learning Pattern Recognition Algorithm Other Disciplines Visualization 2020/9/15 2020/9/15 40 對(duì)何種數(shù)據(jù)進(jìn)行挖掘? ? 關(guān)系數(shù)據(jù)庫( Relational database)、數(shù)據(jù)倉庫( data warehouse)、事務(wù)數(shù)據(jù)庫( transactional database) ? 高級(jí)數(shù)據(jù)庫和面向特殊應(yīng)用的數(shù)據(jù)庫 ? 數(shù)據(jù)流和遙感數(shù)據(jù) ? 時(shí)間序列數(shù)據(jù)、時(shí)間數(shù)據(jù)、序列數(shù)據(jù)(生物序列數(shù)據(jù)) ? 結(jié)構(gòu)數(shù)據(jù)、圖、網(wǎng)絡(luò)和多維鏈數(shù)據(jù) ? 對(duì)象 關(guān)系數(shù)據(jù)庫( Objectrelational databases) ? 異種數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫 ? 空間數(shù)據(jù)和時(shí)空數(shù)據(jù) ? 多媒體數(shù)據(jù)庫、文本數(shù)據(jù)、 WWW 關(guān)系數(shù)據(jù)庫是表的集合,每個(gè)表都賦予一個(gè)唯一的名字。 35 什么是數(shù)據(jù)挖掘 ? ? 數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)) ? 數(shù)據(jù)挖掘就是從大量的、不完全的、 有噪聲的 、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。 2020/9/15 32 二、數(shù)據(jù)挖掘入門 ?什么激發(fā)了數(shù)據(jù)挖掘,為什么它是重要的? ?什么是數(shù)據(jù)挖掘? ?在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘? ?數(shù)據(jù)挖掘的功能 ?幾種較為流行的數(shù)據(jù)挖掘技術(shù) 33 2020/9/15 什么激發(fā)了數(shù)據(jù)挖掘,為什么它是重要的? ? 數(shù)據(jù)爆炸性的增長:從兆字節(jié) terabytes 到千兆字節(jié)petabytes。 2020/9/15 28 ( 7)交叉銷售 ?DM在房地產(chǎn)行業(yè)中的應(yīng)用 2020/9/15 29 關(guān)聯(lián)規(guī)則 A1:地理位置無關(guān)型客戶= ≥ 重視物業(yè)管理 支持率 =%;可信度 =%;興趣度 =; 關(guān)聯(lián)規(guī)則 B1:重視物業(yè)管理= ≥ 地理位置無關(guān)型客戶 支持率 =%;可信度 =%;興趣度 =; 對(duì)比發(fā)現(xiàn):“重視物業(yè)管理的人不關(guān)心地理位置”的可能性( %)高于“不關(guān)心地理位置的人重視物業(yè)管理”的可能性( %)。 2020/9/15 26 以顧客為導(dǎo)向 ? 例如, Safeway在了解客戶每次采購時(shí)會(huì)購買哪些產(chǎn)品以后,就可以利用數(shù)據(jù)挖掘中的監(jiān)測(cè)功能,監(jiān)測(cè)出長期的經(jīng)常購買行為。 2020/9/15 24 利用數(shù)據(jù)挖掘技術(shù)幫助企業(yè)準(zhǔn)確制定營銷策略,主要表現(xiàn)在: ? ( 1)通過對(duì)市場(chǎng)同類產(chǎn)品和銷售情況、顧客情況的資料收集和分類分析,明確細(xì)分市場(chǎng),確定本企業(yè)差別化的產(chǎn)品和服務(wù)定位、目標(biāo)顧客和市場(chǎng)營銷策略。 Safeway也發(fā)現(xiàn)在 28種品牌的橘子汁中,有 8中特別受到歡迎。 ? 商品布局管理即商品擺放位臵對(duì)銷售起著至關(guān)重要的作用。 2020/9/15 22 例如,如果一個(gè)持卡人日常生活里,每月交易筆數(shù)在3~6筆,這就是其交易模式之一。 ? 網(wǎng)上銷售點(diǎn):購物車交叉銷售、網(wǎng)上商品布局。 ?結(jié)果:購買 《 月光寶盒( 2VCD) 》 之后,又購買 《 大圣娶親 (2VCD)》 的次數(shù)是 1317。 ?這里要用到兩張表,一張表是該書店的會(huì)員,用會(huì)員 ID號(hào)來代替;另一張表是會(huì)員買了什么書。 17 2020/9/15 網(wǎng)上書店關(guān)聯(lián)銷售的案例 ? 現(xiàn)在網(wǎng)上書店為了
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1