freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘緒論淺談數(shù)據(jù)挖掘(編輯修改稿)

2025-09-14 09:42 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 ration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems 數(shù)據(jù)庫(kù)管理員 OLAP ?商務(wù)智能通常被理解為將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識(shí),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策的工具。 ?一般由數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成。 數(shù)據(jù)挖掘:多種學(xué)科的交叉 39 Data Mining Database Technology Statistics Machine Learning Pattern Recognition Algorithm Other Disciplines Visualization 2020/9/15 2020/9/15 40 對(duì)何種數(shù)據(jù)進(jìn)行挖掘? ? 關(guān)系數(shù)據(jù)庫(kù)( Relational database)、數(shù)據(jù)倉(cāng)庫(kù)( data warehouse)、事務(wù)數(shù)據(jù)庫(kù)( transactional database) ? 高級(jí)數(shù)據(jù)庫(kù)和面向特殊應(yīng)用的數(shù)據(jù)庫(kù) ? 數(shù)據(jù)流和遙感數(shù)據(jù) ? 時(shí)間序列數(shù)據(jù)、時(shí)間數(shù)據(jù)、序列數(shù)據(jù)(生物序列數(shù)據(jù)) ? 結(jié)構(gòu)數(shù)據(jù)、圖、網(wǎng)絡(luò)和多維鏈數(shù)據(jù) ? 對(duì)象 關(guān)系數(shù)據(jù)庫(kù)( Objectrelational databases) ? 異種數(shù)據(jù)庫(kù)和遺產(chǎn)數(shù)據(jù)庫(kù) ? 空間數(shù)據(jù)和時(shí)空數(shù)據(jù) ? 多媒體數(shù)據(jù)庫(kù)、文本數(shù)據(jù)、 WWW 關(guān)系數(shù)據(jù)庫(kù)是表的集合,每個(gè)表都賦予一個(gè)唯一的名字。 事務(wù)數(shù)據(jù)庫(kù)由一個(gè)文件組成,其中每個(gè)記錄代表一個(gè)事務(wù)。 數(shù)據(jù)倉(cāng)庫(kù)是從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ),存放在一個(gè)一致的模式下,并通過(guò)數(shù)據(jù)清理、變換、集成等來(lái)構(gòu)造。 41 關(guān)系數(shù)據(jù)庫(kù) 2020/9/15 關(guān)系數(shù)據(jù)庫(kù)是表的集合,每個(gè)表都賦予一個(gè)唯一的名字。 事務(wù)數(shù)據(jù)庫(kù) 2020/9/15 42 ID 事務(wù)數(shù)據(jù)庫(kù)由一個(gè)文件組成,其中每個(gè)記錄代表一個(gè)事務(wù)。 數(shù)據(jù)倉(cāng)庫(kù) 2020/9/15 43 以面向主題的原則,以個(gè)人信用卡消費(fèi)趨勢(shì)為主題的星形模式數(shù)據(jù)倉(cāng)庫(kù)。 事實(shí)表 維表 數(shù)據(jù)倉(cāng)庫(kù)是從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ),存放在一個(gè)一致的模式下,并通過(guò)數(shù)據(jù)清理、變換、集成等來(lái)構(gòu)造。 Data Mining處理流程 44 DATA MINING 運(yùn)行時(shí)間 定義企業(yè)問(wèn)題 定義分析資料 數(shù)據(jù)預(yù)處理 數(shù)據(jù)挖掘 模型的評(píng)估 布署與應(yīng)用 數(shù)據(jù) 源 DATA MINING 處理流程 2020/9/15 OLAP與數(shù)據(jù)挖掘 ? 聯(lián)機(jī)分析處理 OLAP(OnLine Analytical Processing)是使使用者從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來(lái)的、易理解并真實(shí)反映企業(yè)特性的信息進(jìn)行存取,以滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求的一種軟件技術(shù)。 ? OLAP除了能夠告訴你數(shù)據(jù)庫(kù)中都有什么,還能夠更進(jìn)一步告訴你下一步會(huì)怎么樣以及如果采取這樣的措施又會(huì)怎么樣。 ? 其分析過(guò)程在本質(zhì)上是一個(gè)基于用戶建立的一系列假設(shè)驅(qū)動(dòng),通過(guò) OLAP來(lái)證實(shí)或者推翻這些假設(shè)的演繹推理過(guò)程。 2020/9/15 45 ?實(shí)質(zhì)上是通過(guò)把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維 (dimension),使用戶能對(duì)不同維上的數(shù)據(jù)進(jìn)行比較。因此 OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。 ?旋轉(zhuǎn)、切片(塊)、鉆取 ?鉆?。菏歉淖兙S的層次,變換分析的粒度。它包括向下鉆?。?Drilldown)和向上鉆?。?Drillup) /上卷 (Rollup)。 Drillup是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而 Drilldown則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。 ?切片和切塊:是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè),則是切片;如果有三個(gè)或以上,則是切塊。 ?旋轉(zhuǎn):是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。 ? 比如:一個(gè) OLAP分析師可能認(rèn)為,在某一區(qū)域開(kāi)辦信用卡的用戶會(huì)更主動(dòng)地進(jìn)行消費(fèi)。 ? 對(duì)于這個(gè)假定,他可能去觀察在那些富裕地區(qū)申辦信用卡的用戶的信用卡賬戶屬性。如果結(jié)果還不夠明顯,他也許要將年齡因素考慮進(jìn)去。一直這樣下去,直到他認(rèn)為他找到了能夠決定是否主動(dòng)進(jìn)行信用卡消費(fèi)的各種變量,然后再根據(jù)這些變量,策劃他的銀行產(chǎn)品的營(yíng)銷方式,最大程度上將營(yíng)銷資源放在最可能接受他們產(chǎn)品的客戶對(duì)象上。 2020/9/15 46 ? 比如,在銀行間盛行的 CRM的應(yīng)用中,數(shù)據(jù)倉(cāng)庫(kù)以面向“客戶”為主題進(jìn)行數(shù)據(jù)篩選、存儲(chǔ);OLAP負(fù)責(zé)分析客戶的基本信息、儲(chǔ)蓄賬戶信息、歷史余額信息、銀行交易日志等,以動(dòng)態(tài)分析報(bào)表、直方圖、折線圖、餅圖等形式展現(xiàn)給管理者,讓他們從多方面了解和掌握客戶的動(dòng)態(tài),從而發(fā)現(xiàn)客戶的交易習(xí)性、客戶流失形式,更好地針對(duì)不同類型的客戶,在不同時(shí)期進(jìn)行適應(yīng)性產(chǎn)品的營(yíng)銷活動(dòng)。 ? 數(shù)據(jù)挖掘則可以通過(guò)歷史數(shù)據(jù)建立模型,在擬合歷史的基礎(chǔ)上,分析未來(lái)趨勢(shì),判斷哪些因素的改變將很可能意味著客戶的最終流失,進(jìn)而避免其發(fā)生。 2020/9/15 47 OLAP與數(shù)據(jù)挖掘的區(qū)別 數(shù)據(jù)挖掘的功能 ? 關(guān)聯(lián)分析 ? 分類和預(yù)測(cè) ? 聚類 ? 異常值探測(cè) ? 序列模式挖掘 48 2020/9/15 ? 關(guān)聯(lián)分析是用于挖掘、發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間存在的、重要的、有趣的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。 ? 在不知道關(guān)聯(lián)函數(shù)或關(guān)聯(lián)函數(shù)不確定的情況下,為了反映所發(fā)現(xiàn)規(guī)則的有用性和確定性,關(guān)聯(lián)分析生成的規(guī)則都要滿足 最小支持度閥值和最小臵信度閥值。 49 關(guān)聯(lián)分析 2020/9/15 關(guān)聯(lián)分析的應(yīng)用: ? 比 如 人 壽 保 險(xiǎn)。 保 險(xiǎn) 公 司 在 接 受 保 險(xiǎn) 前, 往 往 需 要 記 錄 投 保 人 詳 盡 的 信 息, 有 時(shí) 還 要 到 醫(yī) 院 做 身 體 檢 查。 保 單 上 記 錄 有 投 保 人 的 年 齡、 性 別、 健 康 狀 況、 工 作 單 位、 工 作 地 址、 工 資 水 平 等。 ? 通 過(guò) 分 析 這 些 數(shù) 據(jù), 可 以 得 到 類 似 以 下 這 樣 的 關(guān) 聯(lián) 規(guī) 則: 年 齡 在 40 歲 以 上, 工 作 在 A 區(qū) 的 投 保 人 當(dāng) 中, 有 45 % 的 人 曾 經(jīng) 向 保 險(xiǎn) 公 司 索 賠 過(guò)。 在 這 條 規(guī) 則 中, ? “ 年 齡 在 40 歲 以 上” ∩“ 工 作 在 A 區(qū)” →“向 保 險(xiǎn) 公 司 索 賠 過(guò)” ? 可 以 看 出 來(lái), A 區(qū) 可 能 污 染 比 較 嚴(yán) 重, 環(huán) 境 比 較 差, 導(dǎo) 致 工 作 在 該 區(qū) 的 人 健 康 狀 況 不 好, 索 賠 率 也 相 對(duì) 比 較 高。 2020/9/15 50 分類和預(yù)測(cè) ? 分類是對(duì)一個(gè)類別進(jìn)行描述及概括相關(guān)特征,并提取出描述重要數(shù)據(jù)類的模型。 ? 數(shù)據(jù)挖掘中的分類方法很多,主要有決策樹(shù)和決策規(guī)則、貝葉斯信念網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)以及遺傳算法等。 ? 預(yù)測(cè)是通過(guò)建立連續(xù)值函數(shù)模型達(dá)到預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。預(yù)測(cè)的方法主要有回歸分析、時(shí)間序列分析等。各種分類模型也可以預(yù)測(cè),但主要是預(yù)測(cè)分類標(biāo)號(hào)。 51 2020/9/15 聚類 ? 聚類是在要?jiǎng)澐值念愇粗那闆r下
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1