freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘概念與技術(shù)引言-免費(fèi)閱讀

  

【正文】 ? 適應(yīng)性維護(hù):數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建是基于當(dāng)時(shí)的技術(shù)條件的,由于計(jì)算機(jī)科學(xué)技術(shù)發(fā)展十分迅速,每隔一定的周期硬件設(shè)備和系統(tǒng)軟件都會(huì)發(fā)生重大的變革,適應(yīng)性維護(hù)就是為了與變化了的環(huán)境相配合而進(jìn)行的對(duì)系統(tǒng)進(jìn)行修改的活動(dòng)。它幫助決策者分析數(shù)據(jù)以察看趨向、判斷問(wèn)題。 ? 對(duì)提取出來(lái)的數(shù)據(jù)進(jìn)行集成:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從多個(gè)應(yīng)用領(lǐng)域中提取出來(lái)的,在不同的應(yīng)用領(lǐng)域和不同的數(shù)據(jù)庫(kù)系統(tǒng)中都有不同的結(jié)構(gòu)和形式,所以如何對(duì)數(shù)據(jù)進(jìn)行集成也是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)重要方面。 時(shí)變性 ? 時(shí)變性:許多商業(yè)分析要求對(duì)發(fā)展趨勢(shì)做出預(yù)測(cè),對(duì)發(fā)展趨勢(shì)的分析需要訪問(wèn)歷史數(shù)據(jù)。在邏輯上,它對(duì)應(yīng)于企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對(duì)象。 數(shù)據(jù)挖掘的發(fā)展 ? 數(shù)據(jù)挖掘是與數(shù)據(jù)倉(cāng)庫(kù)密切相關(guān)的一個(gè)信息技術(shù)新領(lǐng)域,它是信息技術(shù)自然演化的結(jié)果。 ? Informix公司 : 在其動(dòng)態(tài)服務(wù)器 IDS( Informix Dynamic Server)中提供一系列相關(guān)選件,如高級(jí)決策支持選件( Advanced Decision Support Option)、 OLAP選件( MetaCube ROLAP Option)、擴(kuò)展并行選件( Extended Parallel Option)等,這種體系結(jié)構(gòu)嚴(yán)謹(jǐn)、管理方便、索引機(jī)制完善,并行處理的效率更高,其中數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)查詢(xún)的 SQL語(yǔ)句的一致性使得用戶(hù)開(kāi)發(fā)更加簡(jiǎn)便。 ? 例如:教練通過(guò) Advanced Scout發(fā)現(xiàn)本隊(duì)的球員在與對(duì)方一個(gè)球星對(duì)抗時(shí)有犯規(guī)紀(jì)錄,他可以在對(duì)方球星與這個(gè)隊(duì)員 “ 頭碰頭 ” 的瞬間分解雙方接觸的動(dòng)作,進(jìn)而設(shè)計(jì)合理的防守策略。 60 數(shù)據(jù)挖掘在市場(chǎng)營(yíng)銷(xiāo)的應(yīng)用 ? 是以市場(chǎng)營(yíng)銷(xiāo)學(xué)的市場(chǎng)細(xì)分原理為基礎(chǔ), 其基本假定是 “ 消費(fèi)者過(guò)去的行為是其今后消費(fèi)傾向的最好說(shuō)明 ” ? 通過(guò)收集、加工和處理涉及消費(fèi)者消費(fèi)行為的大量信息,確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個(gè)體下一步的消費(fèi)行為,然后以此為基礎(chǔ),對(duì)所識(shí)別出來(lái)的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營(yíng)銷(xiāo) 61 數(shù)據(jù)挖掘在市場(chǎng)營(yíng)銷(xiāo)的應(yīng)用 ? 與傳統(tǒng)的不區(qū)分消費(fèi)者對(duì)象特征的大規(guī)模營(yíng)銷(xiāo)手段相比,大大節(jié)省了營(yíng)銷(xiāo)成本,提高了營(yíng)銷(xiāo)效果,從而為企業(yè)帶來(lái)更多的利潤(rùn)。例如,概念聚類(lèi)是一種基于模型的聚類(lèi)方法,它對(duì)于一組為標(biāo)記的對(duì)象,產(chǎn)生一個(gè)分類(lèi)模式?;谀:碚摰姆诸?lèi)方法通常需要將屬性值轉(zhuǎn)換為模糊值,然后使用模糊規(guī)則對(duì)給定樣本數(shù)據(jù)進(jìn)行分類(lèi)。 ? 根據(jù) X的上下近似,可以將 U分為三個(gè)區(qū)域:正區(qū)域,負(fù)區(qū)域和邊界區(qū)域。 ? 到了 80年代末,這個(gè)理論引起了世界各國(guó)學(xué)者的注意,人們對(duì)約略集理論的主要興趣在于它恰好反映了人們以不完全信息或知識(shí)去處理一些不分明現(xiàn)象的能力,或依據(jù)觀察、度量到的某些不精確的結(jié)果而進(jìn)行分類(lèi)數(shù)據(jù)的能力。 46 決策樹(shù)方法 ? 決策樹(shù):用樹(shù)結(jié)構(gòu)表示決策集,這些決策產(chǎn)生規(guī)則,用于對(duì)數(shù)據(jù)集進(jìn)行分類(lèi)。 ? 交叉:又稱(chēng)為基因重組,即結(jié)合來(lái)自父代種群中的信息產(chǎn)生新的個(gè)體。 ? 目前,以遺傳算法為核心的進(jìn)化算法已與模糊系統(tǒng)理論、人工神經(jīng)網(wǎng)絡(luò)等一起成為人工智能研究中的熱點(diǎn),受到許多學(xué)科的共同關(guān)注。 40 生物學(xué)方法- 神經(jīng)網(wǎng)絡(luò)方法 ? 神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)待分析數(shù)據(jù)中的模式來(lái)構(gòu)造模型,一般可對(duì)隱類(lèi)型進(jìn)行分類(lèi),用于非線性的,復(fù)雜的數(shù)據(jù)。 38 數(shù)據(jù)挖掘常用技術(shù) ? 生物學(xué)方法 ? 人工神經(jīng)網(wǎng)絡(luò) ? 遺傳算法 ? 信息論方法 ? 決策樹(shù) ? 集合論方法 ? 約略集 ? 模糊集 ? 最鄰近技術(shù) ? 統(tǒng)計(jì)學(xué)方法 ? 可視化技術(shù) 39 生物學(xué)方法- 神經(jīng)網(wǎng)絡(luò)方法 ? 神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的一個(gè)重要的分支。 35 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)- 圖形用戶(hù)界面 ? 該模塊實(shí)現(xiàn)用戶(hù)與數(shù)據(jù)挖掘系統(tǒng)之間的通信,允許用戶(hù)與系統(tǒng)交互。 ? 模式相似性挖掘:用于在時(shí)間數(shù)據(jù)庫(kù)或空間數(shù)據(jù)庫(kù)中搜索相似模式時(shí),從所有對(duì)象中找出用戶(hù)定義范圍內(nèi)的對(duì)象;或找出所有元素對(duì),元素對(duì)中兩者的距離小于用戶(hù)定義的距離范圍。 ? 好的聚類(lèi)方法可以產(chǎn)生高質(zhì)量的聚類(lèi),保證每一聚類(lèi)內(nèi)部的相似性很高,而各聚類(lèi)之間的相似性很低。 在實(shí)際應(yīng)用過(guò)程中,分類(lèi)規(guī)則可以分析分組中數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,從而確定哪些數(shù)據(jù)屬于哪些組。關(guān)聯(lián)分析用于發(fā)現(xiàn)項(xiàng)目集之間的關(guān)聯(lián)。根據(jù)數(shù)據(jù)挖掘的目標(biāo),采用人工智能、集合論、統(tǒng)計(jì)學(xué)等方法,應(yīng)用相應(yīng)的數(shù)據(jù)挖掘算法,分析數(shù)據(jù)并通過(guò)可視化工具表述所獲得的模式或規(guī)則。 17 數(shù)據(jù)挖掘的發(fā)展 ? “從數(shù)據(jù)中發(fā)現(xiàn)有用模式 ” 歷來(lái)有很多稱(chēng)法,如 : ? 數(shù)據(jù)挖掘 ( data mining) ? 知識(shí)提取 (knowledge extraction) ? 信息發(fā)現(xiàn) (information discovery) ? 信息收獲 (information harvesting) ? 數(shù)據(jù)考古 (data archaeology) ? 數(shù)據(jù)模式處理 (data pattern processing) ? “數(shù)據(jù)挖掘 ” 的稱(chēng)法大部分是由統(tǒng)計(jì)學(xué)家,數(shù)據(jù)分析學(xué)家和 MIS團(tuán)體使用的,在數(shù)據(jù)庫(kù)領(lǐng)域也得到了廣泛接受。 ? 模式:它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對(duì)數(shù)據(jù)所包含的信息更抽象的描述。 ? 例如,通過(guò)對(duì)大量氣象資料和銷(xiāo)售資料的處理及分析,德國(guó)的啤酒商發(fā)現(xiàn),夏天氣溫每升高1℃ ,就會(huì)增加 230萬(wàn)瓶的啤酒銷(xiāo)量;而日本人則發(fā)現(xiàn),夏季 30℃ 以上的天氣每增加一天,空調(diào)的銷(xiāo)量便增加 4萬(wàn)臺(tái)。 ? 因此,數(shù)據(jù)倉(cāng)庫(kù)的功能是支持管理層進(jìn)行科學(xué)決策,而不是事務(wù)處理。例如: ? 由于銀行商業(yè)化的步伐正在加大,各大中型銀行在入世的機(jī)遇和挑戰(zhàn)下,開(kāi)始重新考慮自身的業(yè)務(wù),特別是信貸風(fēng)險(xiǎn)管理方面特別注意,因而有關(guān)信貸風(fēng)險(xiǎn)管理和風(fēng)險(xiǎn)規(guī)章的基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)的需求逐漸增多; ? 由于電子商務(wù)的迅速發(fā)展,越來(lái)越多的電子商務(wù)網(wǎng)站,開(kāi)始考慮如何將數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用于商品銷(xiāo)售分析、顧客的誠(chéng)信度分析等,為客戶(hù)提供更進(jìn)一步的個(gè)性化服務(wù); ? 如移動(dòng)通信等各大型企業(yè)也開(kāi)始考慮著手進(jìn)行決策支持以及數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃。 ? Informix公司 : 在其動(dòng)態(tài)服務(wù)器 IDS( Informix Dynamic Server)中提供一系列相關(guān)選件,如高級(jí)決策支持選件( Advanced Decision Support Option)、 OLAP選件( MetaCube ROLAP Option)、擴(kuò)展并行選件( Extended Parallel Option)等,這種體系結(jié)構(gòu)嚴(yán)謹(jǐn)、管理方便、索引機(jī)制完善,并行處理的效率更高,其中數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)查詢(xún)的 SQL語(yǔ)句的一致性使得用戶(hù)開(kāi)發(fā)更加簡(jiǎn)便。1 數(shù)據(jù)挖掘概念與技術(shù) 2 第 1章 引言 本章要點(diǎn) ? 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展 ? 數(shù)據(jù)挖掘 ? 數(shù)據(jù)挖掘的類(lèi)型 ? 數(shù)據(jù)挖掘常用技術(shù) ? 數(shù)據(jù)挖掘解決的典型商業(yè)問(wèn)題 3 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展 ? 自從 NCR公司為 Wal Mart建立了第一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。 5 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展 ? 微軟公司 : 在其 SQL SQL Server2020中集成了代號(hào)為 Plato的 OLAP服務(wù)器。 8 數(shù)據(jù)倉(cāng)庫(kù) (Data Warehouse)的定義 ? 數(shù)據(jù)倉(cāng)庫(kù)用來(lái)保存從多個(gè)數(shù)據(jù)庫(kù)或其它信息源選取的數(shù)據(jù) , 并為上層應(yīng)用提供統(tǒng)一 用戶(hù)接口,完成數(shù)據(jù)查詢(xún)和分析。 11 數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)要求 ? 大量數(shù)據(jù)的組織和管理:包含了大量的歷史數(shù)據(jù),它是從數(shù)據(jù)庫(kù)中提取得來(lái)的,不必關(guān)心它的數(shù)據(jù)安全性和數(shù)據(jù)完整性。 14 美國(guó)沃爾瑪超市 “ 啤酒與尿布 ” 的故事 ? 沃爾瑪超市建立數(shù)據(jù)倉(cāng)庫(kù),按周期統(tǒng)計(jì)產(chǎn)品的銷(xiāo)售信息,經(jīng)過(guò)科學(xué)建模后提煉決策層數(shù)據(jù)。模式按功能可以分為預(yù)測(cè)型模式和描述型模式。 18 數(shù)據(jù)挖掘的發(fā)展 ? 70~ 80年代:知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘結(jié)合 ? 1989年 6月:在美國(guó)底特律舉行了第一屆 “ 從數(shù)據(jù)庫(kù)中 知識(shí)發(fā)現(xiàn) ” 的國(guó)際學(xué)術(shù)會(huì)議,在這次會(huì)議中第一次使用了 KDD 這個(gè)詞來(lái)強(qiáng)調(diào) “ 知識(shí) ”是數(shù)據(jù)驅(qū)動(dòng) (datadriven)發(fā)現(xiàn)的最終結(jié)果。 24 數(shù)據(jù)挖掘的過(guò)程 ? 評(píng)價(jià)階段:在數(shù)據(jù)挖掘中得到的模式可能是沒(méi)有實(shí)際意義或沒(méi)有使用價(jià)值的,也有可能不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義,甚至在某些情況下是與事實(shí)相反的,因此需要評(píng)估,確定哪些是有效的、有用的模式。 在關(guān)聯(lián)規(guī)則挖掘算法中,通常給出了置信度和支持度兩個(gè)概念,對(duì)于置信度和支持度均大于給定閾值的規(guī)則稱(chēng)為強(qiáng)規(guī)則,而關(guān)聯(lián)分析主要就是對(duì)強(qiáng)規(guī)則的挖掘。這樣就可以利用該模型來(lái)分析已有數(shù)據(jù),并預(yù)測(cè)新數(shù)據(jù)將屬于哪一個(gè)組。聚類(lèi)分析的核心是將某些定性的相近程度測(cè)量方法轉(zhuǎn)換成定量測(cè)試方法。模式相似性挖掘的方法有相似度測(cè)量法、遺傳算法等。 ? 用戶(hù)可以通過(guò)圖形化界面指定數(shù)據(jù)挖掘任務(wù)、輸入有關(guān)信息,根據(jù)系統(tǒng)以可視化形式輸出的數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式的數(shù)據(jù)挖掘。采用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的系統(tǒng)模擬人腦的結(jié)構(gòu),而與傳統(tǒng)的系統(tǒng)截然不同。它通過(guò)模擬人腦神經(jīng)元結(jié)構(gòu)進(jìn)行數(shù)據(jù)挖掘。 42 生物學(xué)方法- 遺傳算法 ? 遺傳算法的研究與生物進(jìn)化理論和遺傳學(xué)密切相關(guān)。 ? 變異:即交叉之后子代的基因按小概率擾動(dòng)所產(chǎn)生的變化。 ? 決策樹(shù)的建立:利用訓(xùn)練集生成一個(gè)測(cè)試函數(shù),根據(jù)不同取值建立樹(shù)的分支,再在每個(gè)分支子集中重復(fù)建樹(shù)的分支的過(guò)程,即可建立決策樹(shù)。如醫(yī)學(xué)、藥學(xué)、工業(yè)、工程技術(shù)、控制系統(tǒng)、社會(huì)科學(xué)、地球科學(xué)、開(kāi)關(guān)電路、圖象處理和其他許多方面都已經(jīng)成功地實(shí)現(xiàn)了它的應(yīng)用。 52 概念 X的上下近似圖解 53 集合論方法- 約略集 ? 約略集理論用于分類(lèi)規(guī)則挖掘:發(fā)現(xiàn)不精確數(shù)據(jù)或噪聲數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系。 ? 模糊集合理論還可以用于對(duì)實(shí)際問(wèn)題進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類(lèi)分析等。這種聚類(lèi)不僅能夠確定相似對(duì)象的分組,還可以發(fā)現(xiàn)每一個(gè)分組的特征描述,即每一個(gè)分組代表了一個(gè)概念或類(lèi)。 ? 基于數(shù)據(jù)挖掘的營(yíng)銷(xiāo)對(duì)我國(guó)當(dāng)前的市場(chǎng)競(jìng)爭(zhēng)中也很具有啟發(fā)意義,我們經(jīng)??梢钥吹椒比A商業(yè)街上一些廠商對(duì)來(lái)往行人不分對(duì)象地散發(fā)大量商品宣傳廣告,其結(jié)果是不需要的人隨手丟棄資料,而需要的人并不一定能夠得到。 第 3章 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的 OLAP技術(shù) 本章要點(diǎn) ? 數(shù)據(jù)倉(cāng)庫(kù)的基本概念 ? 多維數(shù)據(jù)模型 ? 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu) ? 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn) ? 數(shù)據(jù)立方體技術(shù)的近一步發(fā)展 ? 從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展 ? 自從 NCR公司為 Wal Mart建立了第一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展 ? 微軟公司 : 在其 SQL SQL Server2020中集成了代號(hào)為 Plato的 OLAP服務(wù)器。 ? 隨著數(shù)據(jù)庫(kù)
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1