freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘概念與技術(shù)引言-在線瀏覽

2024-11-03 09:02本頁(yè)面
  

【正文】 ision Support Option)、 OLAP選件( MetaCube ROLAP Option)、擴(kuò)展并行選件( Extended Parallel Option)等,這種體系結(jié)構(gòu)嚴(yán)謹(jǐn)、管理方便、索引機(jī)制完善,并行處理的效率更高,其中數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)查詢的 SQL語(yǔ)句的一致性使得用戶開(kāi)發(fā)更加簡(jiǎn)便。 ? Sybase: 提供了專門(mén)的 OLAP服務(wù)器 Sybase IQ,并將其與數(shù)據(jù)倉(cāng)庫(kù)相關(guān)工具打包成 Warehouse Studio 。Trees(前端報(bào)表工具)構(gòu)成的一套較有特色的整體方案。 6 數(shù)據(jù)倉(cāng)庫(kù)的我國(guó)的發(fā)展 ? 現(xiàn)狀:數(shù)據(jù)倉(cāng)庫(kù)的概念已經(jīng)被國(guó)內(nèi)用戶接受多年,但在應(yīng)用方面的收效不理想 ? 原因: ? 現(xiàn)有的數(shù)據(jù)庫(kù)系統(tǒng)不健全,數(shù)據(jù)積累還不夠,無(wú)法提出決策支持需求; ? 缺乏能夠擔(dān)負(fù)規(guī)劃、設(shè)計(jì)、構(gòu)建和維護(hù)數(shù)據(jù)倉(cāng)庫(kù)的重任的復(fù)合型人才; ? 沒(méi)很好使用數(shù)據(jù)倉(cāng)庫(kù)前端工具(如 OLAP工具、數(shù)據(jù)挖掘工具等)。例如: ? 由于銀行商業(yè)化的步伐正在加大,各大中型銀行在入世的機(jī)遇和挑戰(zhàn)下,開(kāi)始重新考慮自身的業(yè)務(wù),特別是信貸風(fēng)險(xiǎn)管理方面特別注意,因而有關(guān)信貸風(fēng)險(xiǎn)管理和風(fēng)險(xiǎn)規(guī)章的基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)的需求逐漸增多; ? 由于電子商務(wù)的迅速發(fā)展,越來(lái)越多的電子商務(wù)網(wǎng)站,開(kāi)始考慮如何將數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用于商品銷售分析、顧客的誠(chéng)信度分析等,為客戶提供更進(jìn)一步的個(gè)性化服務(wù); ? 如移動(dòng)通信等各大型企業(yè)也開(kāi)始考慮著手進(jìn)行決策支持以及數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃。 ? 數(shù)據(jù)倉(cāng)庫(kù)是作為 DSS服務(wù)基礎(chǔ)的分析型 DB, 用來(lái)存放大容量的只讀數(shù)據(jù),為制定決策提供所需要的信息。 ? :數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合,用以支持管理決策的過(guò)程。 ? OLAP從數(shù)據(jù)倉(cāng)庫(kù)中的綜合數(shù)據(jù)出發(fā),提供面向分析的多維模型,并使用多維分析的方法從多個(gè)角度、多個(gè)層次對(duì)多維數(shù)據(jù)進(jìn)行分析,使決策者能夠以更加自然的方式來(lái)分析數(shù)據(jù)。 ? 因此,數(shù)據(jù)倉(cāng)庫(kù)的功能是支持管理層進(jìn)行科學(xué)決策,而不是事務(wù)處理。 ? 復(fù)雜分析的高性能體現(xiàn):涉及大量數(shù)據(jù)的聚集、綜合等,在進(jìn)行復(fù)雜查詢時(shí)經(jīng)常會(huì)使用多表的聯(lián)接、累計(jì)、分類、排序等操作。 ? 對(duì)進(jìn)行高層決策的最終用戶的界面支持:提供各種分析應(yīng)用工具。 ? 如何有效使用數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù)? 13 如何有效使用數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù)? ? 數(shù)據(jù)挖掘就是從大量的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又可能有用的信息和知識(shí)的過(guò)程。 ? 例如,通過(guò)對(duì)大量氣象資料和銷售資料的處理及分析,德國(guó)的啤酒商發(fā)現(xiàn),夏天氣溫每升高1℃ ,就會(huì)增加 230萬(wàn)瓶的啤酒銷量;而日本人則發(fā)現(xiàn),夏季 30℃ 以上的天氣每增加一天,空調(diào)的銷量便增加 4萬(wàn)臺(tái)。 ? 發(fā)現(xiàn)每逢周末,位于某地區(qū)的沃爾瑪超市連鎖店的啤酒和尿布的銷售量很大,而且單張發(fā)票中同時(shí)購(gòu)買尿布和啤酒的記錄非常普遍。 ? 得出這樣的結(jié)果后,沃爾瑪超市的工作人員嘗試著將啤酒和尿布擺放在一起銷售,結(jié)果尿布與啤酒的銷售額雙雙增長(zhǎng)。 15 數(shù)據(jù)挖掘 ? 數(shù)據(jù)挖掘(D ata Mining) :又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是基于AI、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析原有的數(shù)據(jù),進(jìn)行歸納性推理,從數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)庫(kù)中提取可信的、新穎的、有效的、人們感興趣的、能別人理解的知識(shí)的高級(jí)處理過(guò)程。 ? 模式:它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對(duì)數(shù)據(jù)所包含的信息更抽象的描述。在實(shí)際應(yīng)用中,可以細(xì)分為關(guān)聯(lián)模式、分類模式、聚類模式和序列模式等。它們都可以完成對(duì)決策過(guò)程的支持,并且相互間有一定的內(nèi)在聯(lián)系。 ? 數(shù)據(jù)挖掘是一門(mén)交叉性學(xué)科,它涉及到機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、智能數(shù)據(jù)庫(kù)、知識(shí)獲取、數(shù)據(jù)可視化、高性能計(jì)算、專家系統(tǒng)等多個(gè)領(lǐng)域。 17 數(shù)據(jù)挖掘的發(fā)展 ? “從數(shù)據(jù)中發(fā)現(xiàn)有用模式 ” 歷來(lái)有很多稱法,如 : ? 數(shù)據(jù)挖掘 ( data mining) ? 知識(shí)提取 (knowledge extraction) ? 信息發(fā)現(xiàn) (information discovery) ? 信息收獲 (information harvesting) ? 數(shù)據(jù)考古 (data archaeology) ? 數(shù)據(jù)模式處理 (data pattern processing) ? “數(shù)據(jù)挖掘 ” 的稱法大部分是由統(tǒng)計(jì)學(xué)家,數(shù)據(jù)分析學(xué)家和 MIS團(tuán)體使用的,在數(shù)據(jù)庫(kù)領(lǐng)域也得到了廣泛接受。 ? 1995:加拿大召開(kāi)第一屆知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際學(xué)術(shù)會(huì)議 19 歷屆有關(guān) KDD的學(xué)術(shù)會(huì)議 時(shí)間 會(huì)議名稱 會(huì)議地點(diǎn) 接受論文數(shù) 提交 論文數(shù) Workshop on KDD Detroit,Michigan,USA 29 69 Workshop on KDD Anaheim,California, USA 25 46 Workshop on KDD Washington,USA 28 40 1995 KDD95 Montreal,Canada 40 135 KDD96 Portland,Oregon,USA 45 220 PAKDD97 Singapore 35 97 KDD97 California,USA PAKDD98 Melbourne,Australia KDD98 New York,USA 20 數(shù)據(jù)挖掘的發(fā)展 ? 數(shù)據(jù)挖掘技術(shù)的應(yīng)用開(kāi)發(fā)在國(guó)外已經(jīng)迅速發(fā)展,許多大公司(如 Informix, Oracle, IBM等)都投入了巨資對(duì)其進(jìn)行研究,并開(kāi)發(fā)出了一些產(chǎn)品和原型,如 DBMiner、 Quest、 EXPLORA等。 ? 國(guó)內(nèi)在這方面的研究起步比較晚,早期研究的方向多集中于關(guān)聯(lián)規(guī)則的挖掘,近來(lái)關(guān)于時(shí)序模式、分類、聚類、 WEB數(shù)據(jù)挖掘等的研究也日益受到重視,并取得了不少可喜的成果,一些原型系統(tǒng)或數(shù)據(jù)挖掘工具已經(jīng)研制成功并在不斷完善中。數(shù)據(jù)準(zhǔn)備是否做得充分將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。根據(jù)數(shù)據(jù)挖掘的目標(biāo),采用人工智能、集合論、統(tǒng)計(jì)學(xué)等方法,應(yīng)用相應(yīng)的數(shù)據(jù)挖掘算法,分析數(shù)據(jù)并通過(guò)可視化工具表述所獲得的模式或規(guī)則。評(píng)估可以根據(jù)用戶多年的經(jīng)驗(yàn),有些模式也可以直接用數(shù)據(jù)來(lái)檢驗(yàn)其準(zhǔn)確性。同時(shí)還要對(duì)知識(shí)進(jìn)行一致性檢查,解決與以前得到的知識(shí)互相沖突、矛盾的地方,使知識(shí)得到鞏固。 26 數(shù)據(jù)挖掘的類型 ? 數(shù)據(jù)挖掘的任務(wù) : 是從大量的數(shù)據(jù)中發(fā)現(xiàn)模式。關(guān)聯(lián)分析用于發(fā)現(xiàn)項(xiàng)目集之間的關(guān)聯(lián)。 ? 近幾年研究較多。它廣泛地運(yùn)用于幫助市場(chǎng)導(dǎo)向、商品目錄設(shè)計(jì)客戶關(guān)系管理)( CRM)和其他各種商業(yè)決策過(guò)程中。另外,對(duì)于大規(guī)模、分布在不同站點(diǎn)上的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),關(guān)聯(lián)規(guī)則的挖掘可以使用并行算法,如: Count分布算法、 Data分布算法、Candidate 分布算法、智能 Data分布算法( IDD)和 DMA分布算法等。 在實(shí)際應(yīng)用過(guò)程中,分類規(guī)則可以分析分組中數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,從而確定哪些數(shù)據(jù)屬于哪些組。類的描述可以是顯式的,如用一組特征概念描述;也可以是隱式的,如用一個(gè)數(shù)學(xué)公式或數(shù)學(xué)模型描述。 ? 分類分析的常用方法: ? 約略( Rough)集 ? 決策樹(shù) ? 神經(jīng)網(wǎng)絡(luò) ? 統(tǒng)計(jì)分析法 30 聚類分析 ? 聚類 (Clustering)分析:聚類是指一組彼此間非常 “ 相似 ” 的數(shù)據(jù)對(duì)象的集合。 ? 聚類分析是按照某種相近程度度量方法將數(shù)據(jù)分成互不相同的一些分組。 ? 好的聚類方法可以產(chǎn)生高質(zhì)量的聚類,保證每一聚類內(nèi)部的相似性很高,而各聚類之間的相似性很低。 ? 采用聚類分析,系統(tǒng)可以根據(jù)部分?jǐn)?shù)據(jù)發(fā)現(xiàn)規(guī)律,找出對(duì)全體數(shù)據(jù)的描述。 ? 例如,它可以導(dǎo)出類似 “ 若 ATamp。序列模式可以看成是一種特定的關(guān)聯(lián)模型,它在關(guān)聯(lián)模型中增加了時(shí)間屬性。 ? 模式相似性挖掘:用于在時(shí)間數(shù)據(jù)庫(kù)或空間數(shù)據(jù)庫(kù)中搜索相似模式時(shí),從所有對(duì)象中找出用戶定義范圍內(nèi)的對(duì)象;或找出所有元素對(duì),元素對(duì)中兩者的距離小于用戶定義的距離范圍。 33 Web數(shù)據(jù)挖掘 ? Web數(shù)據(jù)挖掘:萬(wàn)維網(wǎng)是一個(gè)巨大的、分布廣泛的和全球性的信息服務(wù)中心,其中包含了豐富的超鏈接信息,為數(shù)據(jù)挖掘提供了豐富的資源。捕捉用戶的存取模式或發(fā)現(xiàn)一個(gè) Web網(wǎng)站最頻繁的訪問(wèn)路徑稱為 Web使用模式挖掘或 Web路徑挖掘。 ? Web內(nèi)容挖掘:是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對(duì)象之間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息篩選,從而獲得指定內(nèi)容的信息。 35 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)- 圖形用戶界面 ? 該模塊實(shí)現(xiàn)用戶與數(shù)據(jù)挖掘系統(tǒng)之間的通信,允許用戶與系統(tǒng)交互。 ? 此外,該模塊還提供用戶瀏覽數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)模式或數(shù)據(jù)結(jié)構(gòu)、評(píng)價(jià)數(shù)據(jù)挖掘的模式等功能。 ? 該部分由一系列功能模塊組成,分別用于關(guān)聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、聚類規(guī)則挖掘、時(shí)序與序列數(shù)據(jù)挖掘和 WEB數(shù)據(jù)挖掘等。在知識(shí)庫(kù)中存放領(lǐng)域知識(shí),用于搜索和對(duì)模式進(jìn)行評(píng)價(jià)。 38 數(shù)據(jù)挖掘常用技術(shù) ? 生物學(xué)方法 ? 人工神經(jīng)網(wǎng)絡(luò) ? 遺傳算法 ? 信息論方法 ? 決策樹(shù) ? 集合論方法 ? 約略集 ? 模糊集 ? 最鄰近技術(shù) ? 統(tǒng)計(jì)學(xué)方法 ? 可視化技術(shù) 39 生物學(xué)方法- 神經(jīng)網(wǎng)絡(luò)方法 ? 神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的一個(gè)重要的分支。由醫(yī)學(xué)可知,人的大腦中有幾十億個(gè)大腦細(xì)胞(稱為神經(jīng)元),這些神經(jīng)元通過(guò)神經(jīng)中樞的導(dǎo)電神經(jīng)纖維互相連接,從而形成一個(gè)復(fù)雜的腦神經(jīng)網(wǎng)絡(luò)。 ? 在人工神經(jīng)網(wǎng)絡(luò)中,用計(jì)算機(jī)處理單元來(lái)模擬人腦的神經(jīng)元,并將這些處理單元象人腦的神經(jīng)元那樣互相連接起來(lái),構(gòu)成一個(gè)網(wǎng)絡(luò)。完成某項(xiàng)工作的正確動(dòng)作,使得神經(jīng)網(wǎng)絡(luò)的某些連接或模式得到強(qiáng)化;而錯(cuò)誤的動(dòng)作則使神經(jīng)網(wǎng)絡(luò)的相應(yīng)連接或模式不被強(qiáng)化。 40 生物學(xué)方法- 神經(jīng)網(wǎng)絡(luò)方法 ? 神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)待分析數(shù)據(jù)中的模式來(lái)構(gòu)造模型,一般可對(duì)隱類型進(jìn)行分類,用于非線性的,復(fù)雜的數(shù)據(jù)。 以 MP模型和 Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),建立了三大類多種神經(jīng)網(wǎng)絡(luò)模型: ? 前饋式網(wǎng)絡(luò):以感知機(jī)、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表,可用于預(yù)測(cè)、模式識(shí)別等方面。 ? 自組織網(wǎng)絡(luò):以 ART模型、 Koholon模型為代表,用于聚類。 ? 遺傳算法的研究歷史比較短,是從 20世紀(jì) 60年代末期到 70年代初才開(kāi)始的,當(dāng)時(shí)的一些學(xué)者從試圖解釋自然界中生物的復(fù)雜適應(yīng)過(guò)程入手,模擬生物進(jìn)化的機(jī)制來(lái)建立人工系統(tǒng)的模型。 ? 目前,以遺傳算法為核心的進(jìn)化算法已與模糊系統(tǒng)理論、人工神經(jīng)網(wǎng)絡(luò)等一起成為人工智能研究中的熱點(diǎn),受到許多學(xué)科的共同關(guān)注。生命的基本特征包括生長(zhǎng)、繁殖、新陳代謝和遺傳與變異。 ? 達(dá)爾文提出了用自然選擇來(lái)解釋生物的進(jìn)化過(guò)程,該學(xué)說(shuō)包括遺傳、變異、生存斗爭(zhēng)和適者生存三個(gè)方面。 43 生物學(xué)方法-遺傳算法 ? 遺傳算法的基本思想:從代表問(wèn)題的可
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1