freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第一章概述(sun)-在線瀏覽

2025-02-24 23:09本頁面
  

【正文】 中進行知識學(xué)習(xí)的階段稱為數(shù)據(jù)挖掘( Data Mining),數(shù)據(jù)挖掘是 KDD中一個非常重要的處理步驟。 數(shù)據(jù)挖掘 一、數(shù)據(jù)挖掘技術(shù)的由來 ?支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ) ?海量數(shù)據(jù)搜索 ?強大的多處理器計算機 ?數(shù)據(jù)挖掘算法 數(shù)據(jù)挖掘 二、數(shù)據(jù)挖掘的定義 ?技術(shù)角度的定義 ?數(shù)據(jù)挖掘 (Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的 實際應(yīng)用數(shù)據(jù)中 , 提取隱含在其中的、 人們事先不知道的、但又是潛在有用的信息和知識的過程。 數(shù)據(jù)挖掘 二、數(shù)據(jù)挖掘的定義 ?關(guān)于知識的解釋 ?從廣義上理解,數(shù)據(jù)、信息也是知識的表現(xiàn)形式,但是人們更 把概念、規(guī)則、模式、規(guī)律和約束等看作知識。 ?實際上,所有發(fā)現(xiàn)的知識都是相對的, 是有特定前提和約束條件,面向特定領(lǐng)域的,同時還要能夠易于被用戶理解。 數(shù)據(jù)挖掘 二、數(shù)據(jù)挖掘的定義 ?模式 :它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對數(shù)據(jù)所包含的信息更抽象的描述。在實際應(yīng)用中,可以 細分為關(guān)聯(lián)模式、分類模式、聚類模式和序列模式 等。 數(shù)據(jù)挖掘 二、數(shù)據(jù)挖掘的定義 ?商業(yè)角度的含義 ?數(shù)據(jù)挖掘 是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù) 數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。因此,數(shù)據(jù)挖掘可以描述為 :按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證己知的規(guī)律性,并進一步將其模型化的有效方法。 ?此外,還與神經(jīng)網(wǎng)絡(luò)、模式識別、空間數(shù)據(jù)分析、圖像處理、信號處理、概率論、圖論和歸納邏輯等等領(lǐng)域關(guān)系密切。數(shù)據(jù)挖掘所得到的信息應(yīng)具有 先前未知,有效和可用 三個特征 。 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘和在線分析處理 (OLAP) ? OLAP分析是建立一系列的假設(shè),然后通過 OLAP來證實或推翻這些假設(shè)來最終得到自己的結(jié)論。 ?數(shù)據(jù)挖掘與 OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗證某個假定的模式 (模型 )的正確性,而是在數(shù)據(jù)庫中自己尋找模型。 ?數(shù)據(jù)挖掘和 OLAP具有一定的互補性。 ?數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計分析技術(shù)。 ?數(shù)據(jù)挖掘就是利用了統(tǒng)計和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的本質(zhì) ? 一種 深層次的數(shù)據(jù)分析 方法。 ?現(xiàn)在,由于各行業(yè)業(yè)務(wù)自動化的實現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)并不是為了分析的目的而收集的,而是在商業(yè)運作過程中由于業(yè)務(wù)需要而自然產(chǎn)生的。 ?所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,就像 從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名 。 數(shù)據(jù)挖掘 廣義知識 ?廣義知識指類別特征的概括性描述知識。 ?廣義知識就是對大量數(shù)據(jù)的歸納、概括,提煉出帶有普遍性的、概括性的描述統(tǒng)計知識。如當(dāng)月公司利潤總額、比較不同區(qū)域的銷售量等。 數(shù)據(jù)挖掘 關(guān)聯(lián)知識 ?數(shù)據(jù)關(guān)聯(lián) 是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。 ?關(guān)聯(lián)知識可分為簡單關(guān)聯(lián)規(guī)則、多層關(guān)聯(lián)規(guī)則、多維關(guān)聯(lián)規(guī)則、量化關(guān)聯(lián)規(guī)則和基于約束的關(guān)聯(lián)規(guī)則。因為計算機系統(tǒng)早就算好了,如果你的購物車中有餐巾紙、大瓶可樂和沙拉,則 86%的可能性你要買一次性紙杯。 ?這不是什么神奇的科學(xué)算命,而是利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法實現(xiàn)的系統(tǒng)。 ?典型應(yīng)用: 客戶細分 。 ?算法有決策樹分類、貝葉斯分類、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法等。 ?一個典型的例子是 市場預(yù)測問題 ,數(shù)據(jù)挖掘從過去有關(guān)促銷的數(shù)據(jù)中尋找在未來投資中回報最大的用戶,其它可預(yù)測的問題包括預(yù)報破產(chǎn)以及認定對指定事件最可能做出反應(yīng)的群體。 數(shù)據(jù)挖掘 偏差知識 ?偏差型知識 是對差異和極端特例的描述,揭示事物偏離常規(guī)的異?,F(xiàn)象。 ?基于統(tǒng)計的方法、基于距離的方法和基于偏離的方法 數(shù)據(jù)挖掘 案例:國內(nèi)某電信公司利用數(shù)據(jù)挖掘預(yù)測客戶知識 2023年,某電信公司邀請國際某著名咨詢公司進行市場營銷再造項目,將數(shù)據(jù)挖掘用于它的三個業(yè)務(wù)領(lǐng)域: 客戶管理、網(wǎng)絡(luò) /產(chǎn)品 /服務(wù)管理、市場 /財務(wù)管理 ;公司將數(shù)據(jù)挖掘的重點放在了客戶管理。電信公司期望通過數(shù)據(jù)倉庫的實施和數(shù)據(jù)挖掘的應(yīng)用,能夠利用經(jīng)營分析系統(tǒng)進行 客戶分群、客戶獲取、客戶行為分析、客戶流失分析 等。例如,為了對付日益嚴(yán)重的客戶流失或業(yè)務(wù)流失狀況, 電信公司采用基于決策樹的方法來分析客戶的流失特性,以便采取針對性的營銷措施,挽留有價值的客戶、減少客戶流失。 數(shù)據(jù)挖掘 四、數(shù)據(jù)挖掘?qū)ο? 2. 數(shù)據(jù)倉庫 ?數(shù)據(jù)倉庫的特點如下: 1) 面向主題、 2) 集成的數(shù)據(jù)、 3) 不可更新、 4) 隨時間不斷變化 ?高質(zhì)量的挖掘結(jié)果依賴于高質(zhì)量的數(shù)據(jù),數(shù)據(jù)倉庫為數(shù)據(jù)挖掘準(zhǔn)備了良好的數(shù)據(jù)源,因此,數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的 最佳環(huán)境 。 ?文本分析包括: ?1) 關(guān)鍵詞或特征提取 ?2) 相似檢索 ?3) 文本聚類 ?4) 文本分類 數(shù)據(jù)挖掘 四、數(shù)據(jù)挖掘?qū)ο? 4.多媒體數(shù)據(jù) ?圖像、音頻、視頻數(shù)據(jù)是典型的多媒體數(shù)據(jù)。 數(shù)據(jù)挖掘 四、數(shù)據(jù)挖掘?qū)ο? 5. Web數(shù)據(jù) ? Web使用模式挖掘 :在 Web環(huán)境中,文檔和對象一般都是通過鏈接來便于用戶訪問。 ? Web結(jié)構(gòu)挖掘 :是挖掘 Web的鏈接結(jié)構(gòu),并找出關(guān)于某一主題的權(quán)威網(wǎng)站。 數(shù)據(jù)挖掘 四、數(shù)據(jù)挖掘?qū)ο? 6.復(fù)雜類型的數(shù)據(jù) 1) 空間數(shù)據(jù)庫 ?如地理信息數(shù)據(jù)、衛(wèi)星圖像數(shù)據(jù)、地下管道、下水道、及各類地下建筑分布數(shù)據(jù)等。 2) 時間序列數(shù)據(jù) ?主要用于存放與時間相關(guān)的數(shù)據(jù),它可用來反映隨時間變化的即時數(shù)據(jù)或不同時間發(fā)生的不同事件。 ?對時間序列數(shù)據(jù)的挖掘可以發(fā)現(xiàn)事件的發(fā)展趨勢、演變過程和隱藏特征,這些信息對制定計劃、決策和預(yù)警是非常有用的。 ?概念描述可以通過下述方法得到:數(shù)據(jù)特征化和數(shù)據(jù)區(qū)分 ?數(shù)據(jù)特征化的輸出 可以采用餅圖、柱狀圖、曲線、多維數(shù)據(jù)立方體、含交叉表的多維表等形式,描述結(jié)果也可以用概化關(guān)系或規(guī)則形式表示 ?數(shù)據(jù)區(qū)分的輸出 類似于數(shù)據(jù)特征化,但它應(yīng)該包括比較度量,以幫助區(qū)分目標(biāo)類和比較類。利用數(shù)據(jù)挖掘可作
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1