【正文】
rrying a similar or slightly different meaning to data mining, such as knowledge mining from databases, knowledge extraction, data / pattern analysis, data archaeology, and data dredging. Many people treat data mining as a synonym for another popularly used term, “Knowledge Discovery in Databases”, or KDD. Alternatively, others view data mining as simply an essential step in the process of knowledge discovery in databases. Knowledge discovery consists of an iterative sequence of the following steps: 3)根據(jù)所用的技術(shù)進(jìn)行分類。一個高級的數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)支持多抽象層的知識發(fā)現(xiàn)。 數(shù)據(jù)挖掘系統(tǒng)可以根據(jù)所 挖掘的知識類型進(jìn)行分類。這樣,數(shù)據(jù)挖掘系統(tǒng)就可以據(jù)此進(jìn)行相應(yīng)的分類。這種分類可以幫助用戶區(qū)分?jǐn)?shù)據(jù)挖掘系統(tǒng),確定出最適合其需要的數(shù)據(jù)挖掘系統(tǒng)。此外,依賴于所用的數(shù)據(jù)挖掘方法,以及可以使用的其他學(xué)科的技術(shù),如神經(jīng)網(wǎng)絡(luò)、模糊和 /或粗糙集 理論、知識表示、歸納邏輯程序設(shè)計或高性能計算。通過數(shù)據(jù)挖掘,可以從數(shù)據(jù)庫提取有趣的知識、規(guī)律或者高層信息,并可以從不同的角度來觀察或瀏覽。 數(shù)據(jù)挖掘涉及多學(xué)科技術(shù)的集成,包括數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、高性能計算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索、圖像與信號處理和空間數(shù)據(jù)分析。然而,通過結(jié)合更高級的數(shù)據(jù)理解技術(shù),數(shù)據(jù)挖掘比數(shù)據(jù)倉庫的匯總型分析處理走得更遠(yuǎn)。對于有效的數(shù)據(jù)挖掘,建議盡可能深地將模式評估推進(jìn)到挖掘過程之中,以便將搜索限制在 有興趣的模式上。 數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)基本的部分,由一組功能模塊組成,用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析。這種知識可能包括概念分層,用于將屬性或?qū)傩灾到M織成不同的抽象層。 基于這種觀點,典型的數(shù)據(jù)挖掘系統(tǒng)具有以下主要成分: 數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫:這是一個或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子表格或其他類型的信息庫。 我們同意數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的一個步驟。知識發(fā)現(xiàn)的過程由以下步驟組成: 1)數(shù)據(jù)清理:消除噪聲或不一致數(shù)據(jù), 2)數(shù)據(jù)集成:多種數(shù)據(jù)可以組合在一起, 3)數(shù)據(jù)選擇:從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù), 4)數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作, 5)數(shù)據(jù)挖掘:基本步驟,使用智能方法提取數(shù)據(jù)模式, 6)模式評估:根據(jù)某種興趣 度度量,識別表示知識的真正有趣的模式, 7)知識表示:使用可視化和知識表示技術(shù),向用戶提供挖掘的知識。這樣,這種用詞不當(dāng)攜帶了“數(shù)據(jù)”和“挖掘”,就成了流行的選擇。注意,從礦石或砂子中挖掘黃金叫做黃金挖掘,而不是叫做礦石挖掘。該術(shù)語實際上有點兒用詞不當(dāng)。畢竟,挖掘是一個很生動的術(shù)語,它抓住了從大量的、未加工的材料中發(fā)現(xiàn)少量金塊這一過程的特點。而另一些人只是把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。注意,根據(jù)這種觀點,數(shù)據(jù)挖掘只是整個過程中的一個步驟,盡管是最重要的一步,因為它發(fā)現(xiàn)隱藏的模式。我們采用數(shù)據(jù)挖掘的廣義觀點:數(shù)據(jù)挖掘是 從存放在數(shù)據(jù)庫中或其他信息庫中的大量數(shù)據(jù)中挖掘出有趣知識的過程。 知識庫:這是領(lǐng)域知識,用于指導(dǎo)搜索,或評估結(jié)果模式的興趣度。領(lǐng)域知識的其他例子有興趣度限制或閾值和元數(shù)據(jù)(例如,描述來自多個異種數(shù)據(jù)源的數(shù)據(jù))。模式評估模塊也可以與挖掘模塊集成在一起,這依賴于所用的數(shù)據(jù)挖掘方法的實現(xiàn)。 從數(shù)據(jù)倉庫觀點,數(shù)據(jù)挖掘可以看作聯(lián)機(jī)分析處理( OLAP)的高級階段。一個系統(tǒng)只能夠進(jìn)行數(shù)據(jù)或信息檢索,包括在大型數(shù)據(jù)庫中找出聚集的值或回答演繹查詢,應(yīng)當(dāng)歸類為數(shù)據(jù)庫系統(tǒng),或信息檢索系統(tǒng),或演繹數(shù)據(jù)庫系統(tǒng)。一個算法是可伸縮的,如果給定內(nèi)存和磁盤空間等可利用的系統(tǒng)資源,其運(yùn)行時間應(yīng)當(dāng)隨數(shù)據(jù)庫大小線性增加。 數(shù)據(jù)挖掘是一個交叉學(xué)科的領(lǐng)域,受到多個學(xué)科的影響,包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)。這樣,就需要對數(shù)據(jù)挖掘系統(tǒng)給出一個清楚的分類。數(shù)據(jù)庫系統(tǒng)本身可以根據(jù)不同的標(biāo)準(zhǔn)(如數(shù)據(jù)模型,或數(shù)據(jù)或所涉及的應(yīng)用類型)來分類,每一類都可能需要自己的數(shù)據(jù)挖掘技術(shù)。 2)根據(jù)挖掘的知識類型進(jìn)行分類。 此外,數(shù)據(jù)挖掘系統(tǒng)也可以根據(jù)所挖掘的知識的粒度或抽象層進(jìn)行區(qū)分,包括概化知識(在高抽象層),原始層知識(在原始數(shù)據(jù)層),或多層知識(考慮若干抽象層)。這些方法也能幫助檢測孤立點。復(fù)雜的數(shù)據(jù)挖掘系統(tǒng)通常采用多種數(shù)據(jù)挖掘技術(shù),或是采用有效的、集成的技術(shù),結(jié)合一些方法的優(yōu)點。 data selection : where data relevant to the analysis task are retrieved from the database, knowledge presentation: where visualization and knowledge representation techniques are used to present the mined knowledge to the user . The data mining step may interact with the user or a knowledge base. The interesting patterns are presented to the user, and may be stored as new knowledge in the knowledge base. Note that according to this view, data mining is only one step in the entire process, albeit an essential one since it uncovers hidden patterns for evaluation. We agree that data mining is a knowledge discovery pr