【正文】
萬戶大 約用了 15 年,而 Inter 上 網(wǎng)達到 50 00 萬戶僅 用了 4 年。數(shù) 據(jù)倉庫 作為一 種新型的數(shù)據(jù) 存儲和處 理手段 ,被數(shù) 據(jù)庫廠商 普遍接 受并且 相關輔助建模 和管理工 具快速 推向市 場,成為 多數(shù)據(jù) 源集成 的一種有 效的 技術 支 撐環(huán) 境。高性 能關系數(shù)據(jù)庫 引擎以及 相關的 分布式 查詢、并 發(fā)控制 等技術 的使用,已經(jīng) 提升了數(shù) 據(jù)庫的 應用能 力。 數(shù)據(jù)庫技術 從二十 世紀 80 年代開始 ,已經(jīng)得 到廣泛 的普及和應用 。 數(shù)據(jù) 挖掘 技術的提出和 普遍接受 是由于 計算機 及其相關 技術的 發(fā)展為 其提供了研究和應用的技術基礎。因 此,在 二十世 紀八十年 代后期 ,產(chǎn)生 了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘等信息處理思想。 因此, 隨著數(shù) 據(jù)的膨脹和技 術環(huán)境的 進步, 人們對 聯(lián)機決策 和分析 等高級 信息處理的要 求越來越 迫切。在我們的生 活中, 人們 只是 把數(shù)據(jù) 看作是形 成知識 的源泉 。 它不 會象數(shù) 據(jù)或信 息那么具體, 但是它卻 是人們 一直不 懈追求的 目標。面對 計算機中 的海量 的數(shù)據(jù) ,人們也處于 同樣的尷 尬境地 ,缺乏 獲取有效 信息的 手段。 例如,在 現(xiàn)實社 會中, 如果人均日閱讀 時間在 30 分鐘 的話,一個人 一天最快 只能瀏 覽一份 20 版左 右的報紙 。數(shù) 據(jù)庫是目 前組織 和存儲數(shù)據(jù)的 最有效方 法之一 ,但是 面對日益 膨脹的 數(shù)據(jù), 數(shù)據(jù)庫查詢技 術已表現(xiàn) 出它的 局限性 。這種貪婪 的結果導 致了“ 數(shù)據(jù) 豐富而 信息 貧乏 ( Data Ric h amp。 事實上, 數(shù)據(jù) ( Data ) 、信息 ( Infor ma tio n )和 知識( K now led ge)可以 看作 是廣義 數(shù)據(jù) 表現(xiàn) 的不同 形式 [ 3 ]。但是, 隨著一 個企業(yè) 或行業(yè)業(yè)務數(shù) 據(jù)的不斷 積累, 特別是 由于數(shù)據(jù) 庫的普 及,人 工去整理和理 解如此大 的數(shù)據(jù) 源已經(jīng) 存在效率 、準確 性等問 題。數(shù) 據(jù) 分析 是 科學研究 的基礎 ,許多 科學研究都是 建立在 數(shù) 據(jù)收集 和分析 基礎上的 。 新的需 求推 動新 的技 術的 誕生。 從本質 上說, 查詢是對數(shù)據(jù) 庫的被動 使用。目 前,由 于各種新 型技術 與數(shù)據(jù) 庫技術的有機 結合,使 數(shù)據(jù)庫 領域中 的新內容 、新應 用、新 技術層出不窮 ,形成了 龐大的 數(shù)據(jù)庫 家族。從第 2 章 數(shù)據(jù)挖掘技術 8 數(shù)據(jù)的 分布 角度 看,分 布式 數(shù)據(jù) 庫( Distrib uted Data ba se)及其透明 性、并發(fā) 控制、 并行處 理等成為 必須面 對的課 題。從應 用的數(shù)據(jù) 類型上 看,包 括空間、時態(tài)、 多媒體 以及 WE B 等 新型數(shù) 據(jù)成為數(shù) 據(jù)庫應 用的重要數(shù)據(jù)源 。80 年代中 期開始 ,關系 數(shù)據(jù)庫技 術和新 型技術的 結合成 為數(shù)據(jù)庫研究 和開 發(fā)的 重要標 志。 70 年 代,數(shù) 據(jù)庫系 統(tǒng)的三個 主要模 式――層 次、網(wǎng) 絡 和 關 系 型 數(shù)據(jù) 庫 的 研 究 和開 發(fā) 取 得 了重 要 進 展 。 數(shù)據(jù)挖掘技術的 產(chǎn)生背景 數(shù) 據(jù) 挖 掘 技 術的 商業(yè) 需求分 析 數(shù)據(jù)挖 掘之 所以 吸引 專家 學者的 研究 興趣 和引 起商 業(yè)廠家的廣泛 關注,主 要在于 大型數(shù) 據(jù)系統(tǒng)的 廣泛使 用和把 數(shù)據(jù)轉換成有用 知識的 迫切需要 。 因此, 本章將 系統(tǒng)地介紹相 關的概念 和技術 ,并力 求從不同 視點和 流派來 闡述數(shù)據(jù)挖掘的 重要概 念、發(fā)展 和應用 情況。這些研究包括數(shù)據(jù)挖掘系統(tǒng)的體系結構、關聯(lián)規(guī)則挖掘理論和算法等。數(shù)據(jù)挖掘的研究內容是極其豐富的。經(jīng)過十幾年的研究和實踐,數(shù)據(jù)挖掘技術已經(jīng)融合了許多學科的最新研究成果而形成獨具特色的研究分支。 本章小節(jié) 本章介紹了數(shù)據(jù)挖掘研究的意義和技術背景、論文的選題依據(jù)、研究背景以及我們的主要研究內容等。第 6 章提出了另一個 ISSDM 的改進算法 PISSDM。為了增強對大容量數(shù)據(jù)庫挖掘的適應性和可 用性,第 5 章設計了時第 1章 緒論 6 態(tài)約束下的 TISSDM 算法。第 4 章介紹了基于項目序列集操作的 ISSDM 算法。本文就數(shù)據(jù)分割下的數(shù)據(jù) 挖 掘 問 題 進 行 了 討 論 , 引 入 局 部 頻 繁 項 目 序 列 集 (Local Frequent Set of Ite msequences) 和 全 局 項 目 序 列 集 (Global Frequent Set of Itemsequences)等概念,并解決了局部頻繁項目序列集和全局頻繁項目序列集轉換等問題(詳見第 6 章)。基于這樣的時態(tài)約束條件下的數(shù)據(jù)挖掘理論框架,我們可以擴展數(shù)據(jù)挖掘工作到包括數(shù)據(jù)過濾( Data filtrating)、時態(tài)區(qū)間合并等數(shù)據(jù)預處理在內的更廣泛的范疇中去(詳見第 5 章)。本文針對時態(tài)約 束條件下的數(shù)據(jù)挖掘理論問題進行了探索。 ( 2)約束條件下的數(shù)據(jù)挖掘理論 毫無疑問,引進約束條件可以加速數(shù)據(jù)挖掘的過程。 本文主要的理論研究和成果為: ( 1)基于項目序列集操作的挖掘模型 我們建立了項目序列集的代數(shù)空間描述,并探討了在這個空間上的基本 操作算子。所謂項目序列是指項目集中的元素是按特定標準(如出現(xiàn)次數(shù)、字典排序)進行有序排列的。 數(shù)據(jù)挖掘理論研究 大多數(shù)文獻中使用的項目集( Itemset)是普通的集合概念 [1, 2]。因此,我們選取了 關聯(lián)規(guī)則挖掘算法進行了集中研究和實現(xiàn),并通過系列的算法設計和實現(xiàn)來驗證我們新的挖掘理論和積累研制數(shù)據(jù)挖掘系統(tǒng)的經(jīng)驗。 影響關聯(lián)規(guī)則的挖掘效率的因素主要有數(shù)據(jù)庫掃描的 I/O 代價、內存的需求、 CPU 的時間花費等。 ? 關聯(lián)規(guī)則挖掘算法 設計 。 如前所述 ,數(shù)據(jù)挖掘已經(jīng)建立了許多獨具特色 的挖掘 理論體系 ,但是 不論是 從應用范圍、有效性以及適應性等方面仍需新的挖掘理論的探索。這些研究包括從數(shù)據(jù)挖掘 的基本 過程來探 討系統(tǒng) 應具備 的主要功能部件及其相互聯(lián)系;不同的源數(shù)據(jù)類型對數(shù)據(jù)挖掘系統(tǒng)的功能部件要求;不同的應用目標對數(shù)據(jù)挖掘系統(tǒng)的功能部件要求;數(shù)據(jù)挖掘系統(tǒng)的主要功能部件的實現(xiàn)機制等。 第 1章 緒論 4 擬解決 的問題 作為博士論文,我們在收集和整理大量的相關資料,弄清相關的理論、方法、算法、體系結構(原型系統(tǒng))等基礎上,集中選取了下面幾個問題開展相關工作: ? 數(shù)據(jù)挖掘過程和系統(tǒng)構架研究。 從上面的敘述,可以看出數(shù)據(jù)挖掘研究和探索的內容是及其豐富和具有挑戰(zhàn)性的。新理論的發(fā)展必然促進新的挖掘算法的產(chǎn)生,這些算法可能擴展挖掘的有效性,如針對數(shù)據(jù)挖掘的某些階段、某些數(shù)據(jù)類型、大容量源數(shù)據(jù)集等更有效;可能提高挖掘的精度或效率;可能融合特定的應用目標,如 CR M、電子商務等。一方面,在這些大的理論框架下有許多面向實際應用目標的挖掘理論等待探索和創(chuàng)新。 經(jīng)過十幾年的研究,數(shù)據(jù)挖掘已經(jīng)在繼承和發(fā)展相關基礎學科(如機器學習、統(tǒng)計學等)已有成果方面取得了可喜的進步,探索出了許多獨具特色的理論體系。可視化挖掘除了要和良好的交互式技術結合外,還必須在挖掘結果或知識模式的可視化、挖掘過程的可視化以及可視化指導用戶挖掘等方面進行探索和實踐??梢暬笠呀?jīng)成為目前信息處理系統(tǒng)的必不可少技術。 對 OLTP 應用來說,結構化查詢語言 SQL 已經(jīng)得到充分發(fā)展,并成為支持數(shù)據(jù)庫應用的重要基石。所以良好的交互式挖掘( Interaction Mining)也是數(shù)據(jù)挖掘系統(tǒng)成功的前提。由于數(shù)據(jù)挖掘是在大量的源數(shù)據(jù)集中發(fā)現(xiàn)潛在的、事先并不知道的知識,因此 和用戶交互式進行探索性挖掘是必然的。 ? 數(shù)據(jù)挖掘系統(tǒng)的構架與交互式挖掘技術。指望一種通用的應用模式適合所 有的 數(shù)據(jù)存 儲方 式下發(fā) 現(xiàn)有 效知 識是不 現(xiàn)實的。 ? 數(shù)據(jù)挖掘技術與特定數(shù)據(jù)存儲類型的適應問題。 分析目前的研究和應用現(xiàn)狀,數(shù)據(jù)挖掘在如下幾個方面需要重點開展工作: ? 數(shù)據(jù)挖掘技術與特定商業(yè)邏輯的平滑集成問題。但是,數(shù)據(jù)挖掘來自于商業(yè)應用,而商業(yè)應用又會由于應用的領 域不同而存在很大差異。例如,就目前商家推出的數(shù)據(jù)挖掘系統(tǒng)而言,它們都是一些通用的輔助開發(fā)工具。把目前數(shù)據(jù)挖掘的研究現(xiàn)狀描述為鴻溝( Chasm)階段是比較準確的 [1]。數(shù)據(jù)挖掘的概念從二十世紀八十年代被提出后,其經(jīng)濟價值已經(jīng)顯現(xiàn)出來,而且被眾多商業(yè)廠家所推崇,形成初步的市場。一方面,數(shù)據(jù)挖掘的概念已經(jīng)被廣泛接受。象其它新技術的發(fā)展歷程一樣,數(shù)據(jù)挖掘也必須經(jīng)過概念提出、概念接受、廣泛研第 1章 緒論 2 究和探索、逐步應用和大量應用等階段。 研究背景 經(jīng)過十幾年的研究和實踐,數(shù)據(jù)挖掘技術已經(jīng)吸收了許多學科 的最新研究成果而形成獨具特色的研究分支。數(shù)據(jù)挖掘和知識發(fā)現(xiàn)使數(shù)據(jù)處理技術進入了一個更高級的階段。眾所周知,隨著數(shù)據(jù)庫容量的膨脹,特別是數(shù)據(jù)倉庫( Data Warehouse)以及 Web 等新型數(shù)據(jù)源的日益普及,聯(lián)機分析處理( OLAP: OnLine Analytic Processing)、決策支持( Decision Support)以及分類( Classification)、聚類( Clustering)等復雜應用成為必然。 二十世紀,數(shù)據(jù)庫技術取得了決定性的成果并且已經(jīng)得到廣泛的應用。特別是最近幾年,一些基本概念和方法趨于清晰,它的研究正向著更深入的方向發(fā)展。 Abstract III Abstract Data mining is a technique that aims to analyze and understand large source data and reveal knowledge hidde n in the data. It has been viewed as an important evolution in information processing. Why there ha ve been more attentions to it from researchers or businessmen is due to the wide availability of huge amounts of data and imminent needs for turning such data into valuable information. During the past decade or over, the concepts and techniq ues on data mining have been presented, and some of them have been discussed in hig her levels for the last few years. Data mining involves an integration of techniq ues from database, artificial intelligence, machine learning, statistics, knowledge engineering, objectoriented method, information retrieval, hig hperformance puting and visualization. Essentially, data mining is highlevel analysis technology and it has a strong purpose for business profiting. Unlike OLTP applications, data mining should provide indepth data analysis and the supports for business decisions. Like the other new techniq ues, however, data mining must develop gradually from concept creation, accepted importance, wide discussion, few usage attempts to a large applications. Most experts consider it as the phase of wide discussion today. It still needs theoretic studies and algorithm exploring. Thoug h some results have been achieved, more theoretic problems are kept in ongoing researches. In addition, data mining is from real applications and must bine with the specific business application logic to solve the s pecific problem. This is because that different business fields have diff