freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究(104頁)-文庫吧資料

2024-08-19 01:42本頁面
  

【正文】 從數(shù)據(jù)中挖掘知識。也有人說,KDD在人工智能界更流行;Data Mining在數(shù)據(jù)庫界使用更多。(3)KDD與Data Mining含義相同有些人認為,KDD與Data Mining只是叫法不一樣,它們的含義基本相同。數(shù)據(jù)挖掘作為KDD的一個重要步驟看待,可以使我們更容易聚焦研究重點,有效解決問題。源數(shù)據(jù)經(jīng)過清洗和轉(zhuǎn)換等成為適合于挖掘的數(shù)據(jù)集,數(shù)據(jù)挖掘在這種具有固定形式的數(shù)據(jù)集上完成知識的提煉,最后以合適的知識模式用于進一步分析決策工作。因此KDD是一個更廣義的范疇,它包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式生成及評估等一系列步驟。雖然我們可以從數(shù)據(jù)倉庫、WEB等源數(shù)據(jù)中挖掘知識,但是這些數(shù)據(jù)源都是和數(shù)據(jù)庫技術(shù)相關(guān)的。核心思想是:KDD是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部過程,而Data Mining則是此全部過程的一個特定的、關(guān)鍵步驟。這種描述強調(diào)了數(shù)據(jù)挖掘在源數(shù)據(jù)形式上的多樣性。這是早期比較流行的觀點,在許多文獻可以看到這種說法[4,5]。我們可以從這些不同的觀點中了解數(shù)據(jù)挖掘的技術(shù)含義。 數(shù)據(jù)挖掘的技術(shù)含義談到數(shù)據(jù)挖掘,必須提到數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD: Knowledge Discovery in Databases)。同時,數(shù)據(jù)挖掘技術(shù)只有面向特定的商業(yè)領(lǐng)域才有應(yīng)用價值。從商業(yè)應(yīng)用角度刻畫數(shù)據(jù)挖掘,可以使我們更全面的了解數(shù)據(jù)挖掘的真正含義。這正是數(shù)據(jù)挖掘這個名字的由來。它通過對這些數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性、未來趨勢以及一般性的概括知識等,這些知識性的信息可以用來指導(dǎo)高級商務(wù)活動。 數(shù)據(jù)挖掘概念 從商業(yè)角度看數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘從本質(zhì)上說是一種新的商業(yè)信息處理技術(shù)。數(shù)據(jù)挖掘繼承了專家系統(tǒng)的高度實用性特點,并且以數(shù)據(jù)為基本出發(fā)點,客觀地挖掘知識。例如,知識獲取被普遍認為是專家系統(tǒng)研究中的瓶頸問題。機器學(xué)習(xí)應(yīng)該說是得到了充分的研究和發(fā)展,并且數(shù)據(jù)挖掘技術(shù)繼承了機器學(xué)習(xí)解決問題的思想。數(shù)據(jù)挖掘技術(shù)是數(shù)理統(tǒng)計分析應(yīng)用的延伸和發(fā)展,假如人們利用數(shù)據(jù)庫的方式從被動地查詢變成了主動發(fā)現(xiàn)知識的話,那么概率論和數(shù)理統(tǒng)計這一古老的學(xué)科可以為我們從數(shù)據(jù)歸納知識――數(shù)據(jù)挖掘技術(shù)提供理論基礎(chǔ)。以前的基于數(shù)理統(tǒng)計方法的應(yīng)用大多都是通過專用程序來實現(xiàn)的。數(shù)理統(tǒng)計是一個有幾百年發(fā)展歷史的應(yīng)用數(shù)學(xué)學(xué)科。數(shù)據(jù)挖掘系統(tǒng)的核心模塊技術(shù)和算法都離不開這些理論和技術(shù)的支持。歷經(jīng)了十幾年的發(fā)展,包括基于統(tǒng)計學(xué)、人工智能等在內(nèi)的理論與技術(shù)性成果已經(jīng)被成功地應(yīng)用到商業(yè)處理和分析中。經(jīng)過幾十年的發(fā)展,計算機的體系結(jié)構(gòu),特別是并行處理技術(shù)已經(jīng)逐漸成熟和普遍應(yīng)用,并成為支持大型數(shù)據(jù)處理應(yīng)用的基礎(chǔ)。大家熟知的摩爾定律告訴我們,計算機硬件的關(guān)鍵指標大約以每18個月翻一番的速度在增長,而且現(xiàn)在看來仍有日益加速的趨勢。這些豐富多彩的數(shù)據(jù)存儲、管理以及訪問技術(shù)的發(fā)展,為數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用提供了豐富的土壤。因此,人們已經(jīng)具備利用多種方式存儲海量數(shù)據(jù)的能力。據(jù)說,在美國電視達到5000萬戶大約用了15年,而Internet上網(wǎng)達到5000萬戶僅用了4年。數(shù)據(jù)倉庫作為一種新型的數(shù)據(jù)存儲和處理手段,被數(shù)據(jù)庫廠商普遍接受并且相關(guān)輔助建模和管理工具快速推向市場,成為多數(shù)據(jù)源集成的一種有效的技術(shù)支撐環(huán)境。高性能關(guān)系數(shù)據(jù)庫引擎以及相關(guān)的分布式查詢、并發(fā)控制等技術(shù)的使用,已經(jīng)提升了數(shù)據(jù)庫的應(yīng)用能力。數(shù)據(jù)庫技術(shù)從二十世紀80年代開始,已經(jīng)得到廣泛的普及和應(yīng)用。數(shù)據(jù)挖掘技術(shù)的提出和普遍接受是由于計算機及其相關(guān)技術(shù)的發(fā)展為其提供了研究和應(yīng)用的技術(shù)基礎(chǔ)。因此,在二十世紀八十年代后期,產(chǎn)生了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘等信息處理思想。因此,隨著數(shù)據(jù)的膨脹和技術(shù)環(huán)境的進步,人們對聯(lián)機決策和分析等高級信息處理的要求越來越迫切。在我們的生活中,人們只是把數(shù)據(jù)看作是形成知識的源泉。它不會象數(shù)據(jù)或信息那么具體,但是它卻是人們一直不懈追求的目標。面對計算機中的海量的數(shù)據(jù),人們也處于同樣的尷尬境地,缺乏獲取有效信息的手段。例如,在現(xiàn)實社會中,如果人均日閱讀時間在30分鐘的話,一個人一天最快只能瀏覽一份20版左右的報紙。數(shù)據(jù)庫是目前組織和存儲數(shù)據(jù)的最有效方法之一,但是面對日益膨脹的數(shù)據(jù),數(shù)據(jù)庫查詢技術(shù)已表現(xiàn)出它的局限性。這種貪婪的結(jié)果導(dǎo)致了“數(shù)據(jù)豐富而信息貧乏(Data Rich amp。事實上,數(shù)據(jù)(Data)、信息(Information)和知識(Knowledge)可以看作是廣義數(shù)據(jù)表現(xiàn)的不同形式[3]。但是,隨著一個企業(yè)或行業(yè)業(yè)務(wù)數(shù)據(jù)的不斷積累,特別是由于數(shù)據(jù)庫的普及,人工去整理和理解如此大的數(shù)據(jù)源已經(jīng)存在效率、準確性等問題。數(shù)據(jù)分析是科學(xué)研究的基礎(chǔ),許多科學(xué)研究都是建立在數(shù)據(jù)收集和分析基礎(chǔ)上的。新的需求推動新的技術(shù)的誕生。從本質(zhì)上說,查詢是對數(shù)據(jù)庫的被動使用。目前,由于各種新型技術(shù)與數(shù)據(jù)庫技術(shù)的有機結(jié)合,使數(shù)據(jù)庫領(lǐng)域中的新內(nèi)容、新應(yīng)用、新技術(shù)層出不窮,形成了龐大的數(shù)據(jù)庫家族。從數(shù)據(jù)的分布角度看,分布式數(shù)據(jù)庫(Distributed Database)及其透明性、并發(fā)控制、并行處理等成為必須面對的課題。從應(yīng)用的數(shù)據(jù)類型上看,包括空間、時態(tài)、多媒體以及WEB等新型數(shù)據(jù)成為數(shù)據(jù)庫應(yīng)用的重要數(shù)據(jù)源。80年代中期開始,關(guān)系數(shù)據(jù)庫技術(shù)和新型技術(shù)的結(jié)合成為數(shù)據(jù)庫研究和開發(fā)的重要標志。70年代,數(shù)據(jù)庫系統(tǒng)的三個主要模式――層次、網(wǎng)絡(luò)和關(guān)系型數(shù)據(jù)庫的研究和開發(fā)取得了重要進展。 數(shù)據(jù)挖掘技術(shù)的產(chǎn)生背景 數(shù)據(jù)挖掘技術(shù)的商業(yè)需求分析數(shù)據(jù)挖掘之所以吸引專家學(xué)者的研究興趣和引起商業(yè)廠家的廣泛關(guān)注,主要在于大型數(shù)據(jù)系統(tǒng)的廣泛使用和把數(shù)據(jù)轉(zhuǎn)換成有用知識的迫切需要。因此,本章將系統(tǒng)地介紹相關(guān)的概念和技術(shù),并力求從不同視點和流派來闡述數(shù)據(jù)挖掘的重要概念、發(fā)展和應(yīng)用情況。這些研究包括數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)、關(guān)聯(lián)規(guī)則挖掘理論和算法等。數(shù)據(jù)挖掘的研究內(nèi)容是極其豐富的。經(jīng)過十幾年的研究和實踐,數(shù)據(jù)挖掘技術(shù)已經(jīng)融合了許多學(xué)科的最新研究成果而形成獨具特色的研究分支。 本章小節(jié)本章介紹了數(shù)據(jù)挖掘研究的意義和技術(shù)背景、論文的選題依據(jù)、研究背景以及我們的主要研究內(nèi)容等。第6章提出了另一個ISSDM的改進算法PISSDM。為了增強對大容量數(shù)據(jù)庫挖掘的適應(yīng)性和可用性,第5章設(shè)計了時態(tài)約束下的TISSDM算法。第4章介紹了基于項目序列集操作的ISSDM算法。本文就數(shù)據(jù)分割下的數(shù)據(jù)挖掘問題進行了討論,引入局部頻繁項目序列集(Local Frequent Set of Itemsequences)和全局項目序列集(Global Frequent Set of Itemsequences)等概念,并解決了局部頻繁項目序列集和全局頻繁項目序列集轉(zhuǎn)換等問題(詳見第6章)。基于這樣的時態(tài)約束條件下的數(shù)據(jù)挖掘理論框架,我們可以擴展數(shù)據(jù)挖掘工作到包括數(shù)據(jù)過濾(Data filtrating)、時態(tài)區(qū)間合并等數(shù)據(jù)預(yù)處理在內(nèi)的更廣泛的范疇中去(詳見第5章)。本文針對時態(tài)約束條件下的數(shù)據(jù)挖掘理論問題進行了探索。(2)約束條件下的數(shù)據(jù)挖掘理論毫無疑問,引進約束條件可以加速數(shù)據(jù)挖掘的過程。本文主要的理論研究和成果為:(1)基于項目序列集操作的挖掘模型我們建立了項目序列集的代數(shù)空間描述,并探討了在這個空間上的基本操作算子。所謂項目序列是指項目集中的元素是按特定標準(如出現(xiàn)次數(shù)、字典排序)進行有序排列的。 數(shù)據(jù)挖掘理論研究 大多數(shù)文獻中使用的項目集(Itemset)是普通的集合概念[1,2]。因此,我們選取了關(guān)聯(lián)規(guī)則挖掘算法進行了集中研究和實現(xiàn),并通過系列的算法設(shè)計和實現(xiàn)來驗證我們新的挖掘理論和積累研制數(shù)據(jù)挖掘系統(tǒng)的經(jīng)驗。影響關(guān)聯(lián)規(guī)則的挖掘效率的因素主要有數(shù)據(jù)庫掃描的I/O代價、內(nèi)存的需求、CPU的時間花費等。n 關(guān)聯(lián)規(guī)則挖掘算法設(shè)計。如前所述,數(shù)據(jù)挖掘已經(jīng)建立了許多獨具特色的挖掘理論體系,但是不論是從應(yīng)用范圍、有效性以及適應(yīng)性等方面仍需新的挖掘理論的探索。這些研究包括從數(shù)據(jù)挖掘的基本過程來探討系統(tǒng)應(yīng)具備的主要功能部件及其相互聯(lián)系;不同的源數(shù)據(jù)類型對數(shù)據(jù)挖掘系統(tǒng)的功能部件要求;不同的應(yīng)用目標對數(shù)據(jù)挖掘系統(tǒng)的功能部件要求;數(shù)據(jù)挖掘系統(tǒng)的主要功能部件的實現(xiàn)機制等。 擬解決的問題作為博士論文,我們在收集和整理大量的相關(guān)資料,弄清相關(guān)的理論、方法、算法、體系結(jié)構(gòu)(原型系統(tǒng))等基礎(chǔ)上,集中選取了下面幾個問題開展相關(guān)工作:n 數(shù)據(jù)挖掘過程和系統(tǒng)構(gòu)架研究。從上面的敘述,可以看出數(shù)據(jù)挖掘研究和探索的內(nèi)容是及其豐富和具有挑戰(zhàn)性的。新理論的發(fā)展必然促進新的挖掘算法的產(chǎn)生,這些算法可能擴展挖掘的有效性,如針對數(shù)據(jù)挖掘的某些階段、某些數(shù)據(jù)類型、大容量源數(shù)據(jù)集等更有效;可能提高挖掘的精度或效率;可能融合特定的應(yīng)用目標,如CRM、電子商務(wù)等。一方面,在這些大的理論框架下有許多面向?qū)嶋H應(yīng)用目標的挖掘理論等待探索和創(chuàng)新。經(jīng)過十幾年的研究,數(shù)據(jù)挖掘已經(jīng)在繼承和發(fā)展相關(guān)基礎(chǔ)學(xué)科(如機器學(xué)習(xí)、統(tǒng)計學(xué)等)已有成果方面取得了可喜的進步,探索出了許多獨具特色的理論體系??梢暬诰虺艘土己玫慕换ナ郊夹g(shù)結(jié)合外,還必須在挖掘結(jié)果或知識模式的可視化、挖掘過程的可視化以及可視化指導(dǎo)用戶挖掘等方面進行探索和實踐。可視化要求已經(jīng)成為目前信息處理系統(tǒng)的必不可少技術(shù)。對OLTP應(yīng)用來說,結(jié)構(gòu)化查詢語言SQL已經(jīng)得到充分發(fā)展,并成為支持數(shù)據(jù)庫應(yīng)用的重要基石。所以良好的交互式挖掘(Interaction Mining)也是數(shù)據(jù)挖掘系統(tǒng)成功的前提。由于數(shù)據(jù)挖掘是在大量的源數(shù)據(jù)集中發(fā)現(xiàn)潛在的、事先并不知道的知識,因此和用戶交互式進行探索性挖掘是必然的。n 數(shù)據(jù)挖掘系統(tǒng)的構(gòu)架與交互式挖掘技術(shù)。指望一種通用的應(yīng)用模式適合所有的數(shù)據(jù)存儲方式下發(fā)現(xiàn)有效知識是不現(xiàn)實的。n 數(shù)據(jù)挖掘技術(shù)與特定數(shù)據(jù)存儲類型的適應(yīng)問題。 分析目前的研究和應(yīng)用現(xiàn)狀,數(shù)據(jù)挖掘在如下幾個方面需要重點開展工作:n 數(shù)據(jù)挖掘技術(shù)與特定商業(yè)邏輯的平滑集成問題。但是,數(shù)據(jù)挖掘來自于商業(yè)應(yīng)用,而商業(yè)應(yīng)用又會由于應(yīng)用的領(lǐng)域不同而存在很大差異。例如,就目前商家推出的數(shù)據(jù)挖掘系統(tǒng)而言,它們都是一些通用的輔助開發(fā)工具。把目前數(shù)據(jù)挖掘的研究現(xiàn)狀描述為鴻溝(Chasm)階段是比較準確的[1]。數(shù)據(jù)挖掘的概念從二十世紀八十年代被提出后,其經(jīng)濟價值已經(jīng)顯現(xiàn)出來,而且被眾多商業(yè)廠家所推崇,形成初步的市場。一方面,數(shù)據(jù)挖掘的概念已經(jīng)被廣泛接受。象其它新技術(shù)的發(fā)展歷程一樣,數(shù)據(jù)挖掘也必須經(jīng)過概念提出、概念接受、廣泛研究和探索、逐步應(yīng)用和大量應(yīng)用等階段。 研究背景經(jīng)過十幾年的研究和實踐,數(shù)據(jù)挖掘技術(shù)已經(jīng)吸收了許多學(xué)科的最新研究成果而形成獨具特色的研究分支。數(shù)據(jù)挖掘和知識發(fā)現(xiàn)使數(shù)據(jù)處理技術(shù)進入了一個更高級的階段。眾所周知,隨著數(shù)據(jù)庫容量的膨脹,特別是數(shù)據(jù)倉庫(Data Warehouse)以及Web等新型數(shù)據(jù)源的日益普及,聯(lián)機分析處理(OLAP:OnLine Analytic Processing)、決策支持(Decision Support)以及分類(Classification)、聚類(Clustering)等復(fù)雜應(yīng)用成為必然。二十世紀,數(shù)據(jù)庫技術(shù)取得了決定性的成果并且已經(jīng)得到廣泛的應(yīng)用。特別是最近幾年,一些基本概念和方法趨于清晰,它的研究正向著更深入的方向發(fā)展。V AbstractAbstractData mining is a technique that aims to analyze and understand large source data and reveal knowledge hidden in the data. It has been viewed as an important evolution in information processing. Why there have been more attentions to it from researchers or businessmen is due to the wide availability of huge amounts of data and imminent needs for turning such data into valuable information. During the past decade or over, the concepts and techniques on data mining have been presented, and some of them have been discussed in higher levels for the last few years. Data mining involves an integration of techniques from database, artificial intelligence, machine learning, statistics, knowledge engineering, objectoriented method, information retrieval, highperformance puting and visualization. Essentially, data mining is highlevel analysis technology and it has a strong purpose for business profiting. Unlike OLTP applications, data mining should provide indepth data analysis and the supports for business decisions. Like the other new techniques, however, data mining must develop gradually from concept creation, accepted importance, wide discussion, few usage attempts to a large applications. Most experts consider it as the phase of wid
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1