freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

外文翻譯----什么是數(shù)據(jù)挖掘(已修改)

2025-06-01 11:45 本頁(yè)面
 

【正文】 什么是數(shù)據(jù)挖掘? 簡(jiǎn)單地說,數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取或“挖掘”知識(shí)。該術(shù)語(yǔ)實(shí)際上有點(diǎn)兒用詞不當(dāng)。注意,從礦石或砂子中挖掘黃金叫做黃金挖掘,而不是叫做礦石挖掘。這樣,數(shù)據(jù)挖掘應(yīng)當(dāng)更準(zhǔn)確地命名為“從數(shù)據(jù)中挖掘知識(shí)”,不幸的是這個(gè)有點(diǎn)兒長(zhǎng)?!爸R(shí)挖掘”是一個(gè)短術(shù)語(yǔ),可能它不能反映出從大量數(shù)據(jù)中挖掘的意思。畢竟,挖掘是一個(gè)很生動(dòng)的術(shù)語(yǔ),它抓住了從大量的、未加工的材料中發(fā)現(xiàn)少量金塊這一過程的特點(diǎn)。這樣,這種用詞不當(dāng)攜帶了“數(shù)據(jù)”和“挖掘”,就成了流行的選擇。還有一些術(shù)語(yǔ),具有和數(shù)據(jù)挖掘類似但稍有不同的含義,如數(shù)據(jù) 庫(kù)中的知識(shí)挖掘、知識(shí)提取、數(shù)據(jù) /模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。 許多人把數(shù)據(jù)挖掘視為另一個(gè)常用的術(shù)語(yǔ) — 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)或 KDD 的同義詞。而另一些人只是把數(shù)據(jù)挖掘視為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。知識(shí)發(fā)現(xiàn)的過程由以下步驟組成: 1)數(shù)據(jù)清理:消除噪聲或不一致數(shù)據(jù), 2)數(shù)據(jù)集成:多種數(shù)據(jù)可以組合在一起, 3)數(shù)據(jù)選擇:從數(shù)據(jù)庫(kù)中檢索與分析任務(wù)相關(guān)的數(shù)據(jù), 4)數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作, 5)數(shù)據(jù)挖掘:基本步驟,使用智能方法提取數(shù)據(jù)模式, 6)模式評(píng)估:根據(jù)某種興趣 度度量,識(shí)別表示知識(shí)的真正有趣的模式, 7)知識(shí)表示:使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí)。 數(shù)據(jù)挖掘的步驟可以與用戶或知識(shí)庫(kù)進(jìn)行交互。把有趣的模式提供給用戶,或作為新的知識(shí)存放在知識(shí)庫(kù)中。注意,根據(jù)這種觀點(diǎn),數(shù)據(jù)挖掘只是整個(gè)過程中的一個(gè)步驟,盡管是最重要的一步,因?yàn)樗l(fā)現(xiàn)隱藏的模式。 我們同意數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過程中的一個(gè)步驟。然而,在產(chǎn)業(yè)界、媒體和數(shù)據(jù)庫(kù)研究界,“數(shù)據(jù)挖掘”比那個(gè)較長(zhǎng)的術(shù)語(yǔ)“數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)”更為流行。因此,在本書中,選用的術(shù)語(yǔ)是數(shù)據(jù)挖掘。我們采用數(shù)據(jù)挖掘的廣義觀點(diǎn):數(shù)據(jù)挖掘是 從存放在數(shù)據(jù)庫(kù)中或其他信息庫(kù)中的大量數(shù)據(jù)中挖掘出有趣知識(shí)的過程。 基于這種觀點(diǎn),典型的數(shù)據(jù)挖掘系統(tǒng)具有以下主要成分: 數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù):這是一個(gè)或一組數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、電子表格或其他類型的信息庫(kù)??梢栽跀?shù)據(jù)上進(jìn)行數(shù)據(jù)清理和集成。 數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器:根據(jù)用戶的數(shù)據(jù)挖掘請(qǐng)求,數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器負(fù)責(zé)提取相關(guān)數(shù)據(jù)。 知識(shí)庫(kù):這是領(lǐng)域知識(shí),用于指導(dǎo)搜索,或評(píng)估結(jié)果模式的興趣度。這種知識(shí)可能包括概念分層,用于將屬性或?qū)傩灾到M織成不同的抽象層。用戶確信方面的知識(shí)也可以包含在內(nèi)??梢允褂眠@種知識(shí),根據(jù) 非期望性評(píng)估模式的興趣度。領(lǐng)域知識(shí)的其他例子有興趣度限制或閾值和元數(shù)據(jù)(例如,描述來自多個(gè)異種數(shù)據(jù)源的數(shù)據(jù))。 數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)基本的部分,由一組功能模塊組成,用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析。 模式評(píng)估模塊:通常,此成分使用興趣度度量,并與數(shù)據(jù)挖掘模塊交互,以便將搜索聚集在有趣的模式上。它可能使用興趣度閾值過濾發(fā)現(xiàn)的模式。模式評(píng)估模塊也可以與挖掘模塊集成在一起,這依賴于所用的數(shù)據(jù)挖掘方法的實(shí)現(xiàn)。對(duì)于有效的數(shù)據(jù)挖掘,建議盡可能深地將模式評(píng)估推進(jìn)到挖掘過程之中,以便將搜索限制在 有興趣的模式上。 圖形用戶界面:本模塊在用戶和數(shù)據(jù)挖掘系統(tǒng)之間進(jìn)行通信,允許用戶與系統(tǒng)進(jìn)行交互,指定數(shù)據(jù)挖掘查詢或任務(wù),提供信息、幫助搜索聚焦,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式數(shù)據(jù)挖掘。此外,此成分還允許用戶瀏覽數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)模式或數(shù)據(jù)結(jié)構(gòu),評(píng)估挖掘的模式,以不同的形式對(duì)模式進(jìn)行可視化。 從數(shù)據(jù)倉(cāng)庫(kù)觀點(diǎn),數(shù)據(jù)挖掘可以看作聯(lián)機(jī)分析處理( OLAP)的高級(jí)階段。然而,通過結(jié)合更高級(jí)的數(shù)據(jù)理解技術(shù),數(shù)據(jù)挖掘比數(shù)據(jù)倉(cāng)庫(kù)的匯總型分析處理走得更遠(yuǎn)。 盡管市場(chǎng)上已有許多“數(shù)據(jù)挖掘系統(tǒng)”,但是并非所有系統(tǒng)的都能進(jìn)行真正的數(shù) 據(jù)挖掘。不能處理大量數(shù)據(jù)的數(shù)據(jù)分析系統(tǒng),最多是被稱作機(jī)器學(xué)習(xí)系統(tǒng)、統(tǒng)計(jì)數(shù)據(jù)分析工具或?qū)嶒?yàn)系統(tǒng)原型。一個(gè)系統(tǒng)只能夠進(jìn)行數(shù)據(jù)或信息檢索,包括在大型數(shù)據(jù)庫(kù)中找出聚集的值或回答演繹查詢,應(yīng)當(dāng)歸類為數(shù)據(jù)庫(kù)系統(tǒng),或信息檢索系統(tǒng),或演繹數(shù)據(jù)庫(kù)系統(tǒng)。 數(shù)據(jù)挖掘涉及多學(xué)科技術(shù)的集成,包括數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、高性能計(jì)算、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索、圖像與信號(hào)處理和空間數(shù)據(jù)分析。在本書討論數(shù)據(jù)挖掘的時(shí)候,我們采用數(shù)據(jù)庫(kù)的觀點(diǎn)。即,著重強(qiáng)調(diào)在大型數(shù)據(jù)庫(kù)中有效的和可伸縮的數(shù)據(jù)挖掘技術(shù)。一個(gè)算法是可伸縮的,如果給定內(nèi)存和磁盤空間等可利用的系統(tǒng)資源,其運(yùn)行時(shí)間應(yīng)當(dāng)隨數(shù)據(jù)庫(kù)大小線性增加。通過數(shù)據(jù)挖掘,可以從數(shù)據(jù)庫(kù)提取有趣的知識(shí)、規(guī)律或者高層信息,并可以從不同的角度來觀察或?yàn)g覽。發(fā)現(xiàn)的知識(shí)可以用于決策、過程控制、信息管理、查詢處理,等等。因此,數(shù)據(jù)挖掘被信息產(chǎn)業(yè)界認(rèn)為是數(shù)據(jù)庫(kù)系統(tǒng)最重要的前沿之一,是信息產(chǎn)業(yè)中最有前途的交叉學(xué)科。 數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科的領(lǐng)域,受到多個(gè)學(xué)科的影響,包括數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)。此外,依賴于所用的數(shù)據(jù)挖掘方法,以及可以使用的其他學(xué)科的技術(shù),如神經(jīng)網(wǎng)絡(luò)、模糊和 /或粗糙集 理論、知識(shí)表示、歸納邏輯程序設(shè)計(jì)或高性能計(jì)算。依賴于所挖掘的數(shù)據(jù)類型或給定的數(shù)據(jù)挖掘應(yīng)用,數(shù)據(jù)挖掘系統(tǒng)也可以集成空間數(shù)據(jù)分析、信息檢索、模式識(shí)別、圖形分析、信號(hào)處理、計(jì)算機(jī)圖形學(xué)、 Web 技術(shù)、經(jīng)濟(jì)、商業(yè)、生物信息學(xué)或心理學(xué)領(lǐng)域的技術(shù)。 由于數(shù)據(jù)挖掘源于多個(gè)學(xué)科,因此在數(shù)據(jù)挖掘研究中就產(chǎn)生了大量的、各種不同類型的數(shù)據(jù)挖掘系統(tǒng)。這樣,就需要對(duì)數(shù)據(jù)挖掘系統(tǒng)給出一個(gè)清楚的分類。這種分類可以幫助用戶區(qū)分?jǐn)?shù)據(jù)挖掘系統(tǒng),確定出最適合其需要的數(shù)據(jù)挖掘系統(tǒng)。根據(jù)不同的標(biāo)準(zhǔn),數(shù)據(jù)挖掘系統(tǒng)可以有如下分類: 1)根據(jù)挖掘的數(shù)據(jù)庫(kù)類 型進(jìn)行分類。 數(shù)據(jù)挖掘系統(tǒng)可以根據(jù)挖掘的數(shù)據(jù)庫(kù)類型進(jìn)行分類。數(shù)據(jù)庫(kù)系統(tǒng)本身可以根據(jù)不同的標(biāo)準(zhǔn)(如數(shù)據(jù)模型,或數(shù)據(jù)或所涉及的應(yīng)用類型)來分類,每一類都可能需要自己的數(shù)據(jù)挖掘技術(shù)。這樣,數(shù)據(jù)挖掘系統(tǒng)就可以據(jù)此進(jìn)行相應(yīng)的分類。 例如,如果是根據(jù)數(shù)據(jù)模型來分類,我們可以有關(guān)系的、事務(wù)的、面向?qū)ο蟮?、?duì)象 關(guān)系的或數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘系統(tǒng)。如果是根據(jù)所處理的數(shù)據(jù)的特定類型分類,我們可以有空間的、時(shí)間序列的、文本的或多媒體的數(shù)據(jù)挖掘系統(tǒng),或是 WWW 的數(shù)據(jù)挖掘系統(tǒng)。 2)根據(jù)挖掘的知識(shí)類型進(jìn)行分類。 數(shù)據(jù)挖掘系統(tǒng)可以根據(jù)所 挖掘的知識(shí)類型進(jìn)行分類。即根據(jù)數(shù)據(jù)挖掘的功能,如特征化、區(qū)分、關(guān)聯(lián)、分類聚類、孤立點(diǎn)分析和演變分析、偏差分析、類似性分析等進(jìn)行分類。一個(gè)全面的數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)提供多種和 /或集成的數(shù)據(jù)挖掘功能。 此外,數(shù)據(jù)挖掘系統(tǒng)
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1