freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘技術(shù)在零售業(yè)領(lǐng)域中的應(yīng)用(編輯修改稿)

2025-07-04 00:03 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 特定的應(yīng)用。 數(shù)據(jù)挖掘的任務(wù)方法的多樣性對(duì)數(shù)據(jù)挖掘提出了許多挑戰(zhàn)性的研究問(wèn)題,在將來(lái)會(huì)形成更大的高潮,研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面:研究專(zhuān)門(mén)用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言,并逐步走向形式化和標(biāo)準(zhǔn)化;尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法,使得知識(shí)發(fā)現(xiàn)的過(guò)程能夠被用戶(hù)理解,也便于在知識(shí)發(fā)現(xiàn)過(guò)程中的人機(jī)交互;研究在網(wǎng)絡(luò)與分布環(huán)境下的數(shù)據(jù)挖掘技術(shù),特別是在Internet上建立數(shù)據(jù)挖掘服務(wù)器,與數(shù)據(jù)挖掘服務(wù)器配合,實(shí)現(xiàn)數(shù)據(jù)挖掘;加強(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘,如文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)等;探索可伸縮的和可交互的數(shù)據(jù)挖掘方法,全面提高數(shù)據(jù)挖掘過(guò)程的整體效率;擴(kuò)大數(shù)據(jù)挖掘用于范圍,如金融分析、生物醫(yī)藥研制、犯罪偵查等;開(kāi)發(fā)適應(yīng)多數(shù)據(jù)類(lèi)型、容噪的數(shù)據(jù)挖掘方法,以解決異質(zhì)數(shù)據(jù)集的數(shù)據(jù)挖掘問(wèn)題;動(dòng)態(tài)數(shù)據(jù)和知識(shí)的數(shù)據(jù)挖掘等等。第2章 數(shù)據(jù)挖掘技術(shù)及關(guān)聯(lián)規(guī)則算法概述 數(shù)據(jù)挖掘介紹近年來(lái),數(shù)據(jù)庫(kù)技術(shù)飛速發(fā)展,在網(wǎng)絡(luò)技術(shù)的支持下,其應(yīng)用規(guī)模、范圍和深度都在不斷擴(kuò)大。數(shù)據(jù)呈爆炸性增長(zhǎng)的同時(shí),企業(yè)也面臨這樣一種挑戰(zhàn):首先,作為一種基本的信息存儲(chǔ)和管理方式,數(shù)據(jù)庫(kù)技術(shù)只能對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理,如查詢(xún)、統(tǒng)計(jì)、報(bào)表等,缺乏對(duì)決策、分析、預(yù)測(cè)等高級(jí)功能的支持;其次,面對(duì)這些海量數(shù)據(jù),人們更加關(guān)注的是如何挖掘出隱藏在這些數(shù)據(jù)里的重要信息,而不是數(shù)據(jù)本身。因此,集統(tǒng)計(jì)學(xué)、人工智能、模式識(shí)別及最優(yōu)化等技術(shù)于一身的數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘技術(shù)從一開(kāi)始就是面向應(yīng)用的,它在各個(gè)行業(yè)應(yīng)用所取得的巨大成功充分地顯示出其強(qiáng)大的生命力。這尤其體現(xiàn)在零售業(yè)中。 數(shù)據(jù)挖掘的概念 數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱(chēng)DM)又稱(chēng)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD),可以從技術(shù)和商業(yè)兩個(gè)方面來(lái)定義。 從技術(shù)角度看,:數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中提取隱含在其中的、人們事先不知道的、但又是潛在的、有用的信息和知識(shí)的過(guò)程,提取的知識(shí)表示為概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式【22】。 從商業(yè)角度看,數(shù)據(jù)挖掘是一種新型的商業(yè)信息分析處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。這些數(shù)據(jù)對(duì)預(yù)測(cè)趨勢(shì)和決策行為是至關(guān)重要的。 數(shù)據(jù)挖掘(DM)涉及的學(xué)科領(lǐng)域很多,與之密切聯(lián)系的領(lǐng)域主要有計(jì)算機(jī)科學(xué)、信號(hào)處理、人工智能、模式識(shí)別、歸納學(xué)習(xí)、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)。 人工智能和統(tǒng)計(jì)學(xué)這兩門(mén)學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測(cè),數(shù)據(jù)挖掘利用了人工智能和統(tǒng)計(jì)學(xué)的數(shù)學(xué)基礎(chǔ),數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù),它是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。數(shù)據(jù)挖掘利用統(tǒng)計(jì)和人工智能的技術(shù),把這些高深復(fù)雜的技術(shù)封裝起來(lái),使用戶(hù)不用掌握這些技術(shù)也能完成同樣的功能,從而更加專(zhuān)注于自己所要解決的問(wèn)題,數(shù)據(jù)挖掘?qū)嶋H是統(tǒng)計(jì)和人工智能理論同現(xiàn)代軟件技術(shù)和計(jì)算機(jī)科學(xué)知識(shí)的一次綜合。雖然統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘具有同樣的目標(biāo),就是發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu),但不能認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的分支。因?yàn)?,?shù)據(jù)挖掘更多的是應(yīng)用其它領(lǐng)域的思想、工具和方法,尤其是數(shù)據(jù)庫(kù)技術(shù)和機(jī)器學(xué)習(xí)等計(jì)算機(jī)學(xué)科分支。同時(shí),由于統(tǒng)計(jì)學(xué)的數(shù)學(xué)背景和追求精確的方法,在采用一個(gè)方法之前先要進(jìn)行充分的證明,而不是類(lèi)似計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)那樣注重于經(jīng)驗(yàn)。數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)之間有緊密的聯(lián)系,下面將簡(jiǎn)單介紹數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)之間的關(guān)系,更深入地了解數(shù)據(jù)挖掘技術(shù)。《建立數(shù)據(jù)倉(cāng)庫(kù)》一書(shū)中對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義:數(shù)據(jù)倉(cāng)庫(kù)就是面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,用于支持經(jīng)營(yíng)管理部門(mén)的決策制定過(guò)程。大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中取出(),從數(shù)據(jù)倉(cāng)庫(kù)中直接得到數(shù)據(jù)挖掘所需的數(shù)據(jù)有許多好處,例如,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清理與數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)已經(jīng)清理過(guò),那很可能在做數(shù)據(jù)挖掘時(shí)就沒(méi)必要再清理一次,而且所有數(shù)據(jù)不一致的問(wèn)題都已經(jīng)被解決了。數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)是密不可分的,數(shù)據(jù)挖掘要求有數(shù)據(jù)倉(cāng)庫(kù)作基礎(chǔ),并要求數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)存有豐富的數(shù)據(jù)。數(shù)據(jù)挖掘是數(shù)據(jù)利用價(jià)值的再發(fā)現(xiàn),它突破了傳統(tǒng)意義上的數(shù)據(jù)查詢(xún),是在更大的尺度上、更深的層次中對(duì)數(shù)據(jù)提高利用的價(jià)值,是數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的關(guān)鍵。 Data Mining derived from the data warehouse 數(shù)據(jù)挖掘從數(shù)據(jù)倉(cāng)庫(kù)中得出 數(shù)據(jù)挖掘方法 總的來(lái)說(shuō),數(shù)據(jù)挖掘的方法分為兩類(lèi):探索型數(shù)據(jù)挖掘和預(yù)測(cè)型數(shù)據(jù)挖掘。探索型數(shù)據(jù)挖掘包括一系列在預(yù)先未知模式的情況下,在數(shù)據(jù)內(nèi)查找模型的技術(shù),具體方法有: (1)神經(jīng)網(wǎng)絡(luò)方法   神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲(chǔ)和高度容錯(cuò)等特性非常適合解決數(shù)據(jù)挖掘的問(wèn)題,因此近年來(lái)越來(lái)越受到人們的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò)模型主要分3大類(lèi):以感知機(jī)、bp為代表的反向傳播模型;以函數(shù)型網(wǎng)絡(luò)為代表的,用于分類(lèi)、預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型;以hopfield的離散模型和連續(xù)模型為代表的,分別用于聯(lián)想記憶和優(yōu)化計(jì)算的反饋式神經(jīng)網(wǎng)絡(luò)模型;以art模型、koholon模型為代表的,用于聚類(lèi)的自組織映射方法。神經(jīng)網(wǎng)絡(luò)方法的缺點(diǎn)是“黑箱”性,人們難以理解網(wǎng)絡(luò)的學(xué)習(xí)和決策過(guò)程?! 。?)遺傳算法   遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用?! unil已成功地開(kāi)發(fā)了一個(gè)基于遺傳算法的數(shù)據(jù)挖掘工具,利用該工具對(duì)兩個(gè)飛機(jī)失事的真實(shí)數(shù)據(jù)庫(kù)進(jìn)行了數(shù)據(jù)挖掘?qū)嶒?yàn),結(jié)果表明遺傳算法是進(jìn)行數(shù)據(jù)挖掘的有效方法之一。遺傳算法的應(yīng)用還體現(xiàn)在與神經(jīng)網(wǎng)絡(luò)、粗糙集等技術(shù)的結(jié)合上。如利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在不增加錯(cuò)誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和bp算法結(jié)合訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后從網(wǎng)絡(luò)提取規(guī)則等。但遺傳算法的算法較復(fù)雜,收斂于局部極小的較早收斂問(wèn)題尚未解決?!? (3)決策樹(shù)方法   決策樹(shù)是一種常用于預(yù)測(cè)模型的算法,它通過(guò)將大量數(shù)據(jù)有目的分類(lèi),從中找到一些有價(jià)值的,潛在的信息。它的主要優(yōu)點(diǎn)是描述簡(jiǎn)單,分類(lèi)速度快,特別適合大規(guī)模的數(shù)據(jù)處理。最有影響和最早的決策樹(shù)方法是由Quinlan提出的著名的基于信息熵的id3算法。它的主要問(wèn)題是:id3是非遞增學(xué)習(xí)算法;id3決策樹(shù)是單變量決策樹(shù),復(fù)雜概念的表達(dá)困難;同性間的相互關(guān)系強(qiáng)調(diào)不夠;抗噪性差。針對(duì)上述問(wèn)題,出現(xiàn)了許多較好的改進(jìn)算法,如 Schlimmer和Fisher設(shè)計(jì)了id4遞增式學(xué)習(xí)算法;鐘鳴,陳文偉等提出了ible算法等。  ?。?)粗集方法   粗集理論是一種研究不精確、不確定知識(shí)的數(shù)學(xué)工具。粗集方法有幾個(gè)優(yōu)點(diǎn):不需要給出額外信息;簡(jiǎn)化輸入信息的表達(dá)空間;算法簡(jiǎn)單,易于操作。粗集處理的對(duì)象是類(lèi)似二維關(guān)系表的信息表。目前成熟的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)和新發(fā)展起來(lái)的數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng),為粗集的數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)。但粗集的數(shù)學(xué)基礎(chǔ)是集合論,難以直接處理連續(xù)的屬性。而現(xiàn)實(shí)信息表中連續(xù)屬性是普遍存在的。因此連續(xù)屬性的離散化是制約粗集理論實(shí)用化的難點(diǎn)?! 。?)覆蓋正例、排斥反例方法   它是利用覆蓋所有正例、排斥所有反例的思想來(lái)尋找規(guī)則。首先在正例集合中任選一個(gè)種子,到反例集合中逐個(gè)比較。與字段取值構(gòu)成的選擇相容則舍去,相反則保留。按此思想循環(huán)所有正例種子,將得到正例的規(guī)則。比較典型的算法有Michalski的aq11方法、洪家榮改進(jìn)的aq15方法以等?! 。?)統(tǒng)計(jì)分析方法   在數(shù)據(jù)庫(kù)字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對(duì)它們的分析可采用統(tǒng)計(jì)學(xué)方法,即利用統(tǒng)計(jì)學(xué)原理對(duì)數(shù)據(jù)庫(kù)中的信息進(jìn)行分析??蛇M(jìn)行常用統(tǒng)計(jì)(求大量數(shù)據(jù)中的最大值、最小值、總和等)、回歸分析(用回歸方程來(lái)表示變量間的數(shù)量關(guān)系)、相關(guān)分析(用相關(guān)系數(shù)來(lái)度量變量間的相關(guān)程度)、差異分析(從樣本統(tǒng)計(jì)量的值得出差異來(lái)確定總體參數(shù)之間是否存在差異)等。   (7)模糊集方法 即利用模糊集合理論對(duì)實(shí)際問(wèn)題進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類(lèi)分析。系統(tǒng)的復(fù)雜性越高,模糊性越強(qiáng),一般模糊集合理論是用隸屬度來(lái)刻畫(huà)模糊事物的亦此亦彼的。李德毅等人在傳統(tǒng)模糊理論和概率統(tǒng)計(jì)的基礎(chǔ)上,提出了定性定量不確定性轉(zhuǎn)換模型云模型,并形成了云理論。 數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘可以解決大量的商業(yè)問(wèn)題,例如客戶(hù)流失分析、交叉銷(xiāo)售、欺詐檢測(cè)、風(fēng)險(xiǎn)管理、客戶(hù)細(xì)分、廣告定位、銷(xiāo)售預(yù)測(cè)等,基于這些商業(yè)問(wèn)題的性質(zhì),可以把這些問(wèn)題分成以下幾種數(shù)據(jù)挖掘任務(wù):(1)分類(lèi)分類(lèi)就是找出一個(gè)類(lèi)別的概念描述,它代表了這類(lèi)數(shù)據(jù)的整體信息,即該類(lèi)的內(nèi)涵描述,并用這種描述來(lái)構(gòu)造模型,一般用規(guī)則或決策樹(shù)模式表示。分類(lèi)是利用訓(xùn)練數(shù)據(jù)集通過(guò)一定的算法而求得分類(lèi)規(guī)則。分類(lèi)是最常見(jiàn)的數(shù)據(jù)挖掘任務(wù)之一,可被用于規(guī)則描述和預(yù)測(cè)。 典型的分類(lèi)算法有決策樹(shù)算法、神經(jīng)網(wǎng)絡(luò)算法和貝葉斯(Bayes)算法。 (2)聚類(lèi) 聚類(lèi)也稱(chēng)為細(xì)分,是把數(shù)據(jù)按照相似性歸納成若干類(lèi)別,同一類(lèi)中的數(shù)據(jù)彼此相似,不同類(lèi)中的數(shù)據(jù)相異。聚類(lèi)分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。 聚類(lèi)是一種無(wú)監(jiān)督的數(shù)據(jù)挖掘任務(wù),沒(méi)有一個(gè)屬性用于指導(dǎo)模型的構(gòu)建過(guò)程,所有的輸入屬性都平等對(duì)待。大多數(shù)聚類(lèi)算法通過(guò)多次迭代來(lái)構(gòu)建模型,當(dāng)模型收斂的時(shí)候算法停止,也就是說(shuō)當(dāng)細(xì)分的邊界變得穩(wěn)定時(shí)算法停止。 (3)關(guān)聯(lián) 關(guān)聯(lián)是一種常見(jiàn)的數(shù)據(jù)挖掘任務(wù),也叫做購(gòu)物籃分析。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就成為關(guān)聯(lián)。關(guān)聯(lián)分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。 一個(gè)典型的關(guān)聯(lián)商業(yè)問(wèn)題是分析一個(gè)銷(xiāo)售表,并且確定在統(tǒng)一商店中的哪些商品比較好賣(mài),關(guān)聯(lián)通常用于確定一組項(xiàng)集和規(guī)則,以達(dá)到交叉銷(xiāo)售的目的。關(guān)聯(lián)的任務(wù)有兩個(gè)目標(biāo):找出頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。一般用支持度和置信度兩個(gè)閥值來(lái)度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。 (4)回歸 回歸任務(wù)類(lèi)似于分類(lèi)任務(wù),最大的區(qū)別是在回歸任務(wù)中可預(yù)測(cè)屬性是連續(xù)的?;貧w技術(shù)在統(tǒng)計(jì)學(xué)領(lǐng)域已經(jīng)廣泛研究了幾個(gè)世紀(jì)。線性回歸和邏輯回歸是最常用的回歸分析方法。 回歸任務(wù)能解決許多商業(yè)問(wèn)題,例如,基于債券的面值、發(fā)行方式和發(fā)行數(shù)量,可預(yù)測(cè)它的贖回率,或者基于溫度、大氣壓力和濕度,可以預(yù)測(cè)風(fēng)速等。 (5)預(yù)測(cè) 預(yù)測(cè)是一種重要的數(shù)據(jù)挖掘任務(wù)。預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對(duì)未來(lái)數(shù)據(jù)的種類(lèi)及特征進(jìn)行預(yù)測(cè)。預(yù)測(cè)關(guān)心的是精度和不確定性,通常用預(yù)測(cè)方差來(lái)度量。 (6)序列分析序列分析用來(lái)發(fā)現(xiàn)離散序列中的模式,序列由一串離散值(或狀態(tài))組成。例如,Web點(diǎn)擊序列包含一系列URL地址;客戶(hù)購(gòu)買(mǎi)商品的次序可以建模為序列數(shù)據(jù)。序列數(shù)據(jù)和時(shí)間序列數(shù)據(jù)都是連續(xù)的觀察值,這些觀察值是相互依賴(lài)的,它們的區(qū)別是序列包含離散的狀態(tài),而時(shí)間序列包含的是連續(xù)的數(shù)值。 序列分析是一種相對(duì)較新的數(shù)據(jù)挖掘任務(wù),序列分析正變得越來(lái)越重要,主要由于存在兩種應(yīng)用:Web日志分析和DNA分析。 (7)偏差分析偏差分析是為了找出一些特殊的實(shí)例,這些實(shí)例的行為與其他實(shí)例有明顯的不同。偏差分析也叫做孤立點(diǎn)(Outlier)檢測(cè),它用來(lái)檢測(cè)與前面觀察的行為有重大改變的行為。偏差分析可以在許多應(yīng)用中使用,最常見(jiàn)的應(yīng)用是信用卡欺詐行為檢測(cè),但是從數(shù)百萬(wàn)個(gè)事務(wù)中鑒別出異常情況是一件非常困難的事。 目前沒(méi)有標(biāo)準(zhǔn)的偏差分析技術(shù),它仍然是一個(gè)熱門(mén)研究方向,一般情況下,分析員利用改進(jìn)的決策樹(shù)算法、聚類(lèi)算法或者神經(jīng)網(wǎng)絡(luò)算法來(lái)解決這類(lèi)任務(wù)。為了得到重要的規(guī)則,分析員需要在數(shù)據(jù)集中將異常情況忽略掉。 根據(jù)數(shù)據(jù)挖掘的目的不同,挖掘過(guò)程所要完成的任務(wù)就各不相同,數(shù)據(jù)挖掘人員應(yīng)根據(jù)實(shí)際情況選擇相應(yīng)的算法來(lái)完成各種挖掘任務(wù)。本文將重點(diǎn)研究數(shù)據(jù)挖掘任務(wù)中的關(guān)聯(lián)任務(wù)(第5章將詳細(xì)介紹)。 數(shù)據(jù)挖掘的環(huán)境和過(guò)程數(shù)據(jù)挖掘是一個(gè)完整的過(guò)程,該過(guò)程從大型數(shù)據(jù)庫(kù)中挖掘先前未知的、有效的、可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí)。 Block Diagram of Data Mining Environment 數(shù)據(jù)挖掘環(huán)境框圖數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析具有本質(zhì)的區(qū)別,數(shù)據(jù)挖掘的過(guò)程也比較復(fù)雜。 Data mining process 數(shù)據(jù)挖掘過(guò)程實(shí)施數(shù)據(jù)挖掘的具體過(guò)程如下: (1)確定業(yè)務(wù)對(duì)象清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)果是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見(jiàn)的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。有些問(wèn)題的產(chǎn)生是顯然的,如:開(kāi)辟新產(chǎn)品的市場(chǎng);為現(xiàn)存的產(chǎn)品和服務(wù)定價(jià);了解客戶(hù)流失的原因。同時(shí)和各種人員的交流也是很重要的,當(dāng)他們了解了數(shù)據(jù)挖掘之后,他們就有可能提出更好的問(wèn)題。(2)數(shù)據(jù)準(zhǔn)備根據(jù)用戶(hù)需求從數(shù)據(jù)庫(kù)中提取與數(shù)據(jù)挖掘相關(guān)的各種數(shù)據(jù),數(shù)據(jù)挖掘就是主要從這些數(shù)據(jù)中提取知識(shí),在此過(guò)程中,會(huì)利用一些數(shù)據(jù)庫(kù)操作來(lái)處理數(shù)據(jù),并最終形成目標(biāo)數(shù)據(jù)。(3)數(shù)據(jù)清理和轉(zhuǎn)換主要是對(duì)步驟2產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)完整性和一致性。數(shù)據(jù)清理的目的是除去其中的噪音數(shù)據(jù)和不相關(guān)信息,利用統(tǒng)計(jì)方法填補(bǔ)丟失的數(shù)據(jù)、刪除無(wú)效數(shù)據(jù),并考慮時(shí)間序列和數(shù)據(jù)變化等因素。數(shù)據(jù)轉(zhuǎn)換的目的則是將原數(shù)據(jù)的數(shù)據(jù)類(lèi)型與值轉(zhuǎn)換為統(tǒng)一的格式(4)建立模型在充分理解了數(shù)據(jù)挖掘任務(wù)的基礎(chǔ)之上,根據(jù)步驟3確定的數(shù)據(jù)選擇合適的算法,包括選取合適的模型和參數(shù)。建立一個(gè)真正適合挖掘算法的分析模型,是數(shù)據(jù)挖掘成功的關(guān)鍵。(5)數(shù)據(jù)挖掘?qū)λ玫降慕?jīng)過(guò)轉(zhuǎn)換過(guò)得數(shù)據(jù)進(jìn)行挖掘,除了完善選擇的算法之外,其他工作都能自動(dòng)完成。在這一過(guò)程中,一些情況可能會(huì)影響
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1