freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘的模型及計算方式-預(yù)覽頁

2025-06-21 00:13 上一頁面

下一頁面
 

【正文】 術(shù)的應(yīng)用帶來了便利。他不僅能用于控制成本,也能給企業(yè)帶來效益。數(shù)據(jù)挖掘可以應(yīng)用在各個不同的領(lǐng)域。零銷商更多的使用數(shù)據(jù)挖掘來決定每種商品在不同地點的庫存,通過數(shù)據(jù)挖掘更靈活的使用促銷和優(yōu)惠卷手段。二是使用正確的數(shù)據(jù),選定了你所能得到的數(shù)據(jù),也許還要從外部購買數(shù)據(jù),你需要對這些數(shù)據(jù)做有效的數(shù)據(jù)整合和轉(zhuǎn)換。最近,一些軟件供應(yīng)商和用戶組織成立了行業(yè)協(xié)會,包括NCR Systems Engineering Copenhagen(丹麥)DaimlerBenz AG(德國)SPSS/Internal Solutions Ltd.(英國),和OHRA Verzekeringen en Bank Grep (荷蘭)。比如在“分析數(shù)據(jù)”時你可能覺得在“建立數(shù)據(jù)挖掘數(shù)據(jù)庫”時作的不夠好,要往里面添加一些新的數(shù)據(jù)。缺少了這些背景知識,你就沒辦法明確定義要解決的問題,不能為挖掘準備數(shù)據(jù),也很難正確的解釋得到的結(jié)果。當然還應(yīng)該有整個項目預(yù)算和理性的解釋。一旦你從數(shù)據(jù)挖掘的結(jié)果中學到一些什么之后,你很可能要修改數(shù)據(jù)以得到更好得結(jié)果,因此就需要把數(shù)據(jù)準備和數(shù)據(jù)挖掘不斷的反復進行。根據(jù)要挖掘的數(shù)據(jù)量的大小、數(shù)據(jù)的復雜程度、使用方式的不同,有時一個簡單的平面文件或電子表格就足夠了。你需要經(jīng)常把許多表連接在一起,訪問數(shù)據(jù)倉庫的細節(jié)數(shù)據(jù)。其他的數(shù)據(jù)挖掘用戶可能也要對數(shù)據(jù)倉庫進行與您相似或完全不同的修改。最后,你可能希望把這些要挖掘的數(shù)據(jù)存貯在與公司的數(shù)據(jù)倉庫在物理設(shè)計上不同的DBMS上。 構(gòu)建元數(shù)據(jù)g. g. 加載數(shù)據(jù)挖掘庫h. h. 維護數(shù)據(jù)挖掘庫注意這些步驟并不需要一定要按步驟執(zhí)行,而應(yīng)該按需要進行。確定要挖掘的數(shù)據(jù)源。 178。 數(shù)據(jù)源(內(nèi)部數(shù)據(jù)庫或外部提供者)178。 178。 費用(如果需要購買)178。 178。 物理存儲方式(CDROM、磁帶、服務(wù)器等)178。比如許多歐洲的數(shù)據(jù)在隱私上的限制要比美國嚴格的多。 178。 字段/列的數(shù)目178。 178。 定義178。 178。 所有不同值的個數(shù)178。 178。 收集信息(比如:怎么得到的,在哪,什么條件下)178。接下來就要選擇用于數(shù)據(jù)挖掘的數(shù)據(jù)(源數(shù)據(jù)的子集)。數(shù)據(jù)質(zhì)量評估就是要確定數(shù)據(jù)的哪些性質(zhì)會最終影響模型的質(zhì)量。比如,身份證號碼被粗心的數(shù)據(jù)錄入人員錄入了年齡。缺值是一個非常有害的問題。另一種方法是為缺失的值計算一個替代值。還有一種方法是為這個缺值的字段用數(shù)據(jù)挖掘技術(shù)建立一個預(yù)測模型,然后按照這個模型的預(yù)測結(jié)果添值,這種方法效果應(yīng)該最好,當然也最花時間。如果幸運的話,你需要的所有數(shù)據(jù)都在同一個數(shù)據(jù)庫中(比如數(shù)據(jù)倉庫),但大部分情況下這些數(shù)據(jù)是分布在不同的數(shù)據(jù)庫中。不同的數(shù)據(jù)庫間在數(shù)據(jù)定義和使用上通常都存在巨大的差異。同一個名字被用在不同的數(shù)據(jù)項上(同名異意),或同一個數(shù)據(jù)項用了不同的名字(同意不同名)。 構(gòu)建元數(shù)據(jù)。g. g. 加載數(shù)據(jù)挖掘庫。依賴于所涉及的DBMS和操作系統(tǒng),和數(shù)據(jù)庫設(shè)計的復雜程度,有時這一步也可能變得很復雜,需要靠專家的幫助來完成。對存放在DBMS內(nèi)的復雜的挖掘庫來說,維護他需要計算機專業(yè)人員來完成。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時和累人的事情,這時你需要選擇一個具有好的界面和功能強大的工具軟件來協(xié)助你完成這些事情。理想情況下,你可以選擇你所有的全部變量,把他們輸入到數(shù)據(jù)挖掘工具中,讓他來幫你選擇哪些是最好的預(yù)測變量。利用你的領(lǐng)域知識,你會做出大部分正確的選擇。因此,如果數(shù)據(jù)量特別大,進行抽樣就是一個很好的主意。你可能選擇數(shù)據(jù)中明顯的異常數(shù)據(jù)刪除掉。有時也需要向數(shù)據(jù)中添加一些新的數(shù)據(jù)(如,那些沒有做出購買得客戶)。很多變量如果組合起來(加、減、比率等)會比這些變量自身影響力更大。如神經(jīng)網(wǎng)絡(luò)要求所有的變量都在01之間,因此在這些數(shù)據(jù)被提交到算法之前就必須先對不在[0,1]內(nèi)的變量進行映射。對建立模型來說要記住的最重要的事是它是一個反復的過程??赡苁且豢脹Q策樹、神經(jīng)網(wǎng)絡(luò)、甚至傳統(tǒng)的數(shù)學統(tǒng)計。為了保證得到的模型具有較好的精確度和健壯性,需要一個定義完善的訓練—驗證協(xié)議。訓練和測試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個部分:一個用于模型訓練,另一個用于模型測試。簡單驗證。先用數(shù)據(jù)庫的主體把模型建立起來,然后用此模型來預(yù)測測試集中的數(shù)據(jù)。在一次模型的建立過程中,即使這種最簡單的驗證就要執(zhí)行幾十次。交叉驗證提供了一種讓你使用全部數(shù)據(jù)的方法。比如,如果把數(shù)據(jù)分成10份,先把第一份拿出來放在一邊用作模型測試,把其他9份合在一起來建立模型,然后把這個用90%的數(shù)據(jù)建立起來的模型用上面放在一邊的第一份數(shù)據(jù)做測試。在數(shù)據(jù)量很小時尤其適用。當然,沒有一種算法或工具適應(yīng)所有的數(shù)據(jù),通常也很難在開始決定那種算法對你所面臨的問題來說是最好的,因此很多情況下,需要建立用不同的方法(參數(shù)或算法)幾個模型,從中選擇最好的。模型建立好之后,必須評價他的結(jié)果、解釋他的價值。你需要進一步了解錯誤的類型和由此帶來的相關(guān)費用的多少。它不僅說明了模型預(yù)測的準確情況,也把模型究竟在哪里出了問題也展示了出來。例如,上面的無序矩陣中,如果每個準確的預(yù)測會帶來¥10的收益,錯誤的預(yù)測A要付出¥5的代價,B是¥10,C是¥20,那么整個模型的純價值是:(123*¥10)(5*¥5)(12*¥10)(10*¥20)=¥885然而考察下面的無序矩陣(圖10),雖然準確度降低到79%(118/150),但純價值卻升高了:(118*¥10)(22*¥5)(7*¥10)(3*¥20)=¥940它顯示了通過應(yīng)用模型響應(yīng)(如直接郵件推銷)的變化情況。模型解釋的另一個重要組成部分是確定模型的價值。理想情況下,應(yīng)該按照利潤表行事,但很多情況下利潤表并不能很容易的計算出來。造成這一點的直接原因就是模型建立中隱含的各種假定。7. 7. 實施。另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。在這些情況下,模型一般都合并到應(yīng)用程序的內(nèi)部。每個事務(wù)的處理時間和事務(wù)到達的速度,決定了模型運行所需的計算能力,和是否要用并行技術(shù)來加快速度。在欺詐檢測系統(tǒng)中可能既包含了數(shù)據(jù)挖掘發(fā)現(xiàn)的規(guī)律,也有人們在實踐中早已總結(jié)出的規(guī)律。銷售人員都知道,人們的購買方式隨著社會的發(fā)展而變化。很多軟件供應(yīng)商和數(shù)據(jù)挖掘顧問公司投提供了一些數(shù)據(jù)挖掘過程模型,來指導他們的用戶一步步的進行數(shù)據(jù)挖掘工作。我們下面詳細討論Two Crows公司的數(shù)據(jù)挖掘過程模型,他與正在建立的CRISPDM有許多相似之處。在開始知識發(fā)現(xiàn)之前最先的同時也是最重要的要求就是了解的你的數(shù)據(jù)和業(yè)務(wù)問題。比如你說你想提高直接郵件推銷的用戶回應(yīng)時,你想做的可能是“提高用戶響應(yīng)率”,也可能是“提高一次用戶回應(yīng)的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,你必須做出決定。連同下面的兩個步驟,這三步構(gòu)成了數(shù)據(jù)預(yù)處理的核心。應(yīng)該把要挖掘的數(shù)據(jù)都收集到一個數(shù)據(jù)庫中。你最好建立一個獨立的數(shù)據(jù)集。大部分情況下你肯定需要修改要挖掘的數(shù)據(jù)。需要建立獨立的數(shù)據(jù)挖掘庫的另一個理由是,數(shù)據(jù)倉庫可能不支持你要對數(shù)據(jù)進行各種復雜分析所需的數(shù)據(jù)結(jié)構(gòu)。當然如果你的數(shù)據(jù)倉庫允許你建立一個在邏輯上獨立的數(shù)據(jù)庫并且在計算資源上也足夠的話,那么在他上面進行數(shù)據(jù)挖掘也是可以的。在數(shù)據(jù)整合和數(shù)據(jù)質(zhì)量評估過程中了解到得東西也有可能是你修改最初的數(shù)據(jù)選擇。用以一個數(shù)據(jù)搜集報告把所需的各種不同的數(shù)據(jù)源的屬性列出來。 178。 負責維護此數(shù)據(jù)的人/組織178。 178。 表、字段、記錄的數(shù)目178。 178。 使用上的限制178。描述每個文件和數(shù)據(jù)庫表的內(nèi)容。 178。 字段的名字對每個字段178。 178。 源178。 178。 值的范圍178。 178。 特別時間數(shù)據(jù)(比如:每個周一或每個周三)178。l. d. 數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理。由各種各樣的數(shù)據(jù)質(zhì)量問題。有時域中的值為空。缺值這件事本身可能就是非常有意義的,比如也許只有富有的顧客才經(jīng)常忽略“收入”這一項。還有一個不是很常用的方法是按照數(shù)據(jù)庫中值的分布規(guī)律為缺值的字段添值。檢查和修正數(shù)據(jù)質(zhì)量問題是一項非常耗費時間和金錢的工作,對解決不了的問題,通常你只能采取折衷的辦法,先用現(xiàn)有的數(shù)據(jù)建立一個模型,把問題放到將來去解決。數(shù)據(jù)合并與整合把來自不同數(shù)據(jù)源的數(shù)據(jù)合并到同一個數(shù)據(jù)挖掘庫中,并且要使那些本來存在沖突和不一致的數(shù)據(jù)一致化。然而有些則非常棘手。比如人民幣和港元之間不能不做換算就直接加減。本質(zhì)上,這是一個描述數(shù)據(jù)庫的數(shù)據(jù)庫。如果數(shù)據(jù)量大并且復雜,那么他通常是一個RDMS,反之只是一個簡單的平面文件即可。挖掘庫一旦建好,就需要對他進行維護。請察看“描述型數(shù)據(jù)挖掘”以獲得更詳細的關(guān)于可視化、連結(jié)分析,及其他數(shù)據(jù)分析方法。這是建立模型之前的最后一步數(shù)據(jù)準備工作。比如,建立預(yù)測模型的一個常見錯誤就是把一個依賴于目標變量的變量(由目標變量導出)作為預(yù)測變量,像用生日來“預(yù)測”年齡。b. b. 選擇記錄。你可以用所有的數(shù)據(jù)建立一個模型;你還可以用采樣的方法根據(jù)不同得采樣方法建立幾個模型,然后評價這幾個模型選擇一個最好的?;谀銓栴}的理解方式的不同,通??梢园堰@些異常忽略掉。很多情況下需要從原始數(shù)據(jù)中衍生一些新的變量作為預(yù)測變量。d. d. 轉(zhuǎn)換變量。當然你的轉(zhuǎn)換方式也在一定程度上影響了模型的準確度。你在尋找好的模型的過程中學到的的東西會啟發(fā)你修改你的數(shù)據(jù),甚至改變最初對問題的定義。如神經(jīng)網(wǎng)絡(luò)需要做數(shù)據(jù)轉(zhuǎn)換,有些數(shù)據(jù)挖掘工具可能對輸入數(shù)據(jù)的格式有特定的限制,等。他的主要思想就是先用一部分數(shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試和驗證這個得到的模型。用訓練集把模型建立出來之后,就可以先在測試集數(shù)據(jù)上先試驗一把,此模型在測試集上的預(yù)測準確度就是一個很好的指導數(shù)字,它說明如果將來與訓練集和測試集類似的數(shù)據(jù)用此模型預(yù)測時,正確的百分比會有多大。做法是從原始數(shù)據(jù)中拿出一定百分比的數(shù)據(jù)作為測試數(shù)據(jù),這個百分比大概在5%到33%之間。正確的預(yù)測與總數(shù)的比,是準確率(準確率=1 錯誤率)。交叉驗證。更通用的算法是n維交叉驗證。最后把所有數(shù)據(jù)放在一起建立一個模型,模型的錯誤率為上面10個錯誤率的平均。依據(jù)所得到的模型和你對模型的預(yù)期結(jié)果,你可能修改參數(shù)用同樣的算法再建立新的模型,甚至采用其他的算法建立模型。13. 6. 評價和解釋。在實際應(yīng)用中,隨著應(yīng)用數(shù)據(jù)的不同,模型的準確率肯定會變化。對分類問題來說,無序矩陣是理解結(jié)果的非常好的工具。在這張表值中,可以看到此模型在總共46個B類數(shù)據(jù)中成功預(yù)測了38個,8個出了問題:2個預(yù)測成了A,6個成了C。預(yù)測實際類別A類別B類別C類別A4523類別B10382類別C4640圖9:無序矩陣預(yù)測實際類別A類別B類別C類別A401210類別B6381類別C2140圖10:另一個無序矩陣例如,如果用隨機抽取的方法選擇10%的客戶響應(yīng)率是10%,而通過模型選取10%的用戶響應(yīng)率是30%,則lift值為3。圖12是一個描述模型投資回報率(ROI)的圖表(這里定義 ROI為利潤與開銷的比值)。當然,也可以直接看利潤的變化情況(利潤為收入與花費的差值),如圖13所示:如前面指出的,無論我們用模擬的方法計算出來的模型的準確率有多高,都不能保證此模型在面對現(xiàn)實世界中真實的數(shù)據(jù)時能取得好的效果。因此直接在現(xiàn)實世界中測試模型很重要。第一種是提供給分析人員做參考,由他通過察看和分析這個模型之后提出行動方案建議。還可以用模型在數(shù)據(jù)庫中選擇符合特定要求的記錄,以用OLAP工具做進一步的分析?;蛟诙ㄙ徬到y(tǒng)中,當預(yù)測到庫存有可能降低到一個最低限度時自動發(fā)出購買訂單。當提交一個復雜的應(yīng)用時,數(shù)據(jù)挖掘可能只是整個產(chǎn)品的一小部分,雖然可能是最關(guān)鍵的一部分。在應(yīng)用了模型之后,當然還要不斷監(jiān)控他的效果。發(fā)現(xiàn)這樣的規(guī)則可以應(yīng)用于商品貨架設(shè)計、貨存安排以及根據(jù)購買模式對用戶進行分類。同時隨著OLAP技術(shù)的成熟和應(yīng)用,將OLAP和關(guān)聯(lián)規(guī)則結(jié)合[20,21]也成了一個重要的方向。記D為交易(transaction)T的集合,這里交易T是項的集合,并且T205。T,那么稱交易T包含X。I,并且X199。Y),即support(X222。D}|/|D|規(guī)則X222。Y205。D}|給定一個交易集D,挖掘關(guān)聯(lián)規(guī)則問題就是產(chǎn)生支持度和可信度分別大于用戶給定的最小支持度(minsupp)和最小可信度(minconf)的關(guān)聯(lián)規(guī)則。2. 基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。在單維的關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)據(jù)的一個維,如用戶購買的物品;而在多維的關(guān)聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會涉及多個維。Agrawal等于1993年[1]首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則問題,其核心方法是基于頻集理論的遞推方法。如給定了一個頻集Y=I1I2...Ik,k179。k),這里采用的是[4]中規(guī)則的定義。其核心思想如下:(1) L1 = {large 1itemsets}。 k++) do begin(3) Ck=apriorigen(Lk1)。 Ct do(7) ++。kLk。Ck中的每個元素需在交易數(shù)據(jù)庫中進行驗證來決定其是否加入Lk,這里的驗證過程是算法性能的一個瓶頸。那么,如果Ck中某個候選項集有一個(k1)子集不屬于Lk1,則這個項集可以被修剪掉不再被考慮,這個修剪過程可以降低計算所有的候選集的支持度的代價。Savasere等[14]設(shè)計了一個基于劃分(partition)的算法,這個算法先把數(shù)據(jù)庫從邏
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1