【正文】
D applications. ?Statistical Thinking is being more important than statistical methods (attacking unstructured problems versus knowing how to do a regression, DOE, etc.). ?Statisticians are still needed and valued, but not to analyze data people do that for themselves. Professional statisticians are “l(fā)eaders”, not just “doers.” The role is now significantly different! ?Emphasis on broad application of basic tools versus narrow application of advanced tools. 。 附錄: What role does statistics will play in data mining? ?Statisticians can play a variety of roles ?Statisticians need to think about broad issues as well as methodological advances ?Statisticians need to stay involved – If not us, who? Everyone! The New Statistics Paradigm at GE 企業(yè)管理 資源網(wǎng) ()大量管理資料下載 ?Everyone uses statistical tools。企業(yè)應(yīng)該把焦點(diǎn)集中在商業(yè)利益上,而學(xué)術(shù)界應(yīng)集中在知識(shí)發(fā)掘 技術(shù)與方法論上。所以妥善的運(yùn)用 Dat Ming技術(shù) ,從巨量的數(shù)據(jù)庫(kù)中,發(fā)掘出不同的信息與知識(shí)出來(lái),作為決策支持之用,必能產(chǎn)生企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)?!? 企業(yè)管理 資源網(wǎng) ()大量管理資料下載 Dat Ming技術(shù)的導(dǎo)入企業(yè)體,它的重點(diǎn)不是數(shù)據(jù)庫(kù)本身,而在于以企業(yè)領(lǐng)域?yàn)橹鳌H绻覀冋娴南肟吹?Business Intelligence 完全發(fā)揮效能的話,這個(gè)數(shù)字必須成長(zhǎng)到數(shù)百萬(wàn)的范圍才行。 但是在這種預(yù)測(cè)成真以前,數(shù)據(jù)的傳播方面還需要有長(zhǎng)足的進(jìn)步才行。她也預(yù)期更多的商業(yè)人士,而非分析人員將會(huì)投入商業(yè)智慧( Business Intelligence)發(fā)掘的過(guò)程(與現(xiàn)在剛好相反),「您將不只會(huì)看到更多的人在從事 Data Mining,更會(huì)看到更多不同類型的人在從事 Data Mining。西蒙度斯先生認(rèn)為在這個(gè)工具箱中 ,將會(huì)有大型的 Data Mining 架構(gòu),例如針對(duì)大型企業(yè) Data Warehouse 操作的 Intelligent Miner,而較小型的架構(gòu)則在較小型的 Data Mart 上運(yùn)作??墒且?gòu)?qiáng)調(diào)的是:要做 Data Mining,不是只是買一個(gè)產(chǎn)品就可以一切搞定,它還有很多學(xué)問(wèn)在里頭! 企業(yè)將來(lái) 可能會(huì)如何運(yùn)用 Data Mining 呢? IBM 決策支持系統(tǒng)副總裁依凡杰洛斯西蒙度斯表示,他預(yù)測(cè)將來(lái)會(huì)有一系列的 Data Warehousing 程序:企業(yè)的Data Warehouse 會(huì)將數(shù)據(jù)輸入 Data Mart 中,而 Data Mart 又會(huì)將數(shù)據(jù)輸入個(gè)人的「方塊」( cube),也就是桌上型計(jì)算機(jī) Data Warehouse 中,包括使用 Congos公司的 Powerplay 或 BusinessObjects 的工具。為幫助顧客處理所有的基本問(wèn)題, IBM、視算枓技和 Thinking Machines 公司已經(jīng)組合了一套不同采掘工具的產(chǎn)品。例如,有些軟鱧找尋 類似的項(xiàng)目群組;而有些軟件則搜尋異?,F(xiàn)象。正在試用資料掘取技術(shù)公司,很快即了解到有件事很重要,他們得了解究竟他們要的企業(yè)管理 資源網(wǎng) ()大量管理資料下載 是什么,何種工具效果最佳。他說(shuō),「數(shù)據(jù)掘取并非完美。 Data Mining 軟件 ?MLC++ (pd) ?MOBAL (pd) ?MOBAL (pd) ?Emerald (rp) ?Kepler (rp) ?Clementine (cp) ?DataMind DataCruncher (cp) ?Darwin (cp) ?Intelligent Miner (cp) ?INSPECT (cp) ?NeoVista Solutions (cp) ?Nuggets (cp) ?Partek (cp) ?Polyanalyst (cp) ?SAS Data Mining (cp) ?SGI MindSet (cp) ?Knowledge Explorer (cp) ?DataEngine (cp) ?Delta Miner (cp) ?SPLUS (cp) 企業(yè)管理 資源網(wǎng) ()大量管理資料下載 ?MATLAB (cp) ?Mathematica (cp) ?XGOBI (pd) ?Crystal Vision ne233。因此,利用它于 Data Mining 領(lǐng)域中,可 以發(fā)掘出不同的信息、別企業(yè)管理 資源網(wǎng) ()大量管理資料下載 人看不出的信息,必然帶給企業(yè)體巨大的商機(jī)。它具有強(qiáng)固性( robustness)與求值空間的獨(dú)立性( domain independence)。于是人工智能領(lǐng)域中的自我學(xué)習(xí)機(jī)制、各類最佳化問(wèn)題的快速求解,它提供了一種不同以往的思考模式,運(yùn)用在 Data Mining 上,可以在巨量數(shù)據(jù)中快速搜尋、比對(duì)、演化出最佳點(diǎn),并且具有學(xué)習(xí)機(jī)制,可在 Data Mining領(lǐng)域綻放光芒。 件實(shí)作仿真。但是,近年浮現(xiàn)的新技術(shù):遺傳算法( Geic algorithms),卻無(wú)確切證據(jù)顯示在 Data Mining 工具產(chǎn)品中使用,本文認(rèn)為遺傳算法的特性,必然在 Data Mining 領(lǐng)域中有出色的演出。 work Browser connection work Utility For Excel 從上表可以發(fā)現(xiàn)資料挖掘技術(shù)的多樣化,從傳統(tǒng)分析工具,例如統(tǒng)計(jì)回歸預(yù)測(cè)模型、數(shù)據(jù)庫(kù)分割、連接分析、偏差偵測(cè)等。這些 data mining工具能幫助指出巨量變量間的關(guān)系,發(fā)現(xiàn)盲點(diǎn)創(chuàng)造巨大的商機(jī)。模糊理論發(fā)展的工具能使使用者容易導(dǎo)入既定的標(biāo)準(zhǔn)中,而此種工具最大用途是,當(dāng)使用者 要查核多重標(biāo)準(zhǔn),以及要改變每一種標(biāo)準(zhǔn)時(shí)。這工具把不同數(shù)據(jù)次集合,或不同匯總性數(shù)據(jù),讓使使用者快速的了解。 在產(chǎn)學(xué)界合作下,近二年有驚人的發(fā)展,而各種工具只在某些領(lǐng)域下有特別的效能,也就是說(shuō)尚無(wú)適用所有業(yè)種、用途的工具問(wèn)世。對(duì)于某一種問(wèn)題,數(shù)據(jù)本身的特性會(huì)影響你所選用的工具。又例如:如果 A 股票在某一天上漲 12%,而且當(dāng)天股市加權(quán)指數(shù)下降,則 B 股票在兩 天之內(nèi)上漲的機(jī)率是 68%)。(例如:如果一個(gè)顧客買了低脂奶酪以及低脂優(yōu)酪乳,那么這個(gè)顧客同時(shí)也買低脂牛奶的機(jī)率是 85%。 企業(yè)管理 資源網(wǎng) ()大量管理資料下載 Association 是要找出在某一事件或是數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。 Clustering 與 Classification 不同的是,你不曉得它會(huì)以何種方式或根據(jù)什么來(lái)分類。TimeSeries Forcasting 的工具可以處理有關(guān)時(shí)間的一些特性,譬如時(shí)間的階層性(例如每個(gè)禮拜五個(gè)或六個(gè)工作 天)、季節(jié)性、節(jié)日、以及其它的一些特別因素如過(guò)去與未來(lái)的關(guān)連性有多少。 Forcasting TimeSeries Forcasting 與 Regression 很像,只是它是用現(xiàn)有的數(shù)值來(lái)預(yù)測(cè)未來(lái)的數(shù)值。Decision Tree 與 Neural Net 也可以用來(lái)做 Regression,某些種類的 Neural Net 甚至可以用來(lái)做 Clustering。則會(huì)被歸為低風(fēng)險(xiǎn)之類。而且 39。的人會(huì)被歸為高風(fēng)險(xiǎn)之類,而 39。而且 39。例如 39。兩種。與 39。例如,你想把申請(qǐng)貸款的人歸類成 39。但是現(xiàn)在已經(jīng)有一些新的技術(shù)可以改正這個(gè)缺點(diǎn)。的特性,也就是它做的預(yù)測(cè)所根據(jù)的因素并不明確。首先, Neural Net 最受質(zhì)疑的是它的 39。得能夠相當(dāng)正確的做預(yù)測(cè)了。這個(gè)過(guò)程經(jīng)過(guò)反復(fù)的執(zhí)行后,這個(gè) Neural Net 就被 39。稱為 BackPropagation,它是把輸出結(jié)果與一個(gè)已知的正確結(jié)果相比。有一種最常用的 39。訓(xùn)練 39。喂 39。每一個(gè)節(jié)點(diǎn)( Node)企業(yè)管理 資源網(wǎng) ()大量管理資料下載 都是一個(gè)函數(shù),這個(gè)函數(shù)是使用輸入該節(jié)點(diǎn)的相鄰節(jié)點(diǎn)值的加權(quán)總和( Weighted Sum)做運(yùn)算。雖然這些統(tǒng)計(jì)方法本身都十分復(fù)雜,但使用者并不會(huì)牽涉到這些繁雜的統(tǒng)計(jì)。 Classification 通常會(huì)牽涉到兩種統(tǒng)計(jì)方法: Logistic Regression 以及 Discriminant Analysis。我們會(huì)用一些已經(jīng)分類的數(shù)據(jù)來(lái)研究它們的特征,然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。(計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為 可能會(huì)響應(yīng) 或是 可能不會(huì)響應(yīng) 兩類)。 Clustering則是二者都可以用的上。 Data Mining 可以建立六種模式: Classification、 Regression、 Time Series、Clustering、 Association、以及 Sequence。這些模式有兩種用處,第一,了解數(shù)據(jù)的特征與關(guān)系可以提供你做決策所需要的信息,譬如 Association Model 可以幫助超級(jí)市場(chǎng)或百貨店規(guī)畫如何擺設(shè)貨品。賣鏟子的能賺錢,買了鏟子能不能挖掘到寶藏仍是未知數(shù) ? 除此之外, 支持 XML、強(qiáng)化數(shù)據(jù)倉(cāng)儲(chǔ) (Data Warehousing)與新增數(shù)據(jù)采礦 (Data Mining)功能的 Microsoft SQL Server 20xx 即將于十一月中旬問(wèn)市,新增的 XML 與HTTP 支持簡(jiǎn)化數(shù)據(jù)存取功能,以及功能強(qiáng)大的數(shù)據(jù)采擷 (Data Mining)系統(tǒng),將大幅強(qiáng)化數(shù)據(jù)所能提供的參考價(jià)值與可用性、存取效率與實(shí)時(shí)決策支持系統(tǒng)分析,讓企業(yè)能以最低的成本建置完善 的數(shù)據(jù)庫(kù)。 6. 國(guó)內(nèi)的例子 現(xiàn)在許多電信公司都開(kāi)始往 DataMining 的方向走,中華電信、遠(yuǎn)傳、臺(tái)灣大哥大及東森電訊 ? 等,銀行方面如中信銀,花旗、匯豐都已經(jīng)開(kāi)始規(guī)劃進(jìn)行本身信息流及客戶流的 DataMining,網(wǎng)絡(luò)方面像 104 人力銀行,數(shù)博網(wǎng),資商訊息亦開(kāi)始從事 DataMining 的研究開(kāi)發(fā)。而且它也改善了 WalMart「巿場(chǎng)-購(gòu)物籃」分析的正確性。 去年, WalMart 已經(jīng)把系統(tǒng)轉(zhuǎn)換為由 NeoVistaSolutions 公司所提供的數(shù)據(jù)挖采系統(tǒng)。但是,除了使用來(lái)自 NCR 公司強(qiáng)大的計(jì)算機(jī), WalMart 一直無(wú)法使用所有的數(shù)據(jù)。 公司 由于該公司最先采用大量的交易數(shù)據(jù)厙,而改革了零售業(yè)。這些結(jié)合各種變項(xiàng)而產(chǎn)生的規(guī)則,「是人類智能無(wú)法計(jì)算出來(lái)的,」UltraGem 董事長(zhǎng) 如此說(shuō)到。數(shù)據(jù)的范圍包括:顧客的年齡和郵政編碼、貸款的來(lái)源、以及以及此次貸款是否從前一次的貸款轉(zhuǎn)換而來(lái)。 公司 在舊金山創(chuàng)立的 UltraGem 公司 ,一直和一家不具名的銀行,共同預(yù)估可調(diào)利率抵押貸款的獲利率。這次活動(dòng)的回復(fù)率很高,與花費(fèi)數(shù)百萬(wàn)美元的廣播活動(dòng)不相上下。此程序在找出與其它數(shù)據(jù)的關(guān)系后,如每家的住址、 US West 的電話干線位置、各地總機(jī)的容量,即可辨識(shí)出一群潛在的顧客-這些家庭符合該幙式,且US West 不必花費(fèi)太多,就能夠?yàn)檫@些家庭提供服務(wù)。最后,得到一個(gè)理想的潛在客戶統(tǒng)計(jì)模型。首先, PALMS 過(guò)濾美國(guó)鳳凰城地區(qū)域數(shù)千筆顧客記錄的樣本企業(yè)管理 資源網(wǎng) ()大量管理資料下載 數(shù)據(jù),這動(dòng)作花了數(shù)小時(shí)。T 的 NCR 計(jì)算機(jī)部門,及擁有美國(guó)航空公司的 AMR 公司旗下的 Sabre Decision Technologies 部門。 為了找到這些人, US West 使用一個(gè)叫做 PA