【正文】
81012 bytes) – High dimensional data (variables) (10104 attributes) – Only a small portion, typically 5% to 10%, of the collected data is ever analyzed. – Data that may never be explored continues to be collected out of fear that something that may prove important in the future may be missing. – Magnitude of data precludes most traditional analysis (more on plexity later). Data Mining 和統(tǒng)計分析有什么不同? 硬要去區(qū)分 Data Mining 和 Statistics 的差異其實是沒有太大意義的。因為將作業(yè)中的數(shù)據(jù)轉(zhuǎn)換成有用的的策略性信息是整個數(shù)據(jù)倉儲的重點。 總而言之, Data Mining, Data warehouse, KDD 三者的關系可以如此厘清,即 Data warehouse 是一個經(jīng)過處理、整合之數(shù)據(jù)庫,而 KDD 是一種知識發(fā)現(xiàn)的企業(yè)管理 資源網(wǎng) ()大量管理資料下載 一連串程序, Data Mining 只是 KDD 的一個重要程序。使用的技巧包括 kmeans 法及 agglomeration 法。因此,我們要體會一些潛在的因素,如數(shù)據(jù)取舍、實體關系性、數(shù)量多寡、復雜性、數(shù)據(jù)質(zhì)量、可取得性、變遷、專家意見等因素,才能做好資料挖掘工作。數(shù)據(jù)挖采中的前后行為分析( Sequential Pattern Detection)功能讓您分析那些已經(jīng)轉(zhuǎn)向您的競爭對手的客戶在轉(zhuǎn)向期間的行為,如此您就可以在現(xiàn)有客戶中找到可能轉(zhuǎn)向的客戶,想辦法留住他們。 CRM 不是設一個( 080)客服專線就算了,更不僅只是把一堆客戶基本數(shù)據(jù)輸入計算機就夠,完整的 CRM 運作機制在相關的硬軟件系統(tǒng)能健全的支持之前,有太多的數(shù)據(jù)準備工作與分析需要推動?!箵Q句話說,英國 Safeway 想要知道哪些種類的客戶買了哪些種類的產(chǎn)品以及購買的頻率,以建立「個人導向的市場」?!? 還有,英國 Safeway 在了解客戶每次采購時會購買哪些產(chǎn)品以后,就可以利用 Data Mining 中的 Sequence Discovery 的功能,以偵測出長期的經(jīng)常購買行為。 MCI 的信息主管 指出,沒有 數(shù)據(jù)挖采程序的話,不可能開發(fā)出任何統(tǒng)計數(shù)據(jù)文件。 PALMS 甚至能夠計算出 DM 活動什么時候會達到高峰,讓電話公司在回復率降低前,先行減少 DM郵件。但此方面國內(nèi)才剛起步尚未有成功的例子傳出;倒是賣工具的 SAS,SPSS,NCR,STATISTICA,ORACLE?? 等軟件廠商有不錯的業(yè)績。 Neural Nets 使用許多參數(shù)(每個參數(shù)代表 Net 上的一個 Node)來建立一個模式,這個模式接受一組輸入值來預測出一個連續(xù)值或 分類值。曖昧不明 39。收入低于 4000039。) Discovery Sequence Discovery 與 Association 關系很密切,所不同的是 Sequence Discovery中相關的 Item 是以時間區(qū)分開來(例如:如果做了 X 手術,則 Y 病菌在手術后感染的機率是 45%。 遺傳算法是一種全新的最佳化空間搜尋法,其最初概念是由 John Holland于 1975 年提出,其主要目的如下: 「物競天擇、適者生存」的演化過程。然而,如果工具和數(shù)據(jù)未能適當搭配,程序可能會提出一些沒有用的觀察結果,譬如年紀大的人不會買饒舌歌之類的唱片,或忽略那些真正重要的訊息。 總之, Data Mining 是一個浮現(xiàn)中的新領域。雖然在這幾百萬人中,并不是每一個人都會進行 Data Mining,但是他們至少要能使用 Data Mining 所萃取出來的信息。」這仍屬于其初期階段的技術,最常傳回的是薄片般的信息黃金,而非金塊。 tree Miner Neural Networks 類神經(jīng)網(wǎng)絡技術的目標是發(fā)現(xiàn)與預測數(shù)據(jù)的關系,它與傳統(tǒng)統(tǒng)計方法的區(qū)別是,它可以訓練學習發(fā)現(xiàn)的關系,并且可適用于線性與非線性的情況,并可以彌補數(shù)據(jù)質(zhì)量較差的情 企業(yè)管理 資源網(wǎng) ()大量管理資料下載 況,而處理出品質(zhì)不錯的信息來。所以你必須要有一個分析師來解讀這些分類的意義。收入高于 4000039。訓練 39。這些我們用來尋找特征的已分類數(shù)據(jù)可能是來自我們的現(xiàn)有的歷史性數(shù)據(jù),或是將一個完整數(shù)據(jù)庫做部份取樣,再經(jīng)由實際的運作來測試;譬如利用一個大的郵寄對象數(shù)據(jù)庫的部份取樣來建立一個Classification Model,以后再利用 這個 Model 來對數(shù)據(jù)庫的其它數(shù)據(jù)或是新的數(shù)據(jù)作預測。系統(tǒng)運用數(shù)百臺處理器執(zhí)行這項工作,協(xié)助 WalMart 預測特定分店中,對某一單項 產(chǎn)品的需求。 然后, PALMS 利用這個模型來搜尋數(shù)百萬筆的顧客紀 錄-數(shù)據(jù)量幾達一兆位。 如何從數(shù)百萬的顧客之中,找到你要維持的對象昵? MCI 的辦法是徹底搜尋 1 億 4 千萬筆市場家庭數(shù)據(jù),而評估每一筆數(shù)據(jù)的屬性,則高達一萬個。如果使用傳統(tǒng)的分析方法的話,這種產(chǎn)品很快就會不賣了,可是事實上這種產(chǎn)品是相當重要的。由于土地以及擴充的成本,沒有一家公司有足夠的資源可以在擴充方面超越對手。 Data Mining 應用在 CRM 的主要方式可對應在 Gap Analysis 之三個部分: 針對 Acquisition Gap,可利用 Customer Profiling 找出客戶的一些共同的特征,希望能藉此深入了解客戶,藉由 Cluster Analysis 對客戶進行分群后再透過 Pattern 企業(yè)管理 資源網(wǎng) ()大量管理資料下載 Analysis 預測哪些人可能成為我們的客戶,以幫助行銷人員找到正確的行銷對象,進而降低成本,也提高行銷的成功率。財務金融業(yè)可以利用 Data Mining 來分析市場動向,并預測個別公司的營運以及股價走向。根據(jù)研究指出:美國婦女的視線高度是 150 公分左右,男性是 163 公分左右,而最舒適的視線角度是視線高度以下 15 度左右,所以最好的貨品陳列位置是在 130 至 135 公分之間。例如超市中相關之盥洗用品(牙刷、牙膏、牙線 ),放在同一間貨架上。 Data Mining 常能挖掘出超越歸納范圍的關系,但 OLAP 僅能利用人工查詢及可視化的報表來確認某些關系,是以 Data Mining 此種自動找出甚或不會被懷疑過的數(shù)據(jù)型樣與關系的特性,事實上 已超越了我們經(jīng)驗、教育、想象力的限制,OLAP 可以和 Data Mining 互補,但這項特性是 Data Mining 無法被 OLAP 取代的。另外,決策支持系統(tǒng)和主管信息系統(tǒng) 也日漸普遍,它們操作數(shù)據(jù)的方式不盡相同,因而有必要把作業(yè)性數(shù)據(jù)庫和數(shù)據(jù)倉儲分隔開來,利用不同數(shù)據(jù)庫系統(tǒng)與技術操作,才能達系統(tǒng)最佳化。此領域蓬勃發(fā)展的原因:現(xiàn)代的企業(yè)體經(jīng)常搜集了大量資料,包括市場、客戶、供貨商、競爭對手以及未來趨勢等重要信息,但是信息超載與無結構化,使得企業(yè)決策單位無法有效利用現(xiàn)存的信息,甚至使決策行為產(chǎn)生混亂與誤用。 Data Mining 是一個浮現(xiàn)中的新領域。一般將之定義為 Data Mining 技術的 CART、 CHAID 或模糊計算等等理論方法,也都是由統(tǒng)計學者根據(jù)統(tǒng)計理論所發(fā)展衍生,換另一個角度看, Data Mining 有相當大的比重是由高等統(tǒng)計學中的多變量分析所支撐。也就是,數(shù)據(jù)倉儲 應該具有這樣的數(shù)據(jù):整合性數(shù)據(jù)( integrated data)、詳細和匯總性的數(shù)據(jù) (detailed and summarized data)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)( Metadata)。它們最終目的,乃為組織取得決策支持所需的信息,這個信息是突破盲點、見人所未見的知識和訊息,能替組織取得競爭優(yōu)勢。 Data Mining 的應用 Data Mining 導入企業(yè),其重點在于企業(yè)領域方面的知識,而它的Domainspecific Tools 要結合企業(yè)中使用者的語言和分析過程,才能發(fā)揮 工具的效能與增進企業(yè)的智慧。 Data Mining 對每個公司來說都是一種重要的策略性的的計劃,而將之列為高度機密,所以要調(diào)查各家公司到底用 Data Mining 來做什么樣的事其實相當不容易。 ● 數(shù)據(jù)挖采可以幫您找出 從前的一些信用不良的客戶的特征,而從這些特征您就可以從現(xiàn)有客戶中找出可能有不良信用的客戶,防止產(chǎn)生壞賬,也可以過濾這些人成為您的客戶。企業(yè)透過 Data Mining 可以分別針對策略、目標定位、操作效能與測量評估等四個切面之相關問題,有效率地從市場與顧客所搜集累積之大量資料中挖掘 出對消費者而言最關鍵、最重要的答案,并賴以建立真正由客戶需求點出發(fā)的客戶關系管 理。 (1)一把網(wǎng)住 將資源集中在特定的問題上,并設定可達成的目標之后,英國 Safeway 在商業(yè)智慧過程(也就是 Data Warehousing/Data Mining 過程)中的下一步,就是選擇企業(yè)管理 資源網(wǎng) ()大量管理資料下載 適當?shù)臄?shù)據(jù)來源,將客戶的交易數(shù)據(jù)集中在 Data Warehouse 中。再將這些數(shù)據(jù)與主數(shù)據(jù)庫的人口統(tǒng)計數(shù)據(jù)結合在一起, Safeway 的行銷部門就可以根據(jù)每個家庭的「弱點」,也就是在哪些季節(jié)會購買哪些產(chǎn)品的趨勢,發(fā)出郵件。 公司 和其它電話公司一樣,它也希望能找出有家用第二和第三條電話線的強烈需求的家庭。 公司 在舊金山創(chuàng)立的 UltraGem 公司 ,一直和一家不具名的銀行,共同預估可調(diào)利率抵押貸款的獲利率。賣鏟子的能賺錢,買了鏟子能不能挖掘到寶藏仍是未知數(shù) ? 除此之外, 支持 XML、強化數(shù)據(jù)倉儲 (Data Warehousing)與新增數(shù)據(jù)采礦 (Data Mining)功能的 Microsoft SQL Server 20xx 即將于十一月中旬問市,新增的 XML 與HTTP 支持簡化數(shù)據(jù)存取功能,以及功能強大的數(shù)據(jù)采擷 (Data Mining)系統(tǒng),將大幅強化數(shù)據(jù)所能提供的參考價值與可用性、存取效率與實時決策支持系統(tǒng)分析,讓企業(yè)能以最低的成本建置完善 的數(shù)據(jù)庫。每一個節(jié)點( Node)企業(yè)管理 資源網(wǎng) ()大量管理資料下載 都是一個函數(shù),這個函數(shù)是使用輸入該節(jié)點的相鄰節(jié)點值的加權總和( Weighted Sum)做運算。的特性,也就是它做的預測所根據(jù)的因素并不明確。而且 39。又例如:如果 A 股票在某一天上漲 12%,而且當天股市加權指數(shù)下降,則 B 股票在兩 天之內(nèi)上漲的機率是 68%)。 件實作仿真。為幫助顧客處理所有的基本問題, IBM、視算枓技和 Thinking Machines 公司已經(jīng)組合了一套不同采掘工具的產(chǎn)品。企業(yè)應該把焦點集中在商業(yè)利益上,而學術界應集中在知識發(fā)掘 技術與方法論上。如果我們真的想看到 Business Intelligence 完全發(fā)揮效能的話,這個數(shù)字必須成長到數(shù)百萬的范圍才行。他說,「數(shù)據(jù)掘取并非完美。這些 data mining工具能幫助指出巨量變量間的關系,發(fā)現(xiàn)盲點創(chuàng)造巨大的商機。 Clustering 與 Classification 不同的是,你不曉得它會以何種方式或根據(jù)什么來分類。例如 39。這個過程經(jīng)過反復的執(zhí)行后,這個 Neural Net 就被 39。我們會用一些已經(jīng)分類的數(shù)據(jù)來研究它們的特征,然后再根據(jù)這些特征對其他未經(jīng)分類或是新的數(shù)據(jù)做預測。 去年, WalMart 已經(jīng)把系統(tǒng)轉(zhuǎn)換為由 NeoVistaSolutions 公司所提供的數(shù)據(jù)挖采系統(tǒng)。最后,得到一個理想的潛在客戶統(tǒng)計模型。如果做得到這一點,該公司就可以設法留下客戶,例如提供特別的費率和服務?!估?Intelligent Miner 發(fā)現(xiàn)某一種奶酪產(chǎn)品雖然銷售額排名第209,可是消費額最高的客戶中有 25%都常常買這種奶酪,這些客戶可是英國企業(yè)管理 資源網(wǎng) ()大量管理資料下載 Safeway 最不想得罪的客戶?!?