正文內(nèi)容

數(shù)據(jù)挖掘與統(tǒng)計工作報告-文庫吧在線文庫

2025-08-26 19:55上一頁面

下一頁面

　　

【正文】 ng 有相當(dāng)大的比重是由高等統(tǒng)計學(xué)中的多變量分析所支撐。 Data Mining 所挖掘出來的信息，也不是你可以不經(jīng)確認，就可以照單全收應(yīng)用到業(yè)務(wù)上的。 Data Mining 是一個浮現(xiàn)中的新領(lǐng)域。挖掘的信息和知識從巨大的數(shù)據(jù)庫而來，它被許多研究者在數(shù)據(jù)庫系統(tǒng)和機器學(xué)習(xí)當(dāng)作關(guān)鍵研究議題，而且也被企業(yè)體當(dāng)作主要利基的重要所在。此領(lǐng)域蓬勃發(fā)展的原因：現(xiàn)代的企業(yè)體經(jīng)常搜集了大量資料，包括市場、客戶、供貨商、競爭對手以及未來趨勢等重要信息，但是信息超載與無結(jié)構(gòu)化，使得企業(yè)決策單位無法有效利用現(xiàn)存的信息，甚至使決策行為產(chǎn)生混亂與誤用。畢竟 Data Mining 不是一種無中生有的魔術(shù)，也不是點石成金的煉金術(shù)，若沒有夠豐富完整的數(shù)據(jù)，是很難期待 Data Mining 能挖掘出什么有意義的信息的。另外，決策支持系統(tǒng)和主管信息系統(tǒng) 也日漸普遍，它們操作數(shù)據(jù)的方式不盡相同，因而有必要把作業(yè)性數(shù)據(jù)庫和數(shù)據(jù)倉儲分隔開來，利用不同數(shù)據(jù)庫系統(tǒng)與技術(shù)操作，才能達系統(tǒng)最佳化。換句話說，數(shù)據(jù)倉儲應(yīng)先行建立完成， Data mining 才能有效率的進行，因為數(shù)據(jù)倉儲本身所含數(shù) 據(jù)是「干凈」 (不會有錯誤的數(shù)據(jù)參雜其中 )、完整的，而且是整合在一起的。 Data Mining 常能挖掘出超越歸納范圍的關(guān)系，但 OLAP 僅能利用人工查詢及可視化的報表來確認某些關(guān)系，是以 Data Mining 此種自動找出甚或不會被懷疑過的數(shù)據(jù)型樣與關(guān)系的特性，事實上已超越了我們經(jīng)驗、教育、想象力的限制，OLAP 可以和 Data Mining 互補，但這項特性是 Data Mining 無法被 OLAP 取代的。使用的技巧有決策樹 (decision tree)，記憶基礎(chǔ)推理 (memorybased reasoning)等。例如超市中相關(guān)之盥洗用品(牙刷、牙膏、牙線 )，放在同一間貨架上。例如，一個發(fā)行管理共同基金（ mutual funds)的企業(yè)體要發(fā)掘潛在客戶，它要能整合客戶的賬戶、人口統(tǒng)計、生活型態(tài)等數(shù)據(jù)。根據(jù)研究指出：美國婦女的視線高度是 150 公分左右，男性是 163 公分左右，而最舒適的視線角度是視線高度以下 15 度左右，所以最好的貨品陳列位置是在 130 至 135 公分之間。Data Mining 可以從現(xiàn)有客戶數(shù)據(jù)中找出他們的特征，再利用這些特征到潛在客戶數(shù)據(jù)庫里去篩選出可能成為我們客戶的名單，作為行銷人員推銷的對象。財務(wù)金融業(yè)可以利用 Data Mining 來分析市場動向，并預(yù)測個別公司的營運以及股價走向。利用資料挖采的技術(shù)，您可以在特定的客戶群中找出可能的詐欺行為，如此才能減少損失，增加利潤。 Data Mining 應(yīng)用在 CRM 的主要方式可對應(yīng)在 Gap Analysis 之三個部分：針對 Acquisition Gap，可利用 Customer Profiling 找出客戶的一些共同的特征，希望能藉此深入了解客戶，藉由 Cluster Analysis 對客戶進行分群后再透過 Pattern 企業(yè)管理資源網(wǎng) ()大量管理資料下載 Analysis 預(yù)測哪些人可能成為我們的客戶，以幫助行銷人員找到正確的行銷對象，進而降低成本，也提高行銷的成功率。個案研究現(xiàn)在已經(jīng)有相當(dāng)數(shù)量的公司安裝了數(shù)據(jù)挖采軟件，以找出那些會造成利潤差異的信息。由于土地以及擴充的成本，沒有一家公司有足夠的資源可以在擴充方面超越對手。 IBM 聲稱該公司在 1996 推出的 Intelligent Miner 能提供 Data Mining 作業(yè)所需的完整環(huán)境，提供數(shù)據(jù)準(zhǔn)備的設(shè)施，以及八種 Data Mining 技術(shù)，包括預(yù)測模型、數(shù)據(jù)分割、以及產(chǎn)品吸引力分析，當(dāng)然還有圖形化的結(jié)果顯示。如果使用傳統(tǒng)的分析方法的話，這種產(chǎn)品很快就會不賣了，可是事實上這種產(chǎn)品是相當(dāng)重要的。針對這個事實，英國 Safeway 使用另外一種工具來篩選結(jié)果，也就是將 Data Mining 的結(jié)果再做 Data Mining，以找出有顯著興趣的數(shù)據(jù)。如何從數(shù)百萬的顧客之中，找到你要維持的對象昵？ MCI 的辦法是徹底搜尋 1 億 4 千萬筆市場家庭數(shù)據(jù)，而評估每一筆數(shù)據(jù)的屬性，則高達一萬個。甚且， US West 說，他們打算精確的找出特定顧客，這些顧客不僅接受公司提供的初級服務(wù)，而且會持續(xù)使用第二條電話線路，時間久到讓公司獲有利潤。然后， PALMS 利用這個模型來搜尋數(shù)百萬筆的顧客紀(jì) 錄－數(shù)據(jù)量幾達一兆位。結(jié)果：產(chǎn)生了一組規(guī)則，這組規(guī)則可辨識出可能是最高獲利率的貸款申請。系統(tǒng)運用數(shù)百臺處理器執(zhí)行這項工作，協(xié)助 WalMart 預(yù)測特定分店中，對某一單項產(chǎn)品的需求。第二，數(shù)據(jù)企業(yè)管理資源網(wǎng) ()大量管理資料下載的特征可以幫助你做預(yù)測，例如你可以從一份郵寄名單預(yù)測出哪些客戶最可能對你的推銷做響應(yīng)，所以你可以只對特定的對象做郵購?fù)其N，而不必浪費許多印刷費郵寄費而只得到很少的回應(yīng)。這些我們用來尋找特征的已分類數(shù)據(jù)可能是來自我們的現(xiàn)有的歷史性數(shù)據(jù)，或是將一個完整數(shù)據(jù)庫做部份取樣，再經(jīng)由實際的運作來測試；譬如利用一個大的郵寄對象數(shù)據(jù)庫的部份取樣來建立一個Classification Model，以后再利用這個 Model 來對數(shù)據(jù)庫的其它數(shù)據(jù)或是新的數(shù)據(jù)作預(yù)測。給這個網(wǎng)絡(luò)， 39。訓(xùn)練 39。 Decision Tree 則是利用一系列的規(guī)則來得到一個類別或數(shù)值。收入高于 4000039。 Decision Tree現(xiàn)在相當(dāng)普遍，因為它所做的預(yù)測相當(dāng)正確，而且又比 Neural Net 容易了解。所以你必須要有一個分析師來解讀這些分類的意義。所以你可能會需要用到許多不同的工具以及技術(shù)從數(shù)據(jù)中找到最佳的模式。 tree Miner Neural Networks 類神經(jīng)網(wǎng)絡(luò)技術(shù)的目標(biāo)是發(fā)現(xiàn)與預(yù)測數(shù)據(jù)的關(guān)系，它與傳統(tǒng)統(tǒng)計方法的區(qū)別是，它可以訓(xùn)練學(xué)習(xí)發(fā)現(xiàn)的關(guān)系，并且可適用于線性與非線性的情況，并可以彌補數(shù)據(jù)質(zhì)量較差的情企業(yè)管理資源網(wǎng) ()大量管理資料下載況，而處理出品質(zhì)不錯的信息來。遺傳算法是應(yīng)用算法的適應(yīng)函數(shù)來決定搜尋的方向，再運用一些擬生物化的人工運算過程，例如選擇 (selection)、復(fù)制 (reproduction)、交配 (crossover)和突變（ mutation）等進行演化，周而復(fù)始地進行一代一代的演化，以求得一個最佳的結(jié)果。」這仍屬于其初期階段的技術(shù)，最常傳回的是薄片般的信息黃金，而非金塊。這就需要一套完整的數(shù)據(jù)庫管理工具才能天衣無縫地支持這種數(shù)據(jù)庫階層組織。雖然在這幾百萬人中，并不是每一個人都會進行 Data Mining，但是他們至少要能使用 Data Mining 所萃取出來的信息。 these tools are not “owned” by statisticians. ?Financial/service applications are being more important than manufacturing and Ramp。總之， Data Mining 是一個浮現(xiàn)中的新領(lǐng)域?！顾㈩A(yù)測使用工具來篩檢與分析 Data Mining 結(jié)果的情形（如英國Safeway 的情形）會越來越普遍。然而，如果工具和數(shù)據(jù)未能適當(dāng)搭配，程序可能會提出一些沒有用的觀察結(jié)果，譬如年紀(jì)大的人不會買饒舌歌之類的唱片，或忽略那些真正重要的訊息。遺傳算法實際運作，非本文主題，然可斷定它必然成為 Data Mining 的分析利器。遺傳算法是一種全新的最佳化空間搜尋法，其最初概念是由 John Holland于 1975 年提出，其主要目的如下：「物競天擇、適者生存」的演化過程。 Edition Diamond Insight Fuzzy Query and Analysis 模糊理論積極的承認人主觀性問題的存在，進而以模糊集合來處理不易量化問題，故能找出意想不到的信息。） Discovery Sequence Discovery 與 Association 關(guān)系很密切，所不同的是 Sequence Discovery中相關(guān)的 Item 是以時間區(qū)分開來（例如：如果做了 X 手術(shù)，則 Y 病菌在手術(shù)后感染的機率是 45%。 TimeSeries Forcasting 的不同點在于它所分析的數(shù)值都與時間有關(guān)。收入低于 4000039。風(fēng)險低 39。曖昧不明 39。訓(xùn)練法 39。 Neural Nets 使用許多參數(shù)（每個參數(shù)代表 Net 上的一個 Node）來建立一個模式，這個模式接受一組輸入值來預(yù)測出一個連續(xù)值或分類值。 Classification 是根據(jù)一些變量的數(shù)值做計算，再依照結(jié)果作分類。但此方面國內(nèi)才剛起步尚未有成功的例子傳出；倒是賣工具的 SAS,SPSS,NCR,STATISTICA,ORACLE?? 等軟件廠商有不錯的業(yè)績。從 1980 年代起，WalMart 每晚從各分店收集了大量的收款機資料。 PALMS 甚至能夠計算出 DM 活動什么時候會達到高峰，讓電話公司在回復(fù)率降低前，先行減少 DM郵件。 PALMS 的執(zhí)行平白是威力強大的 NCR平行處理計算機。 MCI 的信息主管指出，沒有數(shù)據(jù)挖采程序的話，不可能開發(fā)出任何統(tǒng)計數(shù)據(jù)文件。換句話說，實際的「 Data Mining」只是較大規(guī)模的商業(yè)智慧過程中的一小部份而已?！? 還有，英國 Safeway 在了解客戶每次采購時會購買哪些產(chǎn)品以后，就可以利用 Data Mining 中的 Sequence Discovery 的功能，以偵測出長期的經(jīng)常購買行為。然后再用 Association 的技術(shù)來比較這些數(shù)據(jù)集合（這些數(shù)據(jù)包括交易數(shù)據(jù)以及產(chǎn)品數(shù)據(jù)），然后將列出產(chǎn)品吸引力的清單（例如「在購買烤肉炭的客戶中， 75%也會購買打火機燃料」）?！箵Q句話說，英國 Safeway 想要知道哪些種類的客戶買了哪些種類的產(chǎn)品以及購買的頻率，以建立「個人導(dǎo)向的市場」。英國 Safeway 的年銷售量超過一百億美金，旗下的員工接近七萬名，是英國第三大的連鎖超級市場，提供的服務(wù)種類則達三十四種。 CRM 不是設(shè)一個（ 080）客服專線就算了，更不僅只是把一堆客戶基本數(shù)據(jù)輸入計算機就夠，完整的 CRM 運作機制在相關(guān)的硬軟件系統(tǒng)能健全的支持之前，有太多的數(shù)據(jù)準(zhǔn)備工作與分析需要推動。整體而言， Web Mining 具有以下特性： 1. 資料收集容易且不引人注意，所謂凡走過必留下痕跡，當(dāng)訪客進入網(wǎng)站后的一切瀏覽行為與歷程都是可以立即被紀(jì)錄的； 2. 以交互式個人化服務(wù)為終極目標(biāo)，除了因應(yīng)不同訪客呈現(xiàn)專屬設(shè)計的網(wǎng)頁之外，不同的訪客也會有不同的服務(wù)； 3. 可整合外部來源數(shù)據(jù)讓分析功能發(fā)揮地更深更廣，除了 log file、 cookies、會員填表數(shù)據(jù)、在線調(diào)查數(shù)據(jù)、在線交易數(shù)據(jù)等由網(wǎng)絡(luò)直接取得的資源外，結(jié)合實體世界累積時間更久、范圍更廣的資源，將使分析的結(jié)果更準(zhǔn)確也更深入。數(shù)據(jù)挖采中的前后行為分析（ Sequential Pattern Detection）功能讓您分析那些已經(jīng)轉(zhuǎn)向您的競爭對手的客戶在轉(zhuǎn)向期間的行為，如此您就可以在現(xiàn)有客戶中找到可能轉(zhuǎn)向的客戶，想辦法留住他們。企業(yè)管理資源網(wǎng) ()大量管理資料下載客戶關(guān)系的管理是 Data Mining 的另一個常見的應(yīng)用方式。因此，我們要體會一些潛在的因素，如數(shù)據(jù)取舍、實體關(guān)系性、數(shù)量多寡、復(fù)雜性、數(shù)據(jù)質(zhì)量、可取得性、變遷、專家意見等因素，才能做好資料挖掘工作。例如，行銷、財務(wù)、銀行、制造廠、通訊等。使用的技巧包括 kmeans 法及 agglomeration 法。預(yù)測企業(yè)管理資源網(wǎng) ()大量管理資料下載根據(jù)對象屬性之過去觀察值來推估該屬性未來之值。總而言之， Data Mining， Data warehouse， KDD 三者的關(guān)系可以如此厘清，即 Data warehouse 是一個經(jīng)過處理、整合之?dāng)?shù)據(jù)庫，而 KDD 是一種知識發(fā)現(xiàn)的企業(yè)管理資源網(wǎng) ()大量管理資料下載一連串程序， Data Mining 只是 KDD 的一個重要程序。」事實上兩者間是截然不同的，主要差異在于 Data Mining 用在產(chǎn)生假設(shè)， OLAP則用于查

點擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

數(shù)據(jù)挖掘與統(tǒng)計工作報告-文庫吧在線文庫

大數(shù)據(jù)時代統(tǒng)計工作問題及對策-資料下載頁

統(tǒng)計工作-資料下載頁

財務(wù)統(tǒng)計工作個人總結(jié)與財務(wù)統(tǒng)計工作總結(jié)范文匯編doc-資料下載頁

統(tǒng)計工作總結(jié)(多篇范文)與統(tǒng)計工作總結(jié)匯編doc-資料下載頁

7醫(yī)院數(shù)據(jù)統(tǒng)計工作質(zhì)量探討-資料下載頁

統(tǒng)計工作總結(jié)與工作計劃與統(tǒng)計工作總結(jié)八篇匯編doc-資料下載頁

2018統(tǒng)計工作計劃例文與2018統(tǒng)計工作計劃范例匯編doc-資料下載頁

統(tǒng)計工作-資料下載頁

大數(shù)據(jù)在企業(yè)統(tǒng)計工作的運用-資料下載頁

2018統(tǒng)計工作計劃1與2018統(tǒng)計工作計劃2匯編doc-資料下載頁

鄉(xiāng)鎮(zhèn)基層統(tǒng)計工作報告與鄉(xiāng)鎮(zhèn)基層責(zé)任述職述廉匯編-資料下載頁

統(tǒng)計工作總結(jié)范文與統(tǒng)計工作總結(jié)范文八篇匯編doc-資料下載頁

鄉(xiāng)鎮(zhèn)統(tǒng)計工作總結(jié)與鄉(xiāng)鎮(zhèn)統(tǒng)計工作總結(jié)4篇匯編-資料下載頁

統(tǒng)計工作總結(jié)模板4篇與統(tǒng)計工作總結(jié)精選匯編doc-資料下載頁

統(tǒng)計工作總結(jié)4篇與統(tǒng)計工作總結(jié)八篇匯編doc-資料下載頁

數(shù)據(jù)挖掘與統(tǒng)計工作報告(已改無錯字)

數(shù)據(jù)挖掘與統(tǒng)計工作報告-資料下載頁

數(shù)據(jù)挖掘與統(tǒng)計工作報告(參考版)

數(shù)據(jù)挖掘與統(tǒng)計工作報告-文庫吧資料

數(shù)據(jù)挖掘與統(tǒng)計工作報告-展示頁