freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫和數(shù)據(jù)挖掘同濟(jì)大學(xué)劉仲英教授(編輯修改稿)

2025-06-09 01:59 本頁面
 

【文章內(nèi)容簡介】 province_or_state country ?從 1980年代末的初露頭角到 1990年代末的廣泛應(yīng)用,以數(shù)據(jù)挖掘?yàn)楹诵牡?商業(yè)智能 (BI)已經(jīng)成為 IT及其它行業(yè)中的一類新星。 ?當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在 電信業(yè) (客戶分析), 零售業(yè) (銷售預(yù)測), 銀行業(yè) (客戶欺詐) ,電力 (客戶呼叫), 生物 (基因), 天文(星體分類), 化工 , 醫(yī)藥 等方面。 ?當(dāng)前數(shù)據(jù)挖掘能解決的典型問題: 數(shù)據(jù)庫營銷( Database Marketing); 客戶群體劃分( Customer Segmentation amp。 Classification); 背景分析( Profile Analysis); 交叉銷售( Crossselling)等市場分析行為。 客戶流失性分析 (Churn Analysis); 客戶信用記分 (Credit Scoring); 欺詐發(fā)現(xiàn) (Fraud Detection)等; 在許多領(lǐng)域得到了成功的應(yīng)用。 什么是數(shù)據(jù)挖掘? ?數(shù)據(jù)挖掘 DM(Data Mining)是 從大量數(shù)據(jù)中挖掘出隱含的、先前未知的、對決策有潛在價(jià)值的知識和規(guī)則 。這些規(guī)則蘊(yùn)含了數(shù)據(jù)庫中一組對象之間的特定關(guān)系,揭示出一些有用的信息,為經(jīng)營決策、市場策劃、金融預(yù)測等提供依據(jù)。 ?通過數(shù)據(jù)挖掘,有價(jià)值的知識、規(guī)則或高層次的信息能就從數(shù)據(jù)庫的相關(guān)數(shù)據(jù)集合中抽取出來,并從不同角度顯示,從而使大型數(shù)據(jù)庫作為一個(gè)豐富可靠的資源為知識管理服務(wù)。 數(shù)據(jù)挖掘 在一些文獻(xiàn)中也有其他名稱,如數(shù)據(jù)開采、知識挖掘、知識抽取、知識考察等。 數(shù)據(jù)挖掘是知識發(fā)現(xiàn) KDD的一個(gè) 關(guān)鍵步驟 ,它包括特定的數(shù)據(jù)挖掘算法,具有可接受的計(jì)算效率,生成特殊的模式。 KDD是利用數(shù)據(jù)挖掘算法,按指定方式和閾值抽取有價(jià)值的知識,包括數(shù)據(jù)挖掘前對數(shù)據(jù)的預(yù)處理、抽樣及轉(zhuǎn)換和數(shù)據(jù)挖掘后對知識的評價(jià)解釋過程。 數(shù)據(jù)挖掘的特點(diǎn) ? 所處理的數(shù)據(jù)規(guī)模巨大 。 ? 尋找決策所需的信息 。 ? 數(shù)據(jù)挖掘既要發(fā)現(xiàn)潛在規(guī)則,還要管理和維護(hù)規(guī)則。 ? 數(shù)據(jù)挖掘中規(guī)則的發(fā)現(xiàn)主要基于大樣本的統(tǒng)計(jì)規(guī)律 ,發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù),當(dāng)達(dá)到某一 閾值 時(shí)便可認(rèn)為有此規(guī)律。 數(shù)據(jù)挖掘的分類 根據(jù)所開采的數(shù)據(jù)庫類型、發(fā)現(xiàn)的知識類型、采用的技術(shù)類型,數(shù)據(jù)挖掘有不同的分類方法。 (1) 按數(shù)據(jù)庫類型分類 ?從關(guān)系數(shù)據(jù)庫中發(fā)現(xiàn)知識; ?從面向?qū)ο髷?shù)據(jù)庫中發(fā)現(xiàn)知識; ?從多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫、歷史數(shù)據(jù)庫、Web數(shù)據(jù)庫中發(fā)現(xiàn)知識。 (2) 按挖掘的知識類型分類 按挖掘的知識類型 可分為關(guān)聯(lián)規(guī)則、特征規(guī)則、分類規(guī)則、偏差規(guī)則、聚集規(guī)則、判別式規(guī)則及時(shí)序規(guī)則等。 按知識的抽象層次 可分為歸納知識、原始級知識、多層次知識。一個(gè)靈活的規(guī)則挖掘系統(tǒng)能夠在多個(gè)層次上發(fā)現(xiàn)知識。 (3) 按利用的技術(shù)類型分類 ?根據(jù)開采方法 分為自發(fā)知識開采、數(shù)據(jù)驅(qū)動開采、查詢驅(qū)動開采和交互式數(shù)據(jù)開采。 ?根據(jù)開采途徑 分為基于歸納的開采、基于模式的開采、基于統(tǒng)計(jì)和數(shù)學(xué)理論的開采及集成開采等。 (4) 按挖掘的深度分類 ?在 較淺的層次 上,利用現(xiàn)有數(shù)據(jù)庫管理系統(tǒng)的查詢 /檢索及報(bào)表功能,與多維分析、統(tǒng)計(jì)分析方法相結(jié)合,進(jìn)行 OLAP,從而得出可供決策參考的統(tǒng)計(jì)分析數(shù)據(jù)。 ?在 深層次 上,從數(shù)據(jù)庫中發(fā)現(xiàn)前所未知的、隱含的知識。 ? OLAP的出現(xiàn)早于數(shù)據(jù)挖掘,兩者都是從數(shù)據(jù)庫中抽取有用信息的方法,就決策支持的需要而言兩者可以起到相輔相承的作用。 OLAP可以作為一種廣義的數(shù)據(jù)挖掘方法,它旨在簡化和支持聯(lián)機(jī)分析,而數(shù)據(jù)挖掘的目的是使這一過程盡可能自動化。 ?數(shù)據(jù)挖掘有兩種功能 : (1)預(yù)測 /驗(yàn)證功能 。用數(shù)據(jù)庫的若干已知字段預(yù)測或驗(yàn)證其他未知字段值; (2)描述功能 指找到描述數(shù)據(jù)的可理解模式。 ?數(shù)據(jù)挖掘的對象是某一專業(yè)領(lǐng)域中積累的數(shù)據(jù);挖掘過程是一個(gè)人機(jī)交互、多次反復(fù)的過程;挖掘的結(jié)果要應(yīng)用于該專業(yè)。因此數(shù)據(jù)挖掘的整個(gè)過程都離不開應(yīng)用領(lǐng)域的專業(yè)知識。 ?“ Business First, technique second”是數(shù)據(jù)挖掘的特點(diǎn)。因此學(xué)習(xí)數(shù)據(jù)挖掘不意味著丟棄原有專業(yè)知識和經(jīng)驗(yàn)。相反,有其它行業(yè)背景是從事數(shù)據(jù)挖掘的一大優(yōu)勢。 ?如有銷售,財(cái)務(wù),機(jī)械,制造, call center等工作經(jīng)驗(yàn)的 ,通過學(xué)習(xí)數(shù)據(jù)挖掘,可以提升個(gè)人職業(yè)層次,在不改變原專業(yè)的情況下,從原來的事務(wù)型角色向分析型角色轉(zhuǎn)變。 ?如果你訪問著名的亞馬遜網(wǎng)上書店(),會發(fā)現(xiàn)當(dāng)你選中一本書后,會出現(xiàn)相關(guān)的推薦書目“ Customers who bought this book also bought”,這背后就是數(shù)據(jù)挖掘技術(shù)在發(fā)揮作用。 數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的聯(lián)系 ? 知識發(fā)現(xiàn) KDD (knowledge discovery)是指識別出存在于數(shù)據(jù)庫中有效的、新穎的、具有潛在效用的、最終可理解的、模式的、非平凡過程。 ? KDD的整個(gè)過程包括在指定的數(shù)據(jù)庫中用數(shù)據(jù)挖掘算法提取模型,以及圍繞數(shù)據(jù)挖掘進(jìn)行的預(yù)處理和結(jié)果表達(dá)等一系列的計(jì)算步驟。盡管數(shù)據(jù)挖掘是整個(gè)過程的中心,但它通常只占整個(gè)過程 15%~ 25%的工作量。 ?知識發(fā)現(xiàn) 是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部過程,而數(shù)據(jù)挖掘 則是此全過程的一個(gè)特定的關(guān)鍵步驟 KDD的步驟: 1 熟悉應(yīng)用領(lǐng)域、背景知識及用戶的 KDD任務(wù)性質(zhì); 2 數(shù)據(jù)的選擇 : 確定與發(fā)現(xiàn)任務(wù)相關(guān)的數(shù)據(jù)集合; 3 數(shù)據(jù)清理和預(yù)處理,包括除去錯誤和冗余數(shù)據(jù)、處理丟失數(shù)據(jù)、更新數(shù)據(jù)和時(shí)序信息并將其準(zhǔn)備成數(shù)據(jù)挖掘工具所需的表達(dá)式; 4 數(shù)據(jù)縮減和投影,尋找依賴于發(fā)現(xiàn)目標(biāo)的、表達(dá)數(shù)據(jù)的有用特征, 通過降低維數(shù)和數(shù)據(jù)轉(zhuǎn)換 以縮減數(shù)據(jù)規(guī)模; 降低數(shù)據(jù)復(fù)雜性; 5 確定 KDD目標(biāo),選擇合適的算法如聚集、分類、線性回歸等; 6 選擇數(shù)據(jù)挖掘算法,選擇適當(dāng)?shù)哪P秃蛥?shù); 7 執(zhí)行數(shù)據(jù)挖掘過程,發(fā)現(xiàn)模式并表達(dá)成易理解的 形式如分類規(guī)則等; 8 評價(jià)和解釋發(fā)現(xiàn)的模式,必要時(shí)反復(fù)執(zhí)行步驟 1到 7; 9 將模式提交給用戶或應(yīng)用到系統(tǒng)中。 KDD整個(gè)過程是一個(gè)以知識工作者為中心、人機(jī)交互的探索過程 。 1 生物醫(yī)學(xué)和 DNA數(shù)據(jù)分析的數(shù)據(jù)挖掘 人類有約 10萬個(gè)基因。一個(gè)基因通常由成百個(gè)核苷按一定次序組織而成。核苷按不同的次序和序列可以形成不同的基因,幾乎是不計(jì)其數(shù)。 具有挑戰(zhàn)性的問題是從中找出導(dǎo)致各種疾病的 特定基因序列模式 。 由于在數(shù)據(jù)挖掘中己經(jīng)有許多有意義的序列模式分析和相似檢索技術(shù),因此數(shù)據(jù)挖掘成為 DNA分析中的強(qiáng)有力工具 2 針對金融數(shù)據(jù)分析的數(shù)據(jù)挖掘 (1) 為銀行和金融數(shù)據(jù)構(gòu)造其數(shù)據(jù)倉庫:多維數(shù)據(jù)分析用于分析這些數(shù)據(jù)的一般特性。例如,人們可能希望按月,按地區(qū),按部門,以及按其他因素,查看負(fù)債和收入的變化情況,同時(shí)希望能提供最大、最小、總和、平均和其他統(tǒng)計(jì)信息。 數(shù)據(jù)倉庫,數(shù)據(jù)立方體,多特征和發(fā)現(xiàn)驅(qū)動數(shù)據(jù)立方體,特征和比較分析,以及孤立點(diǎn)分析等,都會在金融數(shù)據(jù)分析和挖掘中發(fā)揮重要作用。 (2)貸款償還預(yù)測和客戶信用政策分析 : 有很多因素會對貸款償還效能和客戶信用等級計(jì)算產(chǎn)生不同程度的影響。 數(shù)據(jù)挖掘的方法,如特征選擇和屬性相關(guān)性計(jì)算,有助于識別重要因素,剔除非相關(guān)因素。例如,與貸款償還風(fēng)險(xiǎn)相關(guān)的因素包括貸款率,貸款期限,負(fù)債率,收入比率,客戶收入水平,受教育水平,居住地區(qū),信用歷史,等等。 分析客戶償還的歷史信息 ,可以發(fā)現(xiàn), 償還與收入比率可能是主導(dǎo)因素 ,而受教育水平和負(fù)債率則不是。銀行于是可以據(jù)此調(diào)整貸款發(fā)放政策,以便將貸款發(fā)放給那些以前曾被拒絕,但根據(jù)關(guān)鍵因素分析,其基本信息顯示是相對低風(fēng)險(xiǎn)的申請。 (3)對目標(biāo)市場客戶的分類與聚類 : 分類與聚類的方法可用于用戶群體的識別和目標(biāo)市場分析。例如,通過多維聚類分析,可以 將具有相同儲蓄和貸款償還行為的客戶分為一組 。有效的聚類和協(xié)同過濾方法有助于識別客戶組,將新客戶關(guān)聯(lián)到適合的客戶組,以及推動目標(biāo)市場。 (4) 金融犯罪的偵破 : 把多個(gè)數(shù)據(jù)庫的信息 (如銀行交易數(shù)據(jù)庫、聯(lián)邦或州的犯罪歷史數(shù)據(jù)庫等 )集成起來。 然后可以采用多種數(shù)據(jù)分析工具來找出異常模式,如在某段時(shí)間內(nèi),通過某一組內(nèi)發(fā)生大量現(xiàn)金流量,等等。這些工具可以識別出一些重要的活動關(guān)系和模式,有助于調(diào)查人員聚焦可疑線索,做進(jìn)一步的處理。 有用的工具包括 : 數(shù)據(jù)可視化工具 (用圖形方式按時(shí)間和一定人群顯示交易活動 )。 鏈接分析工具 (識別不同人和活動之間的聯(lián)系 ), 分類工具 (濾掉不相關(guān)的屬性,對高度相關(guān)屬性排級 ); 聚類分析工具 (將不同案例分組 ); 孤立點(diǎn)分析工具 (探測異常資金量的轉(zhuǎn)移或其他行為 ); 序列模式分析工具 (分析異常訪問模式的特征 )。 ?在傳統(tǒng)的決策支持系統(tǒng)中,數(shù)據(jù)庫、模型庫和知識庫往往被獨(dú)立地設(shè)計(jì)和實(shí)現(xiàn),因而缺乏內(nèi)在的統(tǒng)一性。 ?數(shù)據(jù)倉庫、聯(lián)機(jī)分析和數(shù)據(jù)挖掘組成的新的決策支持系統(tǒng)構(gòu)架解決了決策支持系統(tǒng)數(shù)據(jù)庫內(nèi)數(shù)據(jù)的不一致問題。 ?由于內(nèi)在的統(tǒng)一性,這種新結(jié)構(gòu)很好地解決了相互間的銜接問題,實(shí)現(xiàn)了設(shè)計(jì)觀念從處理驅(qū)動到數(shù)據(jù)驅(qū)動的轉(zhuǎn)變; ?從而使信息的使用重點(diǎn)將逐步從支持面向操作層的聯(lián)機(jī)事務(wù)處理、中間管理控制層的管理信息系統(tǒng) 提高到數(shù)據(jù)模式分析,高層的決策支持和分析預(yù)測上來 。 企業(yè)知識管理的成功案例: SPSS在英國電信的應(yīng)用 英國電信面臨問題: ?為了從市場營銷預(yù)算中獲得最大的價(jià)值,英國電信需要建立模型來確定潛在客戶的購買傾向和他們變?yōu)橛脩糁罂赡艿膬r(jià)值。 ?建立精確的客戶特征以后,英國電信打算開發(fā)針對于特定客戶群的產(chǎn)品 。 ?預(yù)期結(jié)果 是:更好的營銷活動回應(yīng)率,增加產(chǎn)品收入,并取得更大的市場份額。 ?英國電信選用了 SPSS的數(shù)據(jù)挖掘產(chǎn)品Clementine,來為其“商業(yè)高速公路”活動分析數(shù)據(jù)和建立探索模型,“商業(yè)高速公路”的目標(biāo)為小型商業(yè)客戶服務(wù)。 ?如今,英國電信更好地了解了這些客戶和他們在電信市場的行為特征。英國電信將繼續(xù)使用 Clementine快速可視化的建模環(huán)境為其未來的營銷活動指引道路。 ?結(jié)果:向銷售人員和營銷活動提供了“最佳客戶”清單直郵活動回應(yīng)率提高了 100% ?曾經(jīng)是平安無事的電信行業(yè)現(xiàn)在已充滿了火藥味。 ?以前是壟斷寡頭的英國電信,現(xiàn)在仍然是英國本地電話、國內(nèi)長途、國際長途和數(shù)據(jù)服務(wù)的領(lǐng)導(dǎo)者,年銷售額 290億美元,但同時(shí)也面臨著160家電信公司的競爭。 ?為保持其原有客戶 , 獲取新的客戶并最大化銷售 ,英國電信需要準(zhǔn)確知道哪些人在購買它的產(chǎn)品和服務(wù)。 ?為了 識別這些客戶 ,英國電信設(shè)立了客戶和營銷活動分析小組,由高級咨詢師領(lǐng)導(dǎo),隸屬于商業(yè)聯(lián)系部門。 ?這個(gè)小組的第一個(gè)任務(wù)是為英國電信的“商業(yè)高速公路”產(chǎn)品建立客戶特征模型,“商業(yè)高速公路”專門服務(wù)于一條線有三個(gè)電話號碼(一個(gè)是標(biāo)準(zhǔn)的,兩個(gè)是數(shù)字的)的小型商業(yè)客戶。 1998年
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1