freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用v-文庫吧

2025-04-24 08:48 本頁面


【正文】 ),可以使用單一的數(shù)據(jù)粒度。 數(shù)據(jù)倉庫設(shè)計 ( 2)數(shù)據(jù)倉庫模型的設(shè)計 —— OLAP模型的設(shè)計 針對每一個主題確定其需要的維度和度量變量,然后為每一個主題定義關(guān)系模式,從而形成一個星型結(jié)構(gòu),在這個星型結(jié)構(gòu)的基礎(chǔ)上,可以生成多維數(shù)據(jù)表,建立多維數(shù)據(jù)庫。 以客戶信息主題為例,客戶信息主題的維度設(shè)計書如下: 數(shù)據(jù)倉庫設(shè)計 數(shù)據(jù)提?。D(zhuǎn)換-加載隨著應(yīng)用和系統(tǒng)環(huán)境的不同而具有不同的特點(diǎn)。一般而言,總包括下面的處理過程: 正式開始作業(yè)之前的準(zhǔn)備工作,包括清空工作區(qū)、檢查過渡/準(zhǔn)備區(qū)。如果需要直接訪問操作型數(shù)據(jù)源系統(tǒng)時,要檢查遠(yuǎn)程數(shù)據(jù)庫服務(wù)器狀態(tài),并核對目標(biāo)區(qū)數(shù)據(jù)加載狀態(tài),以核算出加載作業(yè)的參數(shù),如加載數(shù)據(jù)的時間間隔和范圍( 24小時的數(shù)據(jù),還是前 3天的數(shù)據(jù))。 ETL設(shè)計 ,所以要先完成對維表的加載,生成維表主鍵,并作為以后加載事實(shí)表所需要的外鍵。在加載維表中,有時要處理好緩慢變化的維的問題,并可能涉及到版號的處理問題。 ETL設(shè)計 d. 加載事實(shí)表 這中間也涉及到鍵查找的問題,即從有關(guān)維表中找到相應(yīng)的主鍵,并以此作事實(shí)表的外鍵。 ,再對總計方陣體系進(jìn)行刷新,以保障總計方陣與它的基礎(chǔ)數(shù)據(jù)同步。 系統(tǒng),用以監(jiān)測和協(xié)調(diào)整個加載的過程。 ETL設(shè)計 ?加載數(shù)據(jù)到數(shù)據(jù)倉庫的具體步驟 設(shè)定數(shù)據(jù)庫和數(shù)據(jù)源 建立多維數(shù)據(jù)集 設(shè)計存儲和處理多維數(shù)據(jù)集 為多維數(shù)據(jù)集創(chuàng)立分區(qū) 數(shù)據(jù)倉庫實(shí)現(xiàn) 企業(yè)級數(shù)據(jù)倉庫的實(shí)現(xiàn)途徑 ?從建造某個部門特定的數(shù)據(jù)集市開始,逐步擴(kuò)充數(shù)據(jù)倉庫所包含的主題和范圍,最后形成一個能夠完全反映企業(yè)全貌的企業(yè)級數(shù)據(jù)倉庫; ?從一開始就從企業(yè)的整體來考慮數(shù)據(jù)倉庫的主題和實(shí)施。 數(shù)據(jù)倉庫實(shí)現(xiàn) 第一種方法類似于軟件工程中 “ 自底向上 ” 的方法,投資少、周期短且易于見到成果,但由于該設(shè)計開始時是以特定的部門級主題為框架的,向其他的主題和部門擴(kuò)充往往比較困難; 第二種方法與第一種相反,即 “ 自頂向下 ” 的方法,投資大、周期長。實(shí)際中大多采用第一種方法。 數(shù)據(jù)倉庫實(shí)現(xiàn) 3 數(shù)據(jù)倉庫實(shí)例 實(shí)例一 實(shí)例二 4 OLAP和 OLAM OLAP OLAM ? OLAP定義 ? 60年代,關(guān)系數(shù)據(jù)庫之父 ,促進(jìn)了聯(lián)機(jī)事務(wù)處理 (OLTP)的發(fā)展 (數(shù)據(jù)以表格的形式而非文件方式存儲 )。 ? 1993年, OLAP概念,認(rèn)為 OLTP已不能滿足終端客戶對數(shù)據(jù)庫查詢分析的需要, SQL對大型數(shù)據(jù)庫的簡單查詢也不能滿足終端客戶分析的要求??蛻舻臎Q策分析需要對關(guān)系數(shù)據(jù)庫進(jìn)行大量計算才能獲得結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此, 多維分析的概念,即 OLAP。 OLAP ? OLAP( OnLine Analysis Processing)定義 是數(shù)據(jù)倉庫上的分析展示工具,它建立在數(shù)據(jù)多維視圖的基礎(chǔ)上。 ? OLAP的主要特點(diǎn) 一是在線性 (On Line),體現(xiàn)為對用戶請求的快速響應(yīng)和交互式操作; 二是多維分析 (Multi_Analysis),這是 OLAP技術(shù)的核心所在。 OLAP ? 根據(jù)對數(shù)據(jù)的組織方式的不同, OLAP分為兩種 : 基于多維數(shù)據(jù)庫的 OLAP(MDOLAP) 基于關(guān)系數(shù)據(jù)庫的 OLAP(ROLAP) 前者響應(yīng)速度快、執(zhí)行效率高,但源于結(jié)構(gòu)的局限 ,靈活性不高。 與之相比,后者由于建立在大量現(xiàn)有數(shù)據(jù)庫(數(shù)據(jù)倉庫 )的基礎(chǔ)上,靈活性、擴(kuò)展性要高的多,并且支持大數(shù)據(jù)量和較多維數(shù)的能力也要強(qiáng)于前者。因此,雖然在響應(yīng)速度、執(zhí)行效率上差一點(diǎn),仍然得到了廣泛應(yīng)用?,F(xiàn)有的 OLAP工具大多基于后者。 OLAP 將 OLAP與數(shù)據(jù)挖掘結(jié)合起來 , 發(fā)展出一種為數(shù)據(jù)挖掘服務(wù)的具有新型 OLAP的數(shù)據(jù)倉庫 , 將更能適應(yīng)實(shí)際的需要 。 OLAM( On Line Analytical Mining,聯(lián)機(jī)分析挖掘)正是這種結(jié)合的產(chǎn)物。 OLAM 5 數(shù)據(jù)挖掘基礎(chǔ) 概述 實(shí)現(xiàn) 工具 二十世紀(jì)末以來,全球信息量以驚人的速度急劇增長 —據(jù)估計,每二十個月將增加一倍。許多組織機(jī)構(gòu)的 IT系統(tǒng)中都收集了大量的數(shù)據(jù)(信息)。目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力。 概述 數(shù)據(jù)挖掘是八十年代投資 AI研究項(xiàng)目失敗后,AI轉(zhuǎn)入實(shí)際應(yīng)用時提出的。它是一個新興的,面向商業(yè)應(yīng)用的 AI研究。 1989年 8月,在美國底特律召開的第 11屆國際人工智能聯(lián)合會議的專題討論會上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn)( Knowledge Discovery in Database, KDD)這一術(shù)語。 隨后,在 1991年、 1993年和 1994年都舉行 KDD專題討論會,匯集來自各個領(lǐng)域的研究人員和應(yīng)用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計、海量數(shù)據(jù)分析算法、知識表示、知識運(yùn)用等問題。最初,數(shù)據(jù)挖掘是作為 KDD中利用算法處理數(shù)據(jù)的一個步驟,其后逐漸演變成 KDD的同義詞。 概述 現(xiàn)在, 人們往往不加區(qū)別地使用兩者。 KDD常常被稱為數(shù)據(jù)挖掘( Data Mining),實(shí)際兩者是有區(qū)別的。一般將 KDD中進(jìn)行知識學(xué)習(xí)的階段稱為數(shù)據(jù)挖掘( Data Mining),數(shù)據(jù)挖掘是 KDD中一個非常重要的處理步驟。 數(shù)據(jù)挖掘是近年來出現(xiàn)的客戶關(guān)系管理( Customer Relationship Management, CRM)、商業(yè)智能( Business Intelligence, BI)等熱點(diǎn)領(lǐng)域的核心技術(shù)之一。 概述 ? 數(shù)據(jù)準(zhǔn)備 KDD的處理對象是大量的數(shù)據(jù) , 這些數(shù)據(jù)一般存儲在數(shù)據(jù)庫系統(tǒng)中 , 是長期積累的結(jié)果 。 但往往不合適直接在這些數(shù)據(jù)上進(jìn)行知識挖掘 , 需要做一些準(zhǔn)備工作 , 也就數(shù)據(jù)的預(yù)處理 。 數(shù)據(jù)預(yù)處理包括數(shù)據(jù)的選擇 ( 選擇相關(guān)數(shù)據(jù) ) 、 凈化( 消除噪音 、 冗余數(shù)據(jù) ) 、 推測 ( 推算缺值數(shù)據(jù) ) 、 轉(zhuǎn)換 ( 離散型數(shù)據(jù)與連續(xù)型數(shù)據(jù)之間的轉(zhuǎn)換 ) 、 數(shù)據(jù)縮減 ( 減少數(shù)據(jù)量 ) 等 。 數(shù)據(jù)準(zhǔn)備是 KDD的第一個步驟,也是比較重要的一個步驟。數(shù)據(jù)準(zhǔn)備得好壞將直接影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。 實(shí)現(xiàn) ? 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘是最為關(guān)鍵的步驟,它根據(jù)KDD的目標(biāo),選取相應(yīng)算法的參數(shù),分析數(shù)據(jù),得到可能形成知識的模式模型。目前采用較多的技術(shù)有決策樹、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。 實(shí)現(xiàn) ? 模式的評估、解釋 通過上面步驟所得到的模式,有可能是沒有意義或沒有實(shí)用價值的,因此需要評估,確定那些是有效的、有用的模式。此外,大部分模式是用數(shù)學(xué)手段描述的表達(dá)式,很難被人理解,還需要將其解釋成可理解的方式以呈現(xiàn)給用戶。 實(shí)現(xiàn) ? 知識運(yùn)用 發(fā)現(xiàn)知識是為了運(yùn)用 , 如何使知識能被運(yùn)用也是 KDD的步驟之一 。 運(yùn)用知識有兩種方法:一種是只需看知識本身所描述的關(guān)系或結(jié)果 , 就可以對決策提供支持;另一種是要求對新的數(shù)據(jù)運(yùn)用知識 , 由此可能產(chǎn)生新的問題 , 而需要對知識做進(jìn)一步的優(yōu)化 。 KDD過程可能需要多次的循環(huán)反復(fù) , 每一個步驟一旦與預(yù)期目標(biāo)不符 , 都要回到前面的步驟 ,重新調(diào)整 , 重新執(zhí)行 。 實(shí)現(xiàn) 一般而言 , 一個企業(yè)實(shí)施數(shù)據(jù)挖掘項(xiàng)目有三種方式可供選擇: ? 購買成熟的模型 ? 購買一般性數(shù)據(jù)挖掘系統(tǒng)軟件 ? 構(gòu)建數(shù)據(jù)挖掘系統(tǒng) 實(shí)現(xiàn) 目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng) 包括: ? Enterprise Miner( SAS公司 ) ? Intelligent Miner( IBM公司 ) ? SetMiner( SGI公司 ) ? Clementine( SPSS公司 ) ? Warehouse Studio( Sybase公司) ? See5
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1