freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用v-在線瀏覽

2025-07-17 08:48本頁(yè)面
  

【正文】 主題為例,客戶信息主題的維度設(shè)計(jì)書(shū)如下: 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) 數(shù)據(jù)提?。D(zhuǎn)換-加載隨著應(yīng)用和系統(tǒng)環(huán)境的不同而具有不同的特點(diǎn)。如果需要直接訪問(wèn)操作型數(shù)據(jù)源系統(tǒng)時(shí),要檢查遠(yuǎn)程數(shù)據(jù)庫(kù)服務(wù)器狀態(tài),并核對(duì)目標(biāo)區(qū)數(shù)據(jù)加載狀態(tài),以核算出加載作業(yè)的參數(shù),如加載數(shù)據(jù)的時(shí)間間隔和范圍( 24小時(shí)的數(shù)據(jù),還是前 3天的數(shù)據(jù))。在加載維表中,有時(shí)要處理好緩慢變化的維的問(wèn)題,并可能涉及到版號(hào)的處理問(wèn)題。 ,再對(duì)總計(jì)方陣體系進(jìn)行刷新,以保障總計(jì)方陣與它的基礎(chǔ)數(shù)據(jù)同步。 ETL設(shè)計(jì) ?加載數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)的具體步驟 設(shè)定數(shù)據(jù)庫(kù)和數(shù)據(jù)源 建立多維數(shù)據(jù)集 設(shè)計(jì)存儲(chǔ)和處理多維數(shù)據(jù)集 為多維數(shù)據(jù)集創(chuàng)立分區(qū) 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn) 企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)途徑 ?從建造某個(gè)部門特定的數(shù)據(jù)集市開(kāi)始,逐步擴(kuò)充數(shù)據(jù)倉(cāng)庫(kù)所包含的主題和范圍,最后形成一個(gè)能夠完全反映企業(yè)全貌的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù); ?從一開(kāi)始就從企業(yè)的整體來(lái)考慮數(shù)據(jù)倉(cāng)庫(kù)的主題和實(shí)施。實(shí)際中大多采用第一種方法。 ? 1993年, OLAP概念,認(rèn)為 OLTP已不能滿足終端客戶對(duì)數(shù)據(jù)庫(kù)查詢分析的需要, SQL對(duì)大型數(shù)據(jù)庫(kù)的簡(jiǎn)單查詢也不能滿足終端客戶分析的要求。因此, 多維分析的概念,即 OLAP。 ? OLAP的主要特點(diǎn) 一是在線性 (On Line),體現(xiàn)為對(duì)用戶請(qǐng)求的快速響應(yīng)和交互式操作; 二是多維分析 (Multi_Analysis),這是 OLAP技術(shù)的核心所在。 與之相比,后者由于建立在大量現(xiàn)有數(shù)據(jù)庫(kù)(數(shù)據(jù)倉(cāng)庫(kù) )的基礎(chǔ)上,靈活性、擴(kuò)展性要高的多,并且支持大數(shù)據(jù)量和較多維數(shù)的能力也要強(qiáng)于前者。現(xiàn)有的 OLAP工具大多基于后者。 OLAM( On Line Analytical Mining,聯(lián)機(jī)分析挖掘)正是這種結(jié)合的產(chǎn)物。許多組織機(jī)構(gòu)的 IT系統(tǒng)中都收集了大量的數(shù)據(jù)(信息)。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識(shí),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力。它是一個(gè)新興的,面向商業(yè)應(yīng)用的 AI研究。 隨后,在 1991年、 1993年和 1994年都舉行 KDD專題討論會(huì),匯集來(lái)自各個(gè)領(lǐng)域的研究人員和應(yīng)用開(kāi)發(fā)者,集中討論數(shù)據(jù)統(tǒng)計(jì)、海量數(shù)據(jù)分析算法、知識(shí)表示、知識(shí)運(yùn)用等問(wèn)題。 概述 現(xiàn)在, 人們往往不加區(qū)別地使用兩者。一般將 KDD中進(jìn)行知識(shí)學(xué)習(xí)的階段稱為數(shù)據(jù)挖掘( Data Mining),數(shù)據(jù)挖掘是 KDD中一個(gè)非常重要的處理步驟。 概述 ? 數(shù)據(jù)準(zhǔn)備 KDD的處理對(duì)象是大量的數(shù)據(jù) , 這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中 , 是長(zhǎng)期積累的結(jié)果 。 數(shù)據(jù)預(yù)處理包括數(shù)據(jù)的選擇 ( 選擇相關(guān)數(shù)據(jù) ) 、 凈化( 消除噪音 、 冗余數(shù)據(jù) ) 、 推測(cè) ( 推算缺值數(shù)據(jù) ) 、 轉(zhuǎn)換 ( 離散型數(shù)據(jù)與連續(xù)型數(shù)據(jù)之間的轉(zhuǎn)換 ) 、 數(shù)據(jù)縮減 ( 減少數(shù)據(jù)量 ) 等 。數(shù)據(jù)準(zhǔn)備得好壞將直接影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。目前采用較多的技術(shù)有決策樹(shù)、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。此外,大部分模式是用數(shù)學(xué)手段描述的表達(dá)式,很難被人理解,還需要將其解釋成可理解的方式以呈現(xiàn)給用戶。 運(yùn)用知識(shí)有兩種方法:一種是只需看知識(shí)本身所描述的關(guān)系或結(jié)果 , 就可以對(duì)決策提供支持;另一種是要求對(duì)新的數(shù)據(jù)運(yùn)用知識(shí) , 由此可能產(chǎn)生新的問(wèn)題 , 而需要對(duì)知識(shí)做進(jìn)一步的優(yōu)化 。 實(shí)現(xiàn) 一般而言 , 一個(gè)企業(yè)實(shí)施數(shù)據(jù)挖掘項(xiàng)目有三種方式可供選擇: ? 購(gòu)買成熟的模型 ? 購(gòu)買一般性數(shù)據(jù)挖掘系統(tǒng)軟件 ? 構(gòu)建數(shù)據(jù)挖掘系統(tǒng) 實(shí)現(xiàn) 目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng) 包括: ? Enterprise Miner( SAS公司 ) ? Intelligent Miner( IBM公司 ) ? SetMiner( SGI公司 ) ? Clementine( SPSS公司 ) ? Warehouse Studio( Sybase公司) ? See5( RuleQuest Research公司 ) ? CoverStory ? EXPLORA ? Knowledge Discovery Workbench ? DBMiner ? Quest等 工具 6 聚類分析 硬聚類 模糊聚類 評(píng)價(jià) ? 聚類分析 從紛繁復(fù)雜的數(shù)據(jù)中,根據(jù)最大化類內(nèi)相似性、最小化類間相似性的原則進(jìn)行聚類或分組。 硬聚類 硬聚類 ? 基于劃分的聚類方法 ? 基于層次的聚類方法 ? 基于密度的聚類方法 ? 基于網(wǎng)格的聚類方法 ? 基于模型的聚類方法 模糊聚類 ? 模糊聚類( Fuzzy Clustering Analysis, FCA)是指一個(gè)對(duì)象以不同程度屬于多個(gè)類,各個(gè)類之間的界限是不確定的。模糊聚類完全不同于所謂的硬聚類,即類別之間的界限是明確而嚴(yán)格的。對(duì)于相同的數(shù)據(jù)集合,采用不同的聚類方法,可能得到不同的聚類結(jié)果。 評(píng)價(jià) ? 可伸縮性 即算法中模式數(shù)發(fā)生變化的情況。如 PAM算法是一種 k中心點(diǎn)算法,它對(duì)小的數(shù)據(jù)集合非常有效,但對(duì)大的數(shù)據(jù)集合則沒(méi)有良好的可伸縮性。同樣,有些算法只擅長(zhǎng)處理低維數(shù)據(jù)。 評(píng)價(jià) ? 發(fā)現(xiàn)任意形狀的聚類 一個(gè)簇可能是任意形狀的,但一般的聚類算法是基于歐氏距離和曼哈頓距離度量實(shí)現(xiàn)聚類,更趨于發(fā)現(xiàn)球狀簇。 ? 處理噪聲數(shù)據(jù)的能力 噪聲數(shù)據(jù)可能是數(shù)據(jù)本身不完整,也可能是孤立點(diǎn)數(shù)據(jù)( Outlier)。 評(píng)價(jià) ? 用于決定輸入?yún)?shù)的領(lǐng)域知識(shí)最小化和輸入記錄順序敏感性 一方面要求降低算法對(duì)輸入?yún)?shù)的敏感程度,另一方面要求輸入記錄順序?qū)λ惴ǖ慕Y(jié)果影響小。在一些知識(shí)發(fā)現(xiàn)應(yīng)用中,這一參數(shù)非常影響聚類的質(zhì)量。 評(píng)價(jià) ? 可解釋性和可用性 知識(shí)發(fā)現(xiàn)過(guò)程中,聚類結(jié)果總是表現(xiàn)為一定的知識(shí),這就要求聚類結(jié)果可解釋、易理解。如 SOM( Self Organization Mapping)算法用于文本聚類可以產(chǎn)生知識(shí)地圖,表現(xiàn)了良好的可視化性能。 ? 分類的目的是獲得一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到某一個(gè)給定類別。 分類方法的評(píng)價(jià)標(biāo)準(zhǔn) ? 預(yù)測(cè)的正確性 ? 時(shí)間 – 構(gòu)建模型的時(shí)間 – 使用模型所需的時(shí)間 ? 健壯性 – 處理噪聲及缺失值的能力 ? 可擴(kuò)展性 ? 可操作性 ? 規(guī)則的優(yōu)化 – 決策樹(shù)的大小 – 分類規(guī)則的簡(jiǎn)潔性 概述 常見(jiàn)的分類方法 ? 決策樹(shù)分類 決策樹(shù)歸納是一種經(jīng)典的分類算法。樹(shù)的每一個(gè)結(jié)點(diǎn)上使用信息增益度量選擇屬性,可以從所生成的決策樹(shù)中提取出分類規(guī)則。該方法的思路非常簡(jiǎn)單直觀:如果一個(gè)樣本在特征空間中的 k個(gè)最相似 ( 即特征空間中最鄰近 ) 樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。 該算法較適用于樣本容量比較大的類域的自動(dòng)分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。該方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法。該方法只需要由各類域的邊界樣本的類別來(lái)決定最后的分類結(jié)果。 概述 ? VSM分類方法 即向量空間模型 ( Vector Space Model) 法,由 Salton等人于 60年代末提出。其基本思想是將文檔表示為加權(quán)的特征向量: D=D(T1, W1; T2,W2; … ; Tn, Wn),然后通過(guò)計(jì)算文本相似度的方法來(lái)確定待分類樣本的類別。 VSM法相對(duì)其他分類方法而言,更適合于專業(yè)文獻(xiàn)的分類。它是一種通用的非線性自適應(yīng)函數(shù)估計(jì)器,通過(guò)對(duì)研究目標(biāo)的歷史數(shù)據(jù)訓(xùn)練,建立起復(fù)雜的非線性映射模型。另一顯著特征是它的自適應(yīng)算法,在每一時(shí)刻都可以選擇新的訓(xùn)練樣本來(lái)估計(jì)和調(diào)整系統(tǒng)參數(shù),得到預(yù)測(cè)值。但是,它的隱層神經(jīng)元個(gè)數(shù)不易確定,易陷入局部最優(yōu)點(diǎn),需要大量訓(xùn)練樣本且訓(xùn)練時(shí)間較長(zhǎng)。實(shí)踐證明,專家系統(tǒng)預(yù)測(cè)不僅需要新技術(shù)的支持,同時(shí)也需要融合人類自身的經(jīng)驗(yàn)和智慧。但是,知識(shí)獲取的 “ 瓶頸 ” 問(wèn)題妨礙了專家系統(tǒng)的快速開(kāi)發(fā)。所謂模糊性主要是指有關(guān)事物差異的中間過(guò)渡中的不分明性,如溫度值的 “ 高與低 ” 等,這些模糊現(xiàn)象很難明確劃分其界限。它是一種時(shí)域 —頻域分析方法,在時(shí)域和頻域上同時(shí)具有良好的局部化性質(zhì)。 二是指將幾種預(yù)測(cè)方法進(jìn)行比較,選擇擬合優(yōu)度最佳或標(biāo)準(zhǔn)離差最小的預(yù)測(cè)模型作為最優(yōu)
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1