freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應用v(編輯修改稿)

2025-06-19 08:48 本頁面
 

【文章內(nèi)容簡介】 ( RuleQuest Research公司 ) ? CoverStory ? EXPLORA ? Knowledge Discovery Workbench ? DBMiner ? Quest等 工具 6 聚類分析 硬聚類 模糊聚類 評價 ? 聚類分析 從紛繁復雜的數(shù)據(jù)中,根據(jù)最大化類內(nèi)相似性、最小化類間相似性的原則進行聚類或分組。 即使得在一個簇內(nèi)的對象具有高相似性,而不同簇間的對象具有低相似性的過程。 硬聚類 硬聚類 ? 基于劃分的聚類方法 ? 基于層次的聚類方法 ? 基于密度的聚類方法 ? 基于網(wǎng)格的聚類方法 ? 基于模型的聚類方法 模糊聚類 ? 模糊聚類( Fuzzy Clustering Analysis, FCA)是指一個對象以不同程度屬于多個類,各個類之間的界限是不確定的。其本質是不僅要考慮對象是否屬于該類,而且要考慮屬于該類的程度如何。模糊聚類完全不同于所謂的硬聚類,即類別之間的界限是明確而嚴格的。 ? 聚類有效性對聚類分析具有重要意義,被認為是聚類分析的一個瓶頸。對于相同的數(shù)據(jù)集合,采用不同的聚類方法,可能得到不同的聚類結果。 ? 即便是采用同一種聚類方法,若選擇不同的初始參數(shù)(如聚類數(shù)、聚類中心等)也可能會得到不同的聚類結果。 評價 ? 可伸縮性 即算法中模式數(shù)發(fā)生變化的情況。有些算法在模式數(shù)小的條件下,算法的性能很好,但是模式數(shù)增大后,算法性能下降。如 PAM算法是一種 k中心點算法,它對小的數(shù)據(jù)集合非常有效,但對大的數(shù)據(jù)集合則沒有良好的可伸縮性。 ? 高維性 即算法中模式屬性個數(shù)發(fā)生變化的情況。同樣,有些算法只擅長處理低維數(shù)據(jù)。在高維空間中聚類是一個挑戰(zhàn),特別是數(shù)據(jù)有可能非常稀疏和偏斜。 評價 ? 發(fā)現(xiàn)任意形狀的聚類 一個簇可能是任意形狀的,但一般的聚類算法是基于歐氏距離和曼哈頓距離度量實現(xiàn)聚類,更趨于發(fā)現(xiàn)球狀簇。在這方面,基于密度的聚類方法較好。 ? 處理噪聲數(shù)據(jù)的能力 噪聲數(shù)據(jù)可能是數(shù)據(jù)本身不完整,也可能是孤立點數(shù)據(jù)( Outlier)。有些算法不擅于處理孤立點數(shù)據(jù),因此還專門出現(xiàn)了發(fā)現(xiàn)孤立點數(shù)據(jù)的算法。 評價 ? 用于決定輸入?yún)?shù)的領域知識最小化和輸入記錄順序敏感性 一方面要求降低算法對輸入?yún)?shù)的敏感程度,另一方面要求輸入記錄順序對算法的結果影響小。如經(jīng)典的 k均值算法,需要預先給出簇的數(shù)目。在一些知識發(fā)現(xiàn)應用中,這一參數(shù)非常影響聚類的質量。這常常是高效率算法的弱點。 評價 ? 可解釋性和可用性 知識發(fā)現(xiàn)過程中,聚類結果總是表現(xiàn)為一定的知識,這就要求聚類結果可解釋、易理解。這與可視化密切相關,同時也與實際應用有關。如 SOM( Self Organization Mapping)算法用于文本聚類可以產(chǎn)生知識地圖,表現(xiàn)了良好的可視化性能。 7 分類和預測 概述 神經(jīng)網(wǎng)絡 決策樹 實現(xiàn)過程 概述 ? 分類是數(shù)據(jù)挖掘中的一個重要課題。 ? 分類的目的是獲得一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到某一個給定類別。 ? 分類可用于提取描述重要數(shù)據(jù)類的模型或預測未來的數(shù)據(jù)趨勢。 分類方法的評價標準 ? 預測的正確性 ? 時間 – 構建模型的時間 – 使用模型所需的時間 ? 健壯性 – 處理噪聲及缺失值的能力 ? 可擴展性 ? 可操作性 ? 規(guī)則的優(yōu)化 – 決策樹的大小 – 分類規(guī)則的簡潔性 概述 常見的分類方法 ? 決策樹分類 決策樹歸納是一種經(jīng)典的分類算法。它采用自頂向下、遞歸的、各個擊破的方式構造決策樹。樹的每一個結點上使用信息增益度量選擇屬性,可以從所生成的決策樹中提取出分類規(guī)則。 概述 ? KNN分類 即 K最近鄰法,最初由 Cover和 Hart于 1968年提出的,是一個理論上比較成熟的方法。該方法的思路非常簡單直觀:如果一個樣本在特征空間中的 k個最相似 ( 即特征空間中最鄰近 ) 樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。該方法在分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分類樣本所屬的類別。 該算法較適用于樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。 概述 ? SVM分類方法 即支持向量機 ( Support Vector Machine) 法,由 Vapnik等人于 1995年提出,具有相對優(yōu)良的性能指標。該方法是建立在統(tǒng)計學習理論基礎上的機器學習方法。通過學習, SVM可以自動尋找出那些對分類有較好區(qū)分能力的支持向量,由此構造出的分類器可以最大化類與類的間隔,因而有較好的適應能力和較高的分準率。該方法只需要由各類域的邊界樣本的類別來決定最后的分類結果。 SVM法對小樣本情況下的自動分類有著較好的分類結果。 概述 ? VSM分類方法 即向量空間模型 ( Vector Space Model) 法,由 Salton等人于 60年代末提出。這是最早也是最著名的信息檢索方面的數(shù)學模型。其基本思想是將文檔表示為加權的特征向量: D=D(T1, W1; T2,W2; … ; Tn, Wn),然后通過計算文本相似度的方法來確定待分類樣本的類別。當文本被表示為空間向量模型的時候,文本的相似度就可以借助特征向量之間的內(nèi)積來表示。 VSM法相對其他分類方法而言,更適合于專業(yè)文獻的分類。 ? 人工神經(jīng)網(wǎng)絡 (ANN)預測方法 目前應用最廣泛的短期預測方法。它是一種通用的非線性自適應函數(shù)估計器,通過對研究目標的歷史數(shù)據(jù)訓練,建立起復雜的非線性映射模型。它不依賴于輸入變量和預測目標之間明確的表達式,輸入變量和預測目標之間的關系通過訓練過程來形成,避免了建模過程的困難 。另一顯著特征是它的自適應算法,在每一時刻都可以選擇新的訓練樣本來估計和調(diào)整系統(tǒng)參數(shù),得到預測值?,F(xiàn)在多采用誤差反向傳播 (BP)算法和徑向基函數(shù) (RBF)方法。但是,它的隱層神經(jīng)元個數(shù)不易確定,易陷入局部最優(yōu)點,需要大量訓練樣本且訓練時間較長。 概述 ? 專家系統(tǒng)預測方法 基于知識建立起來的計算機系統(tǒng),它擁有某個領域內(nèi)專家們的知識和經(jīng)驗,能像專家們那樣運用這些知識,通過推理作出決策。實踐證明,專家系統(tǒng)預測不僅需要新技術的支持,同時也需要融合人類自身的經(jīng)驗和智慧。因此,需要專家系統(tǒng)的相關技術。但是,知識獲取的 “ 瓶頸 ” 問題妨礙了專家系統(tǒng)的快速開發(fā)。 概述 ? 模糊預測方法 建立在模糊數(shù)學理論上的一種預測新技術,模糊數(shù)學是用數(shù)學方法來研究和處理具有 “ 模糊性 ” 的現(xiàn)象。所謂模糊性主要是指有關事物差異的中間過渡中的不分明性,如溫度值的 “ 高與低 ” 等,這些模糊現(xiàn)象很難明確劃分其界限。 概述 ? 小波分析預測方法 20世紀數(shù)學研究成果中最杰出的代表。它是一種時域 —頻域分析方法,在時域和頻域上同時具有良好的局部化性質。 概述 ? 優(yōu)選組合預測方法(兩種) 一是指將幾種預測方法所得預測結果,選取適當權重進行加權平均 。 二是指將幾種預測方法進行比較,選擇擬合優(yōu)度最佳或標準離差最小的預測模型作為最優(yōu)模型進行預測。 組合預測方法是建立在信息利用最大化的基礎上,它集結多種單一模型所包含的信息,進行最優(yōu)組合。因此,在大多數(shù)情況下,通過組合預測可以達到改善預測結果的目的。 概述 神經(jīng)網(wǎng)絡 人工神經(jīng)網(wǎng)( Artificial Neural Network,ANN)是 20世紀 80年代后期迅速發(fā)展起來的人工智能技術,它對噪聲數(shù)據(jù)具有很高的承受能力,對未經(jīng)訓練的數(shù)據(jù)具有分類模擬的能力,因此在網(wǎng)站信息、生物信息和基因以及文本的數(shù)據(jù)挖掘等領域得到了越來越廣泛的應用。在多種 ANN模型中,反向傳播( Back Propagation, BP)網(wǎng)絡是應用最廣的一種。 神經(jīng)網(wǎng)絡的訓練 ? 訓練的終止條件 – 獲得一組權重值,使得訓練集中幾乎所有樣本都分類正確 ? 訓練步驟 – 利用隨機值對權值進行初始化 – 將訓練樣本逐一地輸入給神經(jīng)網(wǎng)絡,進行訓練 – 對于每個神經(jīng)元 ? 將其所有的輸入值進行線性求和計算得到總的輸入 ? 利用激勵函數(shù)計算其輸出值 ? 計算誤差 ? 修正網(wǎng)絡權值和閾值(偏差) 決策樹
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1