freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數據倉庫與數據挖掘原理及應用v(編輯修改稿)

2025-06-19 08:48 本頁面
 

【文章內容簡介】 ( RuleQuest Research公司 ) ? CoverStory ? EXPLORA ? Knowledge Discovery Workbench ? DBMiner ? Quest等 工具 6 聚類分析 硬聚類 模糊聚類 評價 ? 聚類分析 從紛繁復雜的數據中,根據最大化類內相似性、最小化類間相似性的原則進行聚類或分組。 即使得在一個簇內的對象具有高相似性,而不同簇間的對象具有低相似性的過程。 硬聚類 硬聚類 ? 基于劃分的聚類方法 ? 基于層次的聚類方法 ? 基于密度的聚類方法 ? 基于網格的聚類方法 ? 基于模型的聚類方法 模糊聚類 ? 模糊聚類( Fuzzy Clustering Analysis, FCA)是指一個對象以不同程度屬于多個類,各個類之間的界限是不確定的。其本質是不僅要考慮對象是否屬于該類,而且要考慮屬于該類的程度如何。模糊聚類完全不同于所謂的硬聚類,即類別之間的界限是明確而嚴格的。 ? 聚類有效性對聚類分析具有重要意義,被認為是聚類分析的一個瓶頸。對于相同的數據集合,采用不同的聚類方法,可能得到不同的聚類結果。 ? 即便是采用同一種聚類方法,若選擇不同的初始參數(如聚類數、聚類中心等)也可能會得到不同的聚類結果。 評價 ? 可伸縮性 即算法中模式數發(fā)生變化的情況。有些算法在模式數小的條件下,算法的性能很好,但是模式數增大后,算法性能下降。如 PAM算法是一種 k中心點算法,它對小的數據集合非常有效,但對大的數據集合則沒有良好的可伸縮性。 ? 高維性 即算法中模式屬性個數發(fā)生變化的情況。同樣,有些算法只擅長處理低維數據。在高維空間中聚類是一個挑戰(zhàn),特別是數據有可能非常稀疏和偏斜。 評價 ? 發(fā)現任意形狀的聚類 一個簇可能是任意形狀的,但一般的聚類算法是基于歐氏距離和曼哈頓距離度量實現聚類,更趨于發(fā)現球狀簇。在這方面,基于密度的聚類方法較好。 ? 處理噪聲數據的能力 噪聲數據可能是數據本身不完整,也可能是孤立點數據( Outlier)。有些算法不擅于處理孤立點數據,因此還專門出現了發(fā)現孤立點數據的算法。 評價 ? 用于決定輸入參數的領域知識最小化和輸入記錄順序敏感性 一方面要求降低算法對輸入參數的敏感程度,另一方面要求輸入記錄順序對算法的結果影響小。如經典的 k均值算法,需要預先給出簇的數目。在一些知識發(fā)現應用中,這一參數非常影響聚類的質量。這常常是高效率算法的弱點。 評價 ? 可解釋性和可用性 知識發(fā)現過程中,聚類結果總是表現為一定的知識,這就要求聚類結果可解釋、易理解。這與可視化密切相關,同時也與實際應用有關。如 SOM( Self Organization Mapping)算法用于文本聚類可以產生知識地圖,表現了良好的可視化性能。 7 分類和預測 概述 神經網絡 決策樹 實現過程 概述 ? 分類是數據挖掘中的一個重要課題。 ? 分類的目的是獲得一個分類函數或分類模型(也常常稱作分類器),該模型能把數據庫中的數據項映射到某一個給定類別。 ? 分類可用于提取描述重要數據類的模型或預測未來的數據趨勢。 分類方法的評價標準 ? 預測的正確性 ? 時間 – 構建模型的時間 – 使用模型所需的時間 ? 健壯性 – 處理噪聲及缺失值的能力 ? 可擴展性 ? 可操作性 ? 規(guī)則的優(yōu)化 – 決策樹的大小 – 分類規(guī)則的簡潔性 概述 常見的分類方法 ? 決策樹分類 決策樹歸納是一種經典的分類算法。它采用自頂向下、遞歸的、各個擊破的方式構造決策樹。樹的每一個結點上使用信息增益度量選擇屬性,可以從所生成的決策樹中提取出分類規(guī)則。 概述 ? KNN分類 即 K最近鄰法,最初由 Cover和 Hart于 1968年提出的,是一個理論上比較成熟的方法。該方法的思路非常簡單直觀:如果一個樣本在特征空間中的 k個最相似 ( 即特征空間中最鄰近 ) 樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別。該方法在分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分類樣本所屬的類別。 該算法較適用于樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域采用這種算法比較容易產生誤分。 概述 ? SVM分類方法 即支持向量機 ( Support Vector Machine) 法,由 Vapnik等人于 1995年提出,具有相對優(yōu)良的性能指標。該方法是建立在統計學習理論基礎上的機器學習方法。通過學習, SVM可以自動尋找出那些對分類有較好區(qū)分能力的支持向量,由此構造出的分類器可以最大化類與類的間隔,因而有較好的適應能力和較高的分準率。該方法只需要由各類域的邊界樣本的類別來決定最后的分類結果。 SVM法對小樣本情況下的自動分類有著較好的分類結果。 概述 ? VSM分類方法 即向量空間模型 ( Vector Space Model) 法,由 Salton等人于 60年代末提出。這是最早也是最著名的信息檢索方面的數學模型。其基本思想是將文檔表示為加權的特征向量: D=D(T1, W1; T2,W2; … ; Tn, Wn),然后通過計算文本相似度的方法來確定待分類樣本的類別。當文本被表示為空間向量模型的時候,文本的相似度就可以借助特征向量之間的內積來表示。 VSM法相對其他分類方法而言,更適合于專業(yè)文獻的分類。 ? 人工神經網絡 (ANN)預測方法 目前應用最廣泛的短期預測方法。它是一種通用的非線性自適應函數估計器,通過對研究目標的歷史數據訓練,建立起復雜的非線性映射模型。它不依賴于輸入變量和預測目標之間明確的表達式,輸入變量和預測目標之間的關系通過訓練過程來形成,避免了建模過程的困難 。另一顯著特征是它的自適應算法,在每一時刻都可以選擇新的訓練樣本來估計和調整系統參數,得到預測值。現在多采用誤差反向傳播 (BP)算法和徑向基函數 (RBF)方法。但是,它的隱層神經元個數不易確定,易陷入局部最優(yōu)點,需要大量訓練樣本且訓練時間較長。 概述 ? 專家系統預測方法 基于知識建立起來的計算機系統,它擁有某個領域內專家們的知識和經驗,能像專家們那樣運用這些知識,通過推理作出決策。實踐證明,專家系統預測不僅需要新技術的支持,同時也需要融合人類自身的經驗和智慧。因此,需要專家系統的相關技術。但是,知識獲取的 “ 瓶頸 ” 問題妨礙了專家系統的快速開發(fā)。 概述 ? 模糊預測方法 建立在模糊數學理論上的一種預測新技術,模糊數學是用數學方法來研究和處理具有 “ 模糊性 ” 的現象。所謂模糊性主要是指有關事物差異的中間過渡中的不分明性,如溫度值的 “ 高與低 ” 等,這些模糊現象很難明確劃分其界限。 概述 ? 小波分析預測方法 20世紀數學研究成果中最杰出的代表。它是一種時域 —頻域分析方法,在時域和頻域上同時具有良好的局部化性質。 概述 ? 優(yōu)選組合預測方法(兩種) 一是指將幾種預測方法所得預測結果,選取適當權重進行加權平均 。 二是指將幾種預測方法進行比較,選擇擬合優(yōu)度最佳或標準離差最小的預測模型作為最優(yōu)模型進行預測。 組合預測方法是建立在信息利用最大化的基礎上,它集結多種單一模型所包含的信息,進行最優(yōu)組合。因此,在大多數情況下,通過組合預測可以達到改善預測結果的目的。 概述 神經網絡 人工神經網( Artificial Neural Network,ANN)是 20世紀 80年代后期迅速發(fā)展起來的人工智能技術,它對噪聲數據具有很高的承受能力,對未經訓練的數據具有分類模擬的能力,因此在網站信息、生物信息和基因以及文本的數據挖掘等領域得到了越來越廣泛的應用。在多種 ANN模型中,反向傳播( Back Propagation, BP)網絡是應用最廣的一種。 神經網絡的訓練 ? 訓練的終止條件 – 獲得一組權重值,使得訓練集中幾乎所有樣本都分類正確 ? 訓練步驟 – 利用隨機值對權值進行初始化 – 將訓練樣本逐一地輸入給神經網絡,進行訓練 – 對于每個神經元 ? 將其所有的輸入值進行線性求和計算得到總的輸入 ? 利用激勵函數計算其輸出值 ? 計算誤差 ? 修正網絡權值和閾值(偏差) 決策樹
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1