freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數據挖掘與知識發(fā)現-在線瀏覽

2024-08-02 14:40本頁面
  

【正文】 已成為一門新興的邊緣學科。KDD(Knowledge Discovery in Database)一詞是于1989年8月在美國底特律市召開的第一屆KDD國際學術會議上正式形成的。KDD的含義,由Fayyad定義為:從數據集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。數據集:數據庫記錄的集合F;模式:即知識,它給出了數據特性或數據之間的關系,是對數據所包含的信息更抽象的描述。在實際應用中,可以細分為關聯模式、分類模式、聚類模式和序列模式等。其中,“有效性”、“新穎性”、“潛在有用性”和“最終可理解性”綜合在一起稱為興趣性。它的發(fā)現過程主要有三個步驟:① 數據準備,又包括數據選?。―ata selection)、數據預處理(Data preprocessing)和數據變換(Data transformation)三個子步驟;② 數據挖掘(Data Mining)階段;③ 結果解釋和評價。圖1 KDD過程由上圖知,知識發(fā)現的過程可粗略的理解為三部曲:數據準備(Data preparation)、數據挖掘(Data mining)以及結果的解釋評估(interpreparation and evaluation)。l 數據選取的目的是確定發(fā)現任務的操作對象,即目標數據。l 數據預處理一般包括消除噪聲、推導計算缺值數據、消除重復記錄、完成數據類型轉換(如,把連續(xù)值數據轉換為離散型數據,以便符號歸納;或把離散型數據轉換為連續(xù)值型數據,以便神經網絡歸納)等;l 數據變換的主要目的是消減數據的維數或降維,即從初始特征中找出真正有用的特征,以減少數據開采時要考慮的特征或變量個數。選擇實現算法有兩個考慮因素:(1) 不同的數據有不同的特點,因此需要用與之相關的算法來挖掘;(2) 用戶或實際運行系統的要求,有的用戶可能希望獲取描述型的、容易理解的知識(如,采用規(guī)則表示的挖掘方法顯然好于神經網絡之類的方法),而有的用戶只希望獲取預測準確度盡可能高的預測型知識。③ 結果解釋和評價,對數據挖掘發(fā)現出來的模式,應經用戶或機器評價后才能成為知識。由此過程可得:數據挖掘僅僅是整個知識發(fā)現過程中的一個步驟。如果選擇了錯誤的數據或不適當的屬性,或對數據進行了不適當的轉換,則挖掘的結果不會成功。比如,用戶在挖掘途中發(fā)現選擇的數據不太滿意,或使用的挖掘技術產生不了期望的結果??梢暬夹g在數據挖掘的各個階段都起著重要的作用。問題:數據挖掘的可視化主要包括哪些研究內容? 目前流行的可視化技術主要有哪幾種? 答: 數據挖掘的可視化主要研究包括(1) 數據的可視化: 。 目前流行的可視化技術主要有:(1) 面向像素技術:其基本思想是將每個數據值映射到一個有色的像素上并將屬于某個屬性的數據值表示在一個獨立的窗口中;(2) 幾何投影技術:其目標是在多維數據集中找到“有意義”的投影,是一種平行坐標軸可視化技術。(3) 基于圖標技術:是將一個多級數據項映射成一個圖標,是一種條狀圖技術。由于KDD是一門受到來自各種不同領域的研究者關注的交叉學科(如涉及:統計學、機器學習、數據庫技術、模式識別、人工智能和可視化等),因此導致了很多不同的術語名稱。其中,最常用的術語是“知識發(fā)現”和“數據挖掘”。由于把數據庫中的“數據”形象地比喻成礦床,把KDD比作從數據礦山中找到蘊藏的知識金塊。又由于數據挖掘是KDD過程中的關鍵步驟,所以目前多數人不加區(qū)分地使用知識發(fā)現和數據挖掘這兩個術語。 知識發(fā)現的對象知識發(fā)現的對象是數據集。其中,關系數據庫是典型的結構化數據。關系數據庫對關系數據庫,數據挖掘方法主要是研究數據庫中屬性之間的關系,挖掘出多個屬性取值之間的規(guī)則。關系數據庫的特點如下:① 數據動態(tài)性數據的動態(tài)變化是數據庫的一個主要特點。漸增式數據挖掘方法就是針對數據變化,使挖掘的規(guī)則(知識)能滿足變化后的數據庫內容。這種不完整數據給數據挖掘帶來了困難。③數據噪聲由于數據錄入等原因,造成錯誤的數據,即數據噪聲。④ 數據冗余性這表現在同一信息在多處重復出現。冗余信息可能造成錯誤的數據挖掘,至少有些挖掘的知識是用戶不感興趣的。⑤ 數據稀疏性表現在實例空間中數據稀疏,數據稀疏會使數據挖掘丟失有用的模式。數據挖掘方法需要逐步適應這種海量數據挖掘,如建立有效的索引機制和快速查詢方法等。文本分析包括:關鍵詞或特征提取;相似檢索;文本聚類和文本分類等。① 關鍵詞或特征提取一篇文本中,標題是該文本的高度概括。關鍵詞的提取對于掌握該文本的內容至關重要。② 相似檢索對文本中關鍵詞的相似檢索是了解文本內容的一種重要方法。③ 文本聚類對于文本標題中關鍵詞(主題詞)的相似匹配是對文本聚類的一種簡單方法。④ 文本分類將文本分類到各文本類中,一般需要采用一個算法,這些算法包括分類器算法、近鄰算法等,這需要按文本中的關鍵詞或特征的相似度來區(qū)分。數據以點陣信息及幀形式存儲,數據量很大。① 圖像與視頻特征提取圖像與視頻特征有顏色、紋理和形狀等。如,海水是藍色、海灘是黃色、房屋的形狀及顏色等,都需要從大量圖像和視頻數據中提取。如,對遙感圖像或視頻的識別,這種應用非常廣泛,例如,森林火災的發(fā)現與報警,河流水災的預報等。典型的鏡頭編輯如足球的射門、某段新聞節(jié)目等,都需要在冗長的視頻數據流中進行自動裁取。如足球射門集錦,某個新聞事件的連續(xù)報道等。Web數據挖掘具有如下特點:① 異構數據集成和挖掘Web上每一站點是一個數據源,各數據源都是異構的,形成了一個巨大的異構的數據庫環(huán)境。② 半結構化數據模型抽取Web上的數據非常復雜,沒有特定的模型描述。對半結構化數據模型的查詢和集成,需要尋找一種半結構化模型抽取技術來自動抽取各站點的數據??傊?,Web數據挖掘正在逐步形成熱點。數據庫技術經過20世紀80年代的大發(fā)展,除關系數據庫外,又陸續(xù)出現面向對象數據庫、多媒體數據庫、分布式數據庫以及Web數據庫等。從以上數據庫中挖掘知識正在興起并已得到迅速發(fā)展。成為社會調查、了解民意以及制定決策的重要手段。它是在專家系統獲取知識出現瓶頸后發(fā)展起來的。知識發(fā)現可按數據庫類型、知識發(fā)現對象、知識發(fā)現任務、知識發(fā)現方法與技術,以及應用等幾個方面進行分類。隨著數據庫類型的不斷增加,逐步出現了不同數據庫的知識發(fā)現。(2)按知識發(fā)現的對象分類知識發(fā)現除了對數據庫這個主要的對象進行知識發(fā)現外,還有文本數據知識發(fā)現、多媒體數據知識發(fā)現和Web網數據知識發(fā)現等。(3)按知識發(fā)現的任務分類知識發(fā)現的任務主要有:關聯分析、時序模式、聚類、分類、偏差檢測以及預測六項。(4)按知識發(fā)現方法和技術分類歸納學習類、仿生物技術類、公式發(fā)現類、統計分析類、模糊數學類、可視化技術類等等。統計方法可細分為:回歸分析、判別分析、聚類分析、探索性分析等;機器學習可細分為:歸納學習方法、基于范例學習、遺傳算法等;神經網絡可細分為:前向神經網絡、自組織神經網絡等;數據庫方法主要是:多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。 知識發(fā)現的任務數據挖掘與知識發(fā)現是一個以數據庫、人工智能、數理統計、可視化四大支柱技術為基礎,多學科交叉、滲透、融合形成的新的交叉學科。根據數據挖掘的任務可分為多種類型,其中比較典型的有:? 預測模型? 關聯分析? 分類分析? 聚類分析? 序列分析? 偏差檢測? 模式相似性挖掘? Web數據挖掘①預測模型(Predictive Modeling):所謂預測即從數據庫或數據倉庫中已知的數據推測未知的數據或對象集中某些屬性的值分布。關聯分析用于發(fā)現項目集之間的關聯。關聯規(guī)則挖掘近幾年研究較多。它廣泛地運用于幫助市場導向、商品目
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1