freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于決策樹c45算法的數據挖掘技術研究論文(編輯修改稿)

2025-01-06 22:30 本頁面
 

【文章內容簡介】 模型主要分 3 大類:以感知機、 bp反向傳播模型、函數型網絡為 代表的,用于分類、預測和模式識別的前饋式神經網絡模型;以 hopfield 的離散模型和連續(xù)模型為代表的,分別用于聯想記憶和優(yōu)化計算的反饋式神經網絡模型;以 art 模型、 koholon 模型為代表的,用于聚類的自組織映射方法。神經網絡方法的缺點是 黑箱 性,人們難以理解網絡的學習和決策過程。 ⑵ 遺傳算法 遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結合等性質使得它在數據挖掘中被加以應用。 sunil已成功地開發(fā)了一個基于遺傳算法 的數據挖掘工具,利用該工具對兩個飛機失事的真實數據庫進行了數據挖掘實驗,結果表明遺傳算法是進行數據挖掘的有效方法之一 [4]。遺傳算法的應用還體現在與神經網絡、粗集等技術的結合上。如利用遺傳算法優(yōu)化神經網絡結構,在不增加錯誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和 bp 算法結合訓練神經網絡,然后從網絡提取規(guī)則等。但遺傳算法的算法較復雜,收斂于局部極小的較早收斂問題尚未解決。 ⑶ 決策樹方法 決策樹是一種常用于預測模型的算法,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。它的主要優(yōu) 點是描述簡單,分類速度快,特別適合大規(guī)模的數據處理。最有影響和最早的決策樹方法是由 quinlan 提出的著名的基于信息熵的 id3 算法。它的主要問題是: id3 是非遞增學習算法; id3 決策樹是單變量決策樹,復雜概念的表達困難;同性間的相互關系強調不夠;抗噪性差。針對上述問題,出現了許多較好的改進算法,如 schlimmer 和 fisher 設計了 id4 遞增式學習算法 。鐘鳴,陳文偉等提出了 ible 算法等。 ⑷ 粗集方法 粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優(yōu)點:不需要給出額外信息;簡化 輸入信息的表達空間;算法簡單,易于操作。粗集處理的對象是類似二維關系表的信息表。目前成熟的關系數據庫管理系統(tǒng)和新發(fā)展起來的數據倉庫管理系統(tǒng),為粗集的數據挖掘奠定了堅實的基礎。但粗集的數學基礎是集合論,難以直接處理連續(xù)的屬性。而現實信息表中連續(xù)屬性是普遍存在的。因此連續(xù)屬性的離散化是制約粗集理論實用化的難點?,F在國際上已經研制出來了一些基于粗集的工具應用軟件,如加拿大 regina 大學開發(fā)的 kddr。美國 kansas 大學開發(fā)的 lers 等。 ⑸ 覆蓋正例排斥反例方法 它是利用覆蓋所有正例、排斥所有反例的思 想來尋找規(guī)則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則舍去,相反則保留。按此思想循環(huán)所有正例種子,將得到正例的規(guī)則 (選擇子的合取式 )。比較典型的算法有 michalski的 aq11 方法、洪家榮改進的 aq15 方法以及他的 ae5 方法。 ⑹ 統(tǒng)計分析方法 在數據庫字段項之間存在兩種關系:函數關系 (能用函數公式表示的確定性關系 )和相關關系 (不能用函數公式表示,但仍是相關確定性關系 ),對它們的分析可采用統(tǒng)計學方法,即利用統(tǒng)計學原理對數據庫中的信息進行分析??蛇M行常用統(tǒng)計 (求 大量數據中的最大值、最小值、總和、平均值等 )、回歸分析 (用回歸方程來表示變量間的數量關系 )、相關分析 (用相關系數來度量變量間的相關程度 )、差異分析 (從樣本統(tǒng)計量的值得出差異來確定總體參數之間是否存在差異 )等。 ⑺ 模糊集方法 即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統(tǒng)的復雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。李德毅等人在傳統(tǒng)模糊理論和概率統(tǒng)計的基礎上,提出了定性定量不確定性轉換模型 云模型,并形成了云理論。 數據 挖掘的要求 1) .處理不同種類的數據 由于在不同的應用中有很多不同種類的數據及數據庫。因此,期望知識發(fā)現系統(tǒng)能夠對不同種類的數據有效地執(zhí)行挖掘任務。因為大部分可用的數據庫是關系型的,故在關系型數據庫上數據挖掘系統(tǒng)進行高效及有效的知識發(fā)現是非常迫切的任務。許多可用的數據庫含有復雜的數據類型。如結構化的數據等等。一個功能強大的系統(tǒng)應能在這些復雜類型的數據上進行有效的數據挖掘任務。 2) .數據挖掘算法的效率及擴展性 為了從數據庫中大量的數據中有效地抽取信息,知識發(fā)現算法運載大數據庫 必須是高削且可擴展的,即數據挖掘算法的運行時間必須是可遇見的并且是可接受的。指數級甚至是中等級的多項式的復雜性在實際應用中將是不可接受的。 3) .數據挖掘結果的可用性、確定性、及可表達性 所發(fā)現的知識需要精神地描繪數據庫的內容并對已明確的應用是有用的。不完美的結果借助于不確定性來表達,以相近的規(guī)則或多個規(guī)則來表達。燥聲及應去除的數據在數據挖掘系統(tǒng)中應仔細處理。這也說明自動對發(fā)現的知識如何來表示是一個系統(tǒng)的研究項目,包括通過構造統(tǒng)計的、分析的及模擬的模型及工具來對興趣度及可靠性的研究。 4) .各種數據挖掘結果的表達 從大量的數據中可發(fā)現不同種類的知識,即可以從不同的角度來檢驗發(fā)現的知識,也可以用不同的形式來表達這些知識。著就要求機要表達對數據挖掘的要求,也要以高級語言或圖形用戶界面來表達發(fā)現的知識,發(fā)現知識是容易理解并且直接由用戶來使用。 5) .多抽象層交互挖掘知識 由于語言從是數據庫中能夠確切地發(fā)現何種知識是非常困難的,高水平數據挖掘查詢語言將被用來做為一個查詢工具,而這種可能封閉了進一步探索的有用蹤跡。而交互式發(fā)現,它允許用戶交互式定義一個數據挖掘的查詢,動態(tài)地改變數據焦點,進一步處理結果,從不同的層面來查看數據及結果。 6) .從不同的數據源中挖掘信息 大量局域及廣域計算機網絡,包括因特網,連接了很多的數據源并且形成了海量的分布式、不均勻的數據庫。從不同的格式化或非格式化并有不同語義的數據總挖掘知識對數據挖掘提出了新的挑戰(zhàn)。更進一步說,海量數據 庫、數據的分布性及某些數據挖掘方法的計算復雜性都是并行及分布 第三章 決策樹 決策樹算法概念 決策樹是一種用于產生分類規(guī)則的樹結構。樹中的內節(jié)點表示在一個屬性上的測試,每個樹葉代表類或類分布,樹中的每個分枝代表一個測試輸出,即一條規(guī)則。樹的最頂層節(jié)根結點。 例如,在貸款申請中,要對申請的風險大小做出判斷。下圖 是 解決此問題建立的決策樹。 決策樹示例 例如負責借貸的銀行官員利用 上 圖的決策樹來決 定支持那些貸款和拒絕那些貸款。他就用貸款申請表來運行這棵決策樹,用決策樹判斷風險的大小。“年收入大于¥ 40000”并且“高負債”的用戶被認為是“高風險”,同時“年收入小于¥ 40000”但“工作時間大于 5年”的申請,則被認為是“低風險”而建議貸款給他。 決策樹時數據挖掘中的一種重要技術,可以用于分析數據,同樣也可以用來預測。 決策樹算法介紹 決策樹算法基本原理 決策樹和決策規(guī)則是解決實際應用中分類問題的數據挖掘方法。因此我們首先簡要的總結分類的基本原理 。 一般來說,分 類是把數據項映射到其中 一個事先定義 的類中的這樣一個 學習函數的 過程。由一組輸入的屬性值向量和相應的類,用基于歸納學習算法得出分類。 學習的摸表是構件一個分類模型,通常也叫分類器。它可以根據有效的屬性輸入值預測一些實體的類。 換句話說,分類是把某個不連續(xù)的標識值(類)分配給一個未標識的紀錄的過程。分類器是一個在樣本的其他屬性已知的情況下預測另外一個屬性(樣本的類)的模型(分類的結果)。 這樣就把樣本分區(qū)到預先定義的類內。例如,一個簡單的分類可以把顧客的帳單 記錄分成具體的兩組:在 30 天內付清帳單的顧客和超過 30天付清帳單的顧客。 在一 個分類模型中,類和樣本的其他屬性之間的關聯可以用流程圖來簡單的定義,也可用程序指南這樣復雜和無結構的方式來定義。數據挖掘方法把討論限制在規(guī)范化“可執(zhí)行”的分類模型上,有兩種完全不同的建模方法。一方面通過 專家 會談得到分類模型。另一方面,可以對大量已記錄的分類進行檢查,通過主要示例進行概括,歸納地得到分類模型。 決策樹算法理論 從數據中生成分類器的一個特別有效的方法是生成一 個 決策樹。決策樹表示法是應用最廣泛的邏輯方法。 一個典型的決策樹學習系統(tǒng)采用的是自頂向下的方法,在部分搜索空間中搜索解決方 案。它可以確保求出一個簡單的決策樹。 目前生成決策樹方法的算法主要有三種 : CART 算法 ,CHAID 算法 , 算法。決策樹包括屬性已
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1