freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于決策樹c45算法的數(shù)據(jù)挖掘技術研究論文-在線瀏覽

2025-02-03 22:30本頁面
  

【正文】 最適合的模型。 參數(shù)識別 — 在第二步中,當模型結構已知時,我們要做的就是應用油畫技術來測定參數(shù)矢量 t以便結果模型 y*=f(u,t*)能 恰如其分地描述目標系統(tǒng)。每次迭代中的典型步驟如下: ① 詳細說明一類公式化(數(shù)學化)的模型并對它們進行參數(shù)化, y*=f(u,t)代表需識別的系統(tǒng) ② 選擇最合適可用數(shù)據(jù)集的參數(shù)(差值 yy*最?。?,完成參數(shù)識別。 ④ 一旦正確性檢驗的結果滿足就 停止這一過程。在大多數(shù)應用數(shù)據(jù)挖掘技術的目標系統(tǒng)中,這些結構完全是未知的,或者這些結構太復雜而難以得到一個適當?shù)臄?shù)學模型。反之,“模式”是一個局部結構,滿足于少數(shù)的案例或者很小的數(shù)據(jù)空間區(qū)域。 國內外研究或發(fā)展情況 國 際 國際知識發(fā)現(xiàn)研究知名學者 .加拿大 Simon Fraster大學的 Han Jiawei教授領導的課題組開發(fā)了數(shù)據(jù)挖掘原型系統(tǒng) DBMiner。在該系統(tǒng)中提供了一種交互式的類 SQL 語言 數(shù)據(jù)挖掘查詢語言 DMQL,能與關系數(shù)據(jù)庫平滑集成,實現(xiàn)了基于 C/S結構的 Unix和 Winnt 版本。中科院軟件所史忠植研究員領導的課題組在 DM 技術的研究上也有大量成果,發(fā)表若干論文。 課題的研究 目標 、 任務、 意義 數(shù)據(jù)挖掘 ( DM) 的 研究 目標 在實踐中,數(shù)據(jù)挖掘擁有兩個目標,其往往是預測和描述。因此,可以把數(shù)據(jù)挖掘活動分成下述兩類。 2)描述性數(shù)據(jù)挖掘:在可用的數(shù)據(jù)集的基礎上生成新的、非同尋常的信息。這種可執(zhí)行碼可以用于執(zhí)行分類、預測、評估或者其他相似的任務。對特定的數(shù)據(jù)挖掘的應用,預測和描 述的相對意義有相當大的變化。從本質上講,數(shù)據(jù)挖掘就像是解題:從問題的個別方面來看,結構并不復雜。當你試著去拆分這個系統(tǒng)時,你可能會遭到失敗,開始把各部分組合在一起又往往會為整個過程而苦惱。從個別來看,數(shù)據(jù)似乎是簡單、完整和結實的 。 課題 的任務: ⑴ 關聯(lián)分析 (association analysis) 關聯(lián)規(guī)則挖掘是兩個或兩個以上變量的取值之間存在某種規(guī)律性。關聯(lián)分為簡單關聯(lián)、時序關聯(lián)和因果關聯(lián)。一般用支持度和可信度兩個閥值來度量關聯(lián)規(guī)則的相關性,還不斷引入興趣度、相關性等參數(shù),使得所挖掘的規(guī)則更符合需求。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及 可能的數(shù)據(jù)屬性之間的相互關系。分類是利用訓練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則。 ⑷ 預測 (predication) 預測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進行預測。 ⑸ 時序模式 (timeseries pattern) 時序模式是指通過時間序列搜索出的重復發(fā)生概率較高的模式。 ⑹ 偏差分析 (deviation) 在偏差中包括很多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。 課題 的研究意義: 數(shù)據(jù)挖掘是計算機行業(yè)中發(fā)展最快的領域之一,以前數(shù)據(jù)挖掘只是結合了計算機科學和統(tǒng)計學而產(chǎn)生的一個讓人感興趣的小領域,如今 ,它已經(jīng)馴熟虧大成為一個獨立的領域。既然數(shù)據(jù)挖掘是一個在大型數(shù)據(jù)集上進行的自然行為,其最大的目標市場應該是整個數(shù)據(jù)倉庫、數(shù)據(jù)集市和決策支持業(yè)界。在商業(yè)界,數(shù)據(jù)挖掘可用于發(fā)現(xiàn)新的購買傾向、設計投資計劃和在會計系統(tǒng)總探測未經(jīng)認可的開支,增加銷售業(yè)務。數(shù)據(jù)挖掘即使也能應用于商業(yè)過程重構問題,其目標是了解商業(yè)操作和組織之間的相互作用和關系。 第二章 數(shù)據(jù)挖掘的概念 技術簡介 隨著數(shù)據(jù)庫技術的飛速發(fā)展以及人們獲取數(shù)據(jù)手段的多樣化,人類所擁有的數(shù)據(jù)信息急劇增加。目前能夠將這些數(shù)據(jù)進行其利用并分析處理的工具卻很少。新興的數(shù)據(jù)挖掘技術卻能夠為決策者提供重要的,極有價值的信息或知識,并能產(chǎn)生不可估量的效益。隨著市場經(jīng)濟的不斷完善,數(shù)據(jù)挖掘的時常正在高速增長,而數(shù)據(jù)挖掘與其他軟件不同,由于需要不斷地是實驗與評估,不懂原理或沒有核心軟件技術,其應用效果將大打折扣。這種方法從基礎的科學 模型入手,如牛頓運動定律或麥克斯韋的電磁公式,然后基于模型來建立機械工程或電子工程方面的各種運用,用實驗數(shù)據(jù)來驗證基本的“首要原則模型”,以及對一些難以直接測量或者根本不可能直接測量的參數(shù)進行評估。運用基于計算機的方法,包括新技術,從而在數(shù)據(jù)中獲得有用知識的整個過程,就稱為數(shù)據(jù)挖掘。在初步探測性方案中,數(shù)據(jù)挖掘顯的非常重要。 什么是 數(shù)據(jù)挖掘 (Data Mining DM) 數(shù)據(jù)挖掘的定義:數(shù)據(jù)挖掘就是應用一系列技術從 大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取人們感興趣的信息和知識,這些知識或信息是隱含的,事先未知而潛在有用的,提取的知識表示為概念、規(guī)則、規(guī)律、模式等形式。 簡單的說,數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取或“挖掘”知識。 Data Mining is the application of artificial intelligence (AI) techniques (Neural work, fuzzy Logic,geetic algorithm, etc) to large quantities of data, to discovery hidden trends, patterns ,and relationships 。典型的神經(jīng)網(wǎng)絡模型主要分 3 大類:以感知機、 bp反向傳播模型、函數(shù)型網(wǎng)絡為 代表的,用于分類、預測和模式識別的前饋式神經(jīng)網(wǎng)絡模型;以 hopfield 的離散模型和連續(xù)模型為代表的,分別用于聯(lián)想記憶和優(yōu)化計算的反饋式神經(jīng)網(wǎng)絡模型;以 art 模型、 koholon 模型為代表的,用于聚類的自組織映射方法。 ⑵ 遺傳算法 遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。 sunil已成功地開發(fā)了一個基于遺傳算法 的數(shù)據(jù)挖掘工具,利用該工具對兩個飛機失事的真實數(shù)據(jù)庫進行了數(shù)據(jù)挖掘實驗,結果表明遺傳算法是進行數(shù)據(jù)挖掘的有效方法之一 [4]。如利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡結構,在不增加錯誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和 bp 算法結合訓練神經(jīng)網(wǎng)絡,然后從網(wǎng)絡提取規(guī)則等。 ⑶ 決策樹方法 決策樹是一種常用于預測模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價值的,潛在的信息。最有影響和最早的決策樹方法是由 quinlan 提出的著名的基于信息熵的 id3 算法。針對上述問題,出現(xiàn)了許多較好的改進算法,如 schlimmer 和 fisher 設計了 id4 遞增式學習算法 。 ⑷ 粗集方法 粗集理論是一種研究不精確、不確定知識的數(shù)學工具。粗集處理的對象是類似二維關系表的信息表。但粗集的數(shù)學基礎是集合論,難以直接處理連續(xù)的屬性。因此連續(xù)屬性的離散化是制約粗集理論實用化的難點。美國 kansas 大學開發(fā)的 lers 等。首先在正例集合中任選一個種子,到反例集合中逐個比較。按此思想循環(huán)所有正例種子,將得到正例的規(guī)則 (選擇子的合取式 )。 ⑹ 統(tǒng)計分析方法 在數(shù)據(jù)庫字段項之間存在兩種關系:函數(shù)關系 (能用函數(shù)公式表示的確定性關系 )和相關關系 (不能用函數(shù)公式表示,但仍是相關確定性關系 ),對它們的分析可采用統(tǒng)計學方法,即利用統(tǒng)計學原理對數(shù)據(jù)庫中的信息進行分析。 ⑺ 模糊集方法 即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。李德毅等人在傳統(tǒng)模糊理論和概率統(tǒng)計的基礎上,提出了定性定量不確定性轉換模型 云模型,并形成了云理論。因此,期望知識發(fā)現(xiàn)系統(tǒng)能夠對不同種類的數(shù)據(jù)有效地執(zhí)行挖掘任務。許多可用的數(shù)據(jù)庫含有復雜的數(shù)據(jù)類型。一個功能強大的系統(tǒng)應能在這些復雜類型的數(shù)據(jù)上進行有效的數(shù)據(jù)挖掘任務。指數(shù)級甚至是中等級的多項式的復雜性在實際應用中將是不可接受的。不完美的結果借助于不確定性來表達,以相近的規(guī)則或多個規(guī)則來表達。這也說明自動對發(fā)現(xiàn)的知識如何來表示是一個系統(tǒng)的研究項目,包括通過構造統(tǒng)計的、分析的及模擬的模型及工具來對興趣度及可靠性的研究。著就要求機要表達對數(shù)據(jù)挖掘的要求,也要以高級語言或圖形用戶界面來表達發(fā)現(xiàn)的知識,發(fā)現(xiàn)知識是容易理解并且直接由用戶來使用。而交互式發(fā)現(xiàn),它允許用戶交互式定義一個數(shù)據(jù)挖掘的查詢,動態(tài)地改變數(shù)據(jù)焦點,進一步處理結果,從不同的層面來查看數(shù)據(jù)及結果。從不同的格式化或非格式化并有不同語義的數(shù)據(jù)總挖掘知識對數(shù)據(jù)挖掘提出了新的挑戰(zhàn)。樹中的內節(jié)點表示在一個屬性上的測試,每個樹葉代表類或類分布,樹中的每個分枝代表一個測試輸出,即一條規(guī)則。 例如,在貸款申請中,要對申請的風險大小做出判斷。 決策樹示例 例如負責借貸的銀
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1