freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第十講-機器學習-資料下載頁

2025-08-15 20:32本頁面
  

【正文】 是新穎的,這可以通過兩個途徑來衡量: ① 通過對當前得到的數(shù)據(jù)和以前的數(shù)據(jù)或期望得到的數(shù)據(jù)的比較來判斷該模式的新穎程度 ② 二是通過其內(nèi)部所包含的知識,對比發(fā)現(xiàn)的模式與已有的模式的關系來判斷提取出的模式應該是有意義的,這可以通過某些函數(shù)的值來衡量知識發(fā)現(xiàn)的目的就是將數(shù)據(jù)庫中隱含的模式以容易被人理解的形式表現(xiàn)出來,從而使人們更好地了解數(shù)據(jù)庫中所包含的信息。 如果一個表達式比列舉數(shù)據(jù)集中的元素的描述方法更為簡單時,才可稱為模式。如 “如果成績在 81—90之問,則成績優(yōu)良 ”可稱為個模式,而 “如果成績?yōu)?8l, 82. 83, 84, 85, 86. 87, 88, 89或 9D,則成績優(yōu)良 ”就不能稱為個模式。知識發(fā)現(xiàn)處理過程 下面我們介紹兩類較具代表性的處理過程模型l 多處理階段過程模型( 1) 多處理階段模型將數(shù)據(jù)庫中的知識發(fā)現(xiàn)看做是一個多階段的處理過程,圖 1是費亞得Usama 。 圖 1 費亞得的知識處理模型l 在圖 1處理模型中, KDD處理過程共分為九個處理階段,這九個處理階段分別是數(shù)據(jù)準備、數(shù)據(jù)選擇、數(shù)據(jù)預處理、數(shù)據(jù)縮減、 KDD目標確定、挖掘算法確定、數(shù)據(jù)挖掘、模式解釋及知識評價。每個處理階段 KDD系統(tǒng)會提供處理工具完成相應的工作。在對挖掘的知識進行評測后,根據(jù)結(jié)果可以決定是否重新進行某些處理過程,在處理的任意階段都可以返回以前的階段進行再處理。 l 多處理階段過程模型( 2)l 下面我們介紹的數(shù)據(jù)挖掘處理過程模型是Gee 在他的博士論文中提出的,雖然在某些地方與費亞得給出的處理模型有一些區(qū)別,但這種區(qū)別主要表現(xiàn)在對整個處理過程的組織和表達方式上,在內(nèi)容上兩者并沒有非常本質(zhì)的區(qū)別。AnalyseResultsEngineeringCleanExtractData algorithm Run MiningData DataEngineering algorithmDefine the problem圖 2 John的知識處理模型l 以用戶為中心的處理模型 Brachman amp。 Anand從用戶的角度對 KDD處理過程進行了分析。他們認為數(shù)據(jù)庫中的知識發(fā)現(xiàn)應該更著重于對用戶進行知識發(fā)現(xiàn)的整個過程的支持,而不是僅僅限于在數(shù)據(jù)挖掘的一個階段上。通過對很多 KDD用戶在實際工作中遇到的問題的了解,他們發(fā)現(xiàn)用戶的很大一部分工作量是與數(shù)據(jù)庫的交互上。所以他們在開發(fā)數(shù)據(jù)挖掘系統(tǒng) IMACS (Interactive Marketing Analysis and Classification System) 時特別強調(diào)對用戶與數(shù)據(jù)庫交互的支持。圖 3給出了該模型的 框圖。圖 3 以用戶為中心的處理模型知識發(fā)現(xiàn)的方法( 1)傳統(tǒng)方法 :主要研究漸近理論,即當樣本趨于無窮多時的統(tǒng)計性質(zhì)。統(tǒng)計方法處理過程分三個階段 :搜索數(shù)據(jù)、分析數(shù)據(jù)、進行推理( 2)模糊集 :表示和處理不確定性數(shù)據(jù)的方法。不但可以處理不完全數(shù)據(jù)、噪聲或不精確數(shù)據(jù),還可以提供比傳統(tǒng)方法更靈巧、更平滑的性能。( 3)支撐向量機 SVM (support vector machine) 建立在計算學習理論的結(jié)構(gòu)風險最小化原則之上,其主要思想是針對兩類分類問題,在高維空間中尋找一個超平面作為兩類的分割,以保證最小的分類錯誤率。 (4)粗糙集( rough set) 由波拉克 ( Pawlak) 在 1982年提出。它是一種新的數(shù)學工具,用來處理含糊性和不確定性。粗糙集是由集合的下近似、上近似來定義的。邊界區(qū)的成員可能是該集合的成員,但不是確定的成員。它常與規(guī)則歸納、分類和聚類方法結(jié)合起來使用,很少單獨使用。2. 機器學習方法( 1)規(guī)則歸納 規(guī)則反映數(shù)據(jù)項中某些屬性或數(shù)據(jù)集中某些數(shù)據(jù)項之間的統(tǒng)計相關性。( 2)決策樹 應用于分類和預測,提供了一種展示在什么條件下會得到什么值這類規(guī)則的方法,一個決策樹表示一系列的問題,每個問題決定了繼續(xù)下去的問題會是什么。 適合于處理非數(shù)值型數(shù)據(jù),需要在生成決策樹后 再對決策樹進行剪枝處理,最后將決策樹轉(zhuǎn)化為規(guī)則,用于對新事例進行分類。( 3)范例推理 直接使用過去的經(jīng)驗或解法來求解給定的問題。當給定一個特定問題時,范例推理就檢索范例庫,尋找相似的范例。如果存在相似的范例,它們的解法就可以用來求解新的問題。該新問題被加到范例庫,以便將來參考。( 4)貝葉斯信念網(wǎng)絡 是概率分布的圖的表示,是一種直接的、非循環(huán)的圖。節(jié)點表示屬性變量,邊表示屬性變量之間的依賴關系。 ( 5)科學發(fā)現(xiàn) 在試驗環(huán)境下發(fā)現(xiàn)科學定理。( 6)遺傳算法 模仿人工選擇培育良種的思路,從一個初始規(guī)則集合開始,迭代的通過交換對象成員產(chǎn)生群體(繁殖),評估并擇優(yōu)復制逐代積累計算,最終得到最有價值的知識集。 人工神經(jīng)網(wǎng)絡方法:前饋式網(wǎng)絡、反饋式網(wǎng)絡和自組織網(wǎng)絡。主要用于分類、聚類、特征挖掘、預測等方面。通過向一個訓練數(shù)據(jù)集學習和應用所學知識生成分類和預測的模式。 可視化就是把數(shù)據(jù)、信息和知識轉(zhuǎn)化為可視的表示形式的過程。信息的可視化就是要處理這些數(shù)據(jù)種類以及它們在商業(yè)和信息技術領域的相關的分析任務,以發(fā)現(xiàn)信息中的模式、聚類、區(qū)別、聯(lián)系和趨勢等。知識發(fā)現(xiàn)的應用l 應用領域l l l l l l 典型案例 市場分析和管理l 數(shù)據(jù)從那里來 ?l 信用卡交易 , 會員卡 , 商家的優(yōu)惠卷 , 消費者投訴電話 , 公眾生活方式研究l 目標市場l 構(gòu)建一系列的 “ 客戶群模型 ” ,這些顧客具有相同特征 : 興趣愛好 , 收入水平 , 消費習慣 ,等等l 確定顧客的購買模式l 應用 1:交叉市場分析l 貨物銷售之間的相互聯(lián)系和相關性,以及基于這種聯(lián)系上的預測 l 應用 2:顧客分析l 哪類顧客購買那種商品 (聚類分析或分類預測 )l 應用 3:客戶需求分析l 確定適合不同顧客的最佳商品l 預測何種因素能夠吸引新顧客l 應用 4:提供概要信息l 多維度的綜合報告l 統(tǒng)計概要信息 (數(shù)據(jù)的集中趨勢和變化 )公司分析和風險管理l 財務計劃l 現(xiàn)金流轉(zhuǎn)分析和預測l 交叉區(qū)域分析和時間序列分析(財務資金比率,趨勢分析等等)l 資源計劃l 總結(jié)和比較資源和花費l 競爭l 對競爭者和市場趨勢的監(jiān)控 l 將顧客按等級分組和基于等級的定價過程l 將定價策略應用于競爭更激烈的市場中欺詐行為檢測和異常模式的發(fā)現(xiàn)l 方法 : 對欺騙行為進行聚類和建模,并進行孤立點分析l 應用 : 保險、衛(wèi)生保健、零售業(yè)、信用卡服務、電信等l 汽車保險 : 對相撞事件的分析 ,發(fā)掘索賠是否是欺詐行為l 洗錢 : 發(fā)現(xiàn)可疑的貨幣交易行為 l 醫(yī)療保險l 職業(yè)病人 , 醫(yī)生以及相關數(shù)據(jù)分析l 不必要的或相關的測試l 電信 : 電話呼叫欺騙行為l 電話呼叫模型 : 呼叫目的地,持續(xù)時間,日或周呼叫次數(shù) . 分析該模型發(fā)現(xiàn)與期待標準的偏差l 零售產(chǎn)業(yè)l 分析師估計有 38%的零售額下降是由于雇員的不誠實行為造成的機器學習和模式識別的區(qū)別l 機器學習 l 要使計算機具有知識一般有兩種方法;一種是由知識工程師將有關的知識歸納、整理,并且表示為計算機可以接受、處理的方式輸入計算機。另一種是使計算機本身有獲得知識的能力,它可以學習人類已有的知識,并且在實踐過程中不總結(jié)、完善,這種方式稱為機器學習。 l 機器學習的研究,主要在以下三個方面進行:一是研究人類學習的機理、人腦思維的過程;和機器學習的方法;以及建立針對具體任務的學習系統(tǒng)。 l 機器學習的研究是在信息科學、腦科學、神經(jīng)心理學、邏輯學、模糊數(shù)學等多種學科基礎上的。依賴于這些學科而共同發(fā)展。目前已經(jīng)取得很大的進展,但還沒有能完全解決問題。 l 模式識別 l 模式識別是研究如何使機器具有感知能力,主要研究視覺模式和聽覺模式的識別。如識別物體、地形、圖象、字體(如簽字)等。在日常生活各方面以及軍事 上都有廣大的用途。近年來迅速發(fā)展起來應用模糊數(shù)學模式、人工神經(jīng)網(wǎng)絡模式的方法逐漸取代傳統(tǒng)的用統(tǒng)計模式和結(jié)構(gòu)模式的識別方法。 特別神經(jīng)網(wǎng)絡方法在模式識別中取得較大進展。
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1