freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數(shù)據挖掘與知識發(fā)現(xiàn)(留存版)

2025-08-06 14:40上一頁面

下一頁面
  

【正文】 文本內容的一種重要方法。如足球射門集錦,某個新聞事件的連續(xù)報道等。它是在專家系統(tǒng)獲取知識出現(xiàn)瓶頸后發(fā)展起來的。根據數(shù)據挖掘的任務可分為多種類型,其中比較典型的有:? 預測模型? 關聯(lián)分析? 分類分析? 聚類分析? 序列分析? 偏差檢測? 模式相似性挖掘? Web數(shù)據挖掘①預測模型(Predictive Modeling):所謂預測即從數(shù)據庫或數(shù)據倉庫中已知的數(shù)據推測未知的數(shù)據或對象集中某些屬性的值分布。④聚類(Clustering)分析:所謂聚類是指一組彼此間非?!跋嗨啤钡臄?shù)據對象的集合。⑦模式相似性挖掘:用于在時間數(shù)據庫或空間數(shù)據庫中搜索相似模式時,從所有對象中找出用戶定義范圍內的對象;或找出所有元素對,元素對中兩者的距離小于用戶定義的距離范圍。它是原數(shù)據庫的精華,很容易轉換成規(guī)則知識。又如正確時間銷售(RightTimeMarKeting)就是基于顧客生活周期模型來實施的。OLAP所采用的驗證方法多是基于數(shù)據立方體法,即通過對數(shù)據立方體的切片、切塊、旋轉、鉆取等操作來實現(xiàn)對數(shù)據立方體快速的多維成取。在知識經濟點主導地位的21世紀,擁有持續(xù)創(chuàng)新能力和大量高素質人才資源的國家,顯然將具備發(fā)展知識經濟的巨大潛力。如果他們在這塊邊界上有所突破,就叫做發(fā)現(xiàn)或叫做發(fā)明。從小學到中學再到大學,我們的知識空間在不斷擴大。所以,尋找一個半結構化數(shù)據模型成為解決集成問題的一個關鍵技術。所謂數(shù)據倉庫,按數(shù)據倉庫之父Bill Inmon的定義,就是一個“面向主題的”、“完整的”、“非易失的”、“不同時間的”、“用于支持決策管理的”數(shù)據集合。案例知識一般表示為三元組:l 問題描述:對求解的問題及周圍世界或環(huán)境的所有特征的描述;l 解描述:對問題求解方案的描述;l 效果描述:描述解決方案后的結果情況,是失敗還是成功。如,下例為兩類人群9個元組(記錄)表:身高頭發(fā)眼睛第一類人矮金色藍色高紅色藍色高金色藍色矮金色灰色第二類人高金色黑色矮黑色藍色高黑色藍色高黑色灰色矮黑色黑色利用數(shù)據挖掘方法,將能很快得到如下規(guī)則知識: IF(發(fā)色=金色∨紅色)∧(眼睛=藍色∨灰色)THEN 第一類人 IF(發(fā)色=黑色)∨(眼睛=黑色) THEN 第二類人即:凡是具有金色或紅色的頭發(fā),并且同時具有藍色或灰色眼睛的人屬于第一類人;凡是具有黑色頭發(fā)或黑色眼睛的人屬于第二類人。偏差包括很多有用的知識,如以下4類:(1) 分類中的反常實例;(2) 模式的例外;(3) 觀察結果對模型預測的偏差;(4) 量值隨時間的變化。類的描述可以是顯式的,如用一組特征概念描述;也可以是隱式的,如用一個數(shù)學公式或數(shù)學模型描述。統(tǒng)計方法可細分為:回歸分析、判別分析、聚類分析、探索性分析等;機器學習可細分為:歸納學習方法、基于范例學習、遺傳算法等;神經網絡可細分為:前向神經網絡、自組織神經網絡等;數(shù)據庫方法主要是:多維數(shù)據分析或OLAP方法,另外還有面向屬性的歸納方法。從以上數(shù)據庫中挖掘知識正在興起并已得到迅速發(fā)展。如,對遙感圖像或視頻的識別,這種應用非常廣泛,例如,森林火災的發(fā)現(xiàn)與報警,河流水災的預報等。① 關鍵詞或特征提取一篇文本中,標題是該文本的高度概括。漸增式數(shù)據挖掘方法就是針對數(shù)據變化,使挖掘的規(guī)則(知識)能滿足變化后的數(shù)據庫內容。由于KDD是一門受到來自各種不同領域的研究者關注的交叉學科(如涉及:統(tǒng)計學、機器學習、數(shù)據庫技術、模式識別、人工智能和可視化等),因此導致了很多不同的術語名稱。③ 結果解釋和評價,對數(shù)據挖掘發(fā)現(xiàn)出來的模式,應經用戶或機器評價后才能成為知識。數(shù)據集:數(shù)據庫記錄的集合F;模式:即知識,它給出了數(shù)據特性或數(shù)據之間的關系,是對數(shù)據所包含的信息更抽象的描述。由此看出,專家系統(tǒng)數(shù)據庫只是一個存儲很少的用于暫存中間信息的工作存儲器(也稱內涵數(shù)據庫),而不是通常概念上的用于存放大量信息的數(shù)據庫(也稱外延數(shù)據庫)。知識工程的研究使人工智能的研究從理論轉向了應用,從基于推理的模型轉向基于知識的模型,是新一代計算機的重要理論基礎。l 信息僅是對客觀事物的一般性描述,它還不是知識。數(shù)據庫中存在著大量數(shù)據,卻缺乏從這些數(shù)據中自動、高效地獲取知識的手段,出現(xiàn)了“數(shù)據豐富,知識貧乏”的現(xiàn)象。但人工智能系統(tǒng)較率低,不能應用于實際?!顢?shù)據、信息和知識間的關系是:l 數(shù)據是信息的載體和表示;l 信息是數(shù)據在特定場合下的含義,或者說信息是數(shù)據的語義?!?知識工程系統(tǒng)的特點n 知識工程系統(tǒng)能解決專家水平的問題;n 系統(tǒng)能快速的進行假設和搜索解答;n 系統(tǒng)能做出具有專家水平的解答;n 系統(tǒng)具有大量的基礎知識和通用的問題求解能力;n 系統(tǒng)應能選擇問題的恰當表示方式,其中的知識型系統(tǒng)是一個符號系統(tǒng);n 系統(tǒng)具有自動推理的能力,能從結構步驟分析、解決、推理問題等,這些都表現(xiàn)出具有人工智能及其系統(tǒng)的特點。(2)數(shù)據庫也稱全局數(shù)據庫或綜合數(shù)據庫。研究的問題主要有:① 定性知識和定量知識的發(fā)現(xiàn);② 知識發(fā)現(xiàn)方法;③ 知識發(fā)現(xiàn)的應用等。② 數(shù)據挖掘階段:ⅰ)確定開采的任務或目的,如數(shù)據總結、分類、聚類、關聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等;ⅱ)確定使用的開采算法。該技術通過使用相互平行而且等距的坐標軸將多維空間映射成兩維顯示。由于關系數(shù)據庫的特點,促使了數(shù)據挖掘方法的改善。文本數(shù)據庫文本是以文字串形式表示的數(shù)據文件。這些特征提取是用基于內容的相似檢索。 知識發(fā)現(xiàn)的分類知識發(fā)現(xiàn)涉及多個學科,主要包括數(shù)據庫、統(tǒng)計學和機器學習等三大主要技術。故按知識發(fā)現(xiàn)的任務分類有:關聯(lián)規(guī)則知識發(fā)現(xiàn)、序列知識發(fā)現(xiàn)、聚類知識發(fā)現(xiàn)、分類知識發(fā)現(xiàn)、偏差分析知識發(fā)現(xiàn)以及預測知識發(fā)現(xiàn)等類型。③分類(Classification)分析:所謂分類是根據數(shù)據的特征為每個類別建立一個模型,根據數(shù)據的屬性將數(shù)據分配到不同的組中。T股票連續(xù)上漲兩天且DEC股票不下跌,則第三天IBM股票上漲的可能性為75%”的數(shù)據關系。 數(shù)據挖掘的知識表示數(shù)據挖掘各種方法獲得的知識的表示形式主要有6種:規(guī)則、決策樹、知識基(濃縮數(shù)據)、網絡權值、公式和案例。CBR的基礎是案例庫,在案例庫中存放著大量成功或失敗的案例。總之,DM可廣泛應用于銀行金融、零售與批發(fā)、制造、保險、公共設施、政府、教育、遠程通訊、軟件開發(fā)、運輸?shù)雀鱾€企事業(yè)單位及國防科研上。Web上的每一個站點就是一個數(shù)據源,且是異構數(shù)據源,一個站點和另一個站的信息和組織形式不同,這就構成了一個更大的、復雜性更高的數(shù)據庫。這個空間邊界就是與未知世界的接觸面。數(shù)據挖掘與知識發(fā)現(xiàn)將信息變?yōu)橹R,從數(shù)據礦山中找到蘊藏的知識金塊,將為知識創(chuàng)新和知識經濟的發(fā)展作出貢獻。我們綜合性大學里的所有學科,實際上可以成四大類(自然科學、社會科學、人文科學、其它),第一就是大家熟悉的自然科學,對于自然科學來說,最高水平的創(chuàng)新一定是創(chuàng)新知識。OLAP可以幫助人們提出假設,也可以驗證數(shù)據挖掘預測的結果;數(shù)據挖掘能夠挖掘出一個結論,但這結論是否正確,可用OLAP去驗證。[4] 在過程控制/質量監(jiān)督保證方面:DM協(xié)助管理大數(shù)量變量之間的相互作用,DM能自動發(fā)現(xiàn)出某些不正常的數(shù)據分布,暴露制造和裝配操作過程中變化情況和各種因素,從而協(xié)助質量工程師很快地注意到問題發(fā)生范圍和采取改正措施。一般表示為矩陣和向量。Web數(shù)據挖掘包括Web使用模式挖掘、Web結構挖掘和Web內容挖掘等。每一個分組中的數(shù)據相近,不同分組之間的數(shù)據相差較大。在關聯(lián)規(guī)則挖掘算法中,通常給出了置信度和支持度兩個概念,對于置信度和支持度均大于給定閾值的規(guī)則稱為強規(guī)則,而關聯(lián)分析主要就是對強規(guī)則的挖掘。
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1