freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(參考版)

2025-06-25 14:40本頁(yè)面
  

【正文】 本課程面向計(jì)算機(jī)、信息技術(shù)以及相關(guān)專業(yè)博士生、碩士生。數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)將信息變?yōu)橹R(shí),從數(shù)據(jù)礦山中找到蘊(yùn)藏的知識(shí)金塊,將為知識(shí)創(chuàng)新和知識(shí)經(jīng)濟(jì)的發(fā)展作出貢獻(xiàn)。這樣的突破,擴(kuò)充了研究生個(gè)人的知識(shí)空間,同時(shí)也就擴(kuò)充了人類(lèi)的知識(shí)大空間。作為研究生必須擁有一小塊與人類(lèi)知識(shí)空間共同的邊界,必須在前沿工作。兩個(gè)人知識(shí)空間的碰撞叫交流。擴(kuò)充知識(shí)空間的過(guò)程叫學(xué)習(xí)。這個(gè)空間邊界就是與未知世界的接觸面。一個(gè)大學(xué)要受人尊重,不在大學(xué)的規(guī)模,不在大學(xué)的速度,而在這個(gè)大學(xué)有一代代受人尊敬的大師。除了創(chuàng)新知識(shí)之外,還有工程技術(shù)類(lèi)的學(xué)科,這只不過(guò)是在運(yùn)用規(guī)律和知識(shí),對(duì)這些學(xué)科來(lái)說(shuō),最高水平的創(chuàng)新不是新知識(shí)的產(chǎn)生。我們綜合性大學(xué)里的所有學(xué)科,實(shí)際上可以成四大類(lèi)(自然科學(xué)、社會(huì)科學(xué)、人文科學(xué)、其它),第一就是大家熟悉的自然科學(xué),對(duì)于自然科學(xué)來(lái)說(shuō),最高水平的創(chuàng)新一定是創(chuàng)新知識(shí)。面對(duì)浩如煙海的信息資源(商業(yè)上的條形碼,科學(xué)上先進(jìn)儀器觀察的數(shù)據(jù),Internet網(wǎng)上的資源信息等)的迅速增長(zhǎng),人們迫切需要新的技術(shù)和工具,以便能從大量的數(shù)據(jù)中智能地、自動(dòng)地抽取有價(jià)值的知識(shí)?!皠?chuàng)新是一個(gè)民族的靈魂”,發(fā)現(xiàn)與發(fā)明統(tǒng)稱為創(chuàng)新。此外,還需一項(xiàng)技術(shù)能夠自動(dòng)地從現(xiàn)有數(shù)據(jù)中將這個(gè)模型抽取出來(lái),這就是所謂的模型抽取技術(shù)。因?yàn)橹挥袑⑦@些站點(diǎn)上的數(shù)據(jù)都集成起來(lái),提供給用戶一個(gè)統(tǒng)一的視圖或視角,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。Web上的每一個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源,且是異構(gòu)數(shù)據(jù)源,一個(gè)站點(diǎn)和另一個(gè)站的信息和組織形式不同,這就構(gòu)成了一個(gè)更大的、復(fù)雜性更高的數(shù)據(jù)庫(kù)。如傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)結(jié)構(gòu)性很強(qiáng),稱之為完全結(jié)構(gòu)化的數(shù)據(jù),而同時(shí)還存在諸如一本書(shū)、一張圖片等完全無(wú)結(jié)構(gòu)的數(shù)據(jù)。Internet上數(shù)據(jù)的最大特點(diǎn)是半結(jié)構(gòu)化的。OLAP可以幫助人們提出假設(shè),也可以驗(yàn)證數(shù)據(jù)挖掘預(yù)測(cè)的結(jié)果;數(shù)據(jù)挖掘能夠挖掘出一個(gè)結(jié)論,但這結(jié)論是否正確,可用OLAP去驗(yàn)證。所謂多維存取,是從不同的角度根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的不同主題來(lái)得出不同的結(jié)論。它們的最本質(zhì)區(qū)別在于,數(shù)據(jù)挖掘是一種挖掘性分析工具,它主要是利用各種分析方法(算法)主動(dòng)地去挖掘大量數(shù)據(jù)中蘊(yùn)含的規(guī)律;而OLAP則是一種求證性的分析工具,即已有一個(gè)假設(shè),通過(guò)OLAP來(lái)得到驗(yàn)證。實(shí)質(zhì)上,數(shù)據(jù)倉(cāng)庫(kù)就是將異構(gòu)的數(shù)據(jù)集成起來(lái),經(jīng)過(guò)加工整理變成一個(gè)可用的數(shù)據(jù)資源。 知識(shí)發(fā)現(xiàn)與創(chuàng)新自90年代以來(lái),基于數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的知識(shí)發(fā)現(xiàn)研究,一直是人們關(guān)注和研究的熱點(diǎn)。總之,DM可廣泛應(yīng)用于銀行金融、零售與批發(fā)、制造、保險(xiǎn)、公共設(shè)施、政府、教育、遠(yuǎn)程通訊、軟件開(kāi)發(fā)、運(yùn)輸?shù)雀鱾€(gè)企事業(yè)單位及國(guó)防科研上。在遙感領(lǐng)域針對(duì)每天從衛(wèi)星上及其它方面來(lái)的巨額數(shù)據(jù),對(duì)氣象預(yù)報(bào),臭氧層監(jiān)測(cè)等能起很大作用。在網(wǎng)絡(luò)容量利用方面,DM能提供對(duì)客戶組類(lèi)服務(wù)使用的結(jié)構(gòu)和模式的了解,從而指導(dǎo)容量計(jì)劃人員對(duì)網(wǎng)絡(luò)設(shè)施作出最佳投資決策。[4] 在過(guò)程控制/質(zhì)量監(jiān)督保證方面:DM協(xié)助管理大數(shù)量變量之間的相互作用,DM能自動(dòng)發(fā)現(xiàn)出某些不正常的數(shù)據(jù)分布,暴露制造和裝配操作過(guò)程中變化情況和各種因素,從而協(xié)助質(zhì)量工程師很快地注意到問(wèn)題發(fā)生范圍和采取改正措施。[3] 在零售業(yè)/市場(chǎng)營(yíng)銷(xiāo)方面:是數(shù)據(jù)挖掘技術(shù)應(yīng)用最早也是最重要的領(lǐng)域,DM用于顧客購(gòu)貨籃的分析可以協(xié)助貨架布置,促銷(xiāo)活動(dòng)時(shí)間,促銷(xiāo)商品組合以及了解滯銷(xiāo)和暢銷(xiāo)商品狀況等商業(yè)活動(dòng)。[2] 在客戶關(guān)系管理方面:DM能找出產(chǎn)品使用模式或協(xié)助了解客戶行為,從而可以改進(jìn)通道管理(如銀行分支和ATM等)。 數(shù)據(jù)挖掘及知識(shí)發(fā)現(xiàn)的實(shí)際應(yīng)用DM(KDD)工具和軟件已在各個(gè)部門(mén)得到很好的應(yīng)用,并收到明顯的效益。可見(jiàn),案例是解決新問(wèn)題的一種知識(shí)。CBR的基礎(chǔ)是案例庫(kù),在案例庫(kù)中存放著大量成功或失敗的案例。當(dāng)人們要解決一個(gè)新問(wèn)題時(shí),總是先回顧自己以前處理過(guò)的類(lèi)似事件(案例),利用以前案例中解決問(wèn)題的方法或者處理的結(jié)果,作為參考并進(jìn)行適當(dāng)?shù)男薷模越鉀Q當(dāng)前新問(wèn)題。它們中蘊(yùn)涵著一定的規(guī)律性,通過(guò)公式發(fā)現(xiàn)算法,可以找出各種變量間的相互關(guān)系,用公式表示。一般表示為矩陣和向量。如,上例的人群數(shù)據(jù)庫(kù),通過(guò)計(jì)算可以得出身高是不重要的字段,刪除該項(xiàng)后,再合并相同數(shù)據(jù)元組,得到如下的濃縮數(shù)據(jù)表。這樣,通過(guò)可大大壓縮數(shù)據(jù)庫(kù)中的元組和字段項(xiàng),最后得到濃縮數(shù)據(jù),稱為知識(shí)基。(2)決策樹(shù)如ID3方法的決策樹(shù),是由信息量最大的字段(屬性)作為根結(jié)點(diǎn),它的各個(gè)取值為分枝,對(duì)各個(gè)分枝所劃分的數(shù)據(jù)元組(記錄)子集,重復(fù)建樹(shù)過(guò)程,擴(kuò)展決策樹(shù),最后得到相同類(lèi)別的子集,以該類(lèi)別作為葉結(jié)點(diǎn)。前提條件由字段項(xiàng)(屬性)取值的合取和析取組合而成,結(jié)論為決策字段項(xiàng)(屬性)的取值或者類(lèi)別組成。 數(shù)據(jù)挖掘的知識(shí)表示數(shù)據(jù)挖掘各種方法獲得的知識(shí)的表示形式主要有6種:規(guī)則、決策樹(shù)、知識(shí)基(濃縮數(shù)據(jù))、網(wǎng)絡(luò)權(quán)值、公式和案例。Web內(nèi)容挖掘:是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對(duì)象之間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息篩選,從而獲得指定內(nèi)容的信息。捕捉用戶的存取模式或發(fā)現(xiàn)一個(gè)Web網(wǎng)站最頻繁的訪問(wèn)路徑稱為Web使用模式挖掘或Web路徑挖掘。Web數(shù)據(jù)挖掘包括Web使用模式挖掘、Web結(jié)構(gòu)挖掘和Web內(nèi)容挖掘等。模式相似性挖掘的方法有相似度測(cè)量法、遺傳算法等。參照是給定模型的預(yù)測(cè)、外界提供的標(biāo)準(zhǔn)或另一觀察。偏差檢測(cè)的基本方法是尋找觀察結(jié)果與參照之間的差別。⑥偏差檢測(cè)(Deviation Detection):用于檢測(cè)并解釋數(shù)據(jù)分類(lèi)的偏差,它有助于濾掉知識(shí)發(fā)現(xiàn)引擎所抽取的無(wú)關(guān)信息,也可濾掉那些不合適的數(shù)據(jù),同時(shí)可產(chǎn)生新的關(guān)注性事實(shí)。T股票連續(xù)上漲兩天且DEC股票不下跌,則第三天IBM股票上漲的可能性為75%”的數(shù)據(jù)關(guān)系。聚類(lèi)分析的常用方法:? 隨機(jī)搜索聚類(lèi)法? 特征聚類(lèi)? CF樹(shù)⑤序列(Sequence)分析:序列分析主要用于分析數(shù)據(jù)倉(cāng)庫(kù)中的某類(lèi)與時(shí)間相關(guān)的數(shù)據(jù),搜索類(lèi)似的序列或子序列,并挖掘時(shí)序模式、周期性、趨勢(shì)和偏離等。聚類(lèi)分析的核心是將某些定性的相近程度測(cè)量方法轉(zhuǎn)換成定量測(cè)試方法。每一個(gè)分組中的數(shù)據(jù)相近,不同分組之間的數(shù)據(jù)相差較大。相似的程度可以通過(guò)距離函數(shù)來(lái)表示,由用戶或?qū)<抑付?。注:在?shù)據(jù)庫(kù)中,往往存在噪聲數(shù)據(jù),缺損值和疏密不均勻等問(wèn)題,他們對(duì)分類(lèi)算法獲取的知識(shí)將產(chǎn)生壞的影響。分類(lèi)分析已經(jīng)成功地用于顧客分類(lèi)、疾病分類(lèi)、商業(yè)建模和信用卡分析等。這樣就可以利用該模型來(lái)分析已有數(shù)據(jù),并預(yù)測(cè)新數(shù)據(jù)將屬于哪一個(gè)組。③分類(lèi)(Classification)分析:所謂分類(lèi)是根據(jù)數(shù)據(jù)的特征為每個(gè)類(lèi)別建立一個(gè)模型,根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分配到不同的組中。關(guān)聯(lián)分析算法:APRIORI算法、DHP算法、DIC算法、PARTITION算法及它們的各種改進(jìn)算法等。現(xiàn)在,關(guān)聯(lián)規(guī)則的挖掘已經(jīng)從單一概念層次關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)發(fā)展到多概念層次的關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),并把研究的重點(diǎn)放在提高算法的效率和規(guī)模可收縮性上。在關(guān)聯(lián)規(guī)則挖掘算法中,通常給出了置信度和支持度兩個(gè)概念,對(duì)于置信度和支持度均大于給定閾值的規(guī)則稱為強(qiáng)規(guī)則,而關(guān)聯(lián)分析主要就是對(duì)強(qiáng)規(guī)則的挖掘。建立預(yù)測(cè)模型的常用方法:? 回歸分析? 線性模型? 關(guān)聯(lián)規(guī)則? 決策樹(shù)預(yù)測(cè)? 遺傳算法? 神經(jīng)網(wǎng)絡(luò)②關(guān)聯(lián)(Association)分析:關(guān)聯(lián)規(guī)則描述了一組數(shù)據(jù)項(xiàng)之間的密切度或關(guān)系。數(shù)據(jù)挖掘的任務(wù)是從大量的數(shù)據(jù)中發(fā)現(xiàn)模式。對(duì)可視化方法主要是把數(shù)據(jù)、信息和知識(shí)轉(zhuǎn)化為可視的表示形式的過(guò)程。 知識(shí)發(fā)現(xiàn)的方法可粗分為:統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法、數(shù)據(jù)庫(kù)方法和可視化方法。故按知識(shí)發(fā)現(xiàn)的任務(wù)分類(lèi)有:關(guān)聯(lián)規(guī)則知識(shí)發(fā)現(xiàn)、序列知識(shí)發(fā)現(xiàn)、聚類(lèi)知識(shí)發(fā)現(xiàn)、分類(lèi)知識(shí)發(fā)現(xiàn)、偏差分析知識(shí)發(fā)現(xiàn)以及預(yù)測(cè)知識(shí)發(fā)現(xiàn)等類(lèi)型。由于對(duì)象不同,知識(shí)發(fā)現(xiàn)的方法相差很大,文本、多媒體、Web網(wǎng)數(shù)據(jù)均是非結(jié)構(gòu)化數(shù)據(jù),知識(shí)發(fā)現(xiàn)的難度將很大?,F(xiàn)有:關(guān)系數(shù)據(jù)的知識(shí)發(fā)現(xiàn)、模糊數(shù)據(jù)的知識(shí)發(fā)現(xiàn)、歷史數(shù)據(jù)的知識(shí)發(fā)現(xiàn)和空間數(shù)據(jù)的知識(shí)發(fā)現(xiàn)等多種不同
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1