freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘概念與技術(shù)引言(編輯修改稿)

2024-10-06 09:02 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 關(guān)注。 42 生物學(xué)方法- 遺傳算法 ? 遺傳算法的研究與生物進(jìn)化理論和遺傳學(xué)密切相關(guān)。生命的基本特征包括生長(zhǎng)、繁殖、新陳代謝和遺傳與變異。生命是進(jìn)化的產(chǎn)物,現(xiàn)代的生物是在長(zhǎng)期的進(jìn)化過(guò)程中發(fā)展起來(lái)的。 ? 達(dá)爾文提出了用自然選擇來(lái)解釋生物的進(jìn)化過(guò)程,該學(xué)說(shuō)包括遺傳、變異、生存斗爭(zhēng)和適者生存三個(gè)方面。 ? 生物進(jìn)化是非常復(fù)雜的,它將涉及諸如染色體、脫氧核糖核酸、遺傳因子、種群、基因、進(jìn)化、選擇、復(fù)制、交叉、變異、編碼與解碼等許多名詞術(shù)語(yǔ),而且許多現(xiàn)象尚無(wú)法用現(xiàn)有的進(jìn)化理論來(lái)解釋。 43 生物學(xué)方法-遺傳算法 ? 遺傳算法的基本思想:從代表問(wèn)題的可能潛在解集的一個(gè)種群開(kāi)始,一個(gè)種群是由經(jīng)過(guò)基因編碼的一定數(shù)量的個(gè)體組成,每個(gè)個(gè)體是染色體帶有特征的實(shí)體,染色體是多個(gè)基因的集合,它決定了個(gè)體的形狀和外部表現(xiàn);通過(guò)模擬基因編碼形成初代種群,然后按照適者生存和優(yōu)勝劣汰的原則逐代演化產(chǎn)生出越來(lái)越好的近似解;在每一代,根據(jù)問(wèn)題域中個(gè)體的適應(yīng)度大小進(jìn)行選擇,并借助遺傳算子進(jìn)行組合交叉和變異,從而產(chǎn)生出代表新的解集的種群;以上過(guò)程將導(dǎo)致種群象自然進(jìn)化一樣的后代種群比前代種群更加適用于環(huán)境,末代種群中的最優(yōu)個(gè)體經(jīng)過(guò)解碼可以作為問(wèn)題的最優(yōu)近似解。 44 生物學(xué)方法- 遺傳算法 ? 遺傳算法中的三個(gè)基本操作: ? 選擇:即通過(guò)適應(yīng)度的計(jì)算確定重組或交叉的個(gè)體,并確定被選個(gè)體將產(chǎn)生多少個(gè)子代個(gè)體。 ? 交叉:又稱為基因重組,即結(jié)合來(lái)自父代種群中的信息產(chǎn)生新的個(gè)體。 ? 變異:即交叉之后子代的基因按小概率擾動(dòng)所產(chǎn)生的變化。 ? 遺傳算法可起到產(chǎn)生優(yōu)良后代的作用。這些后代需滿足適應(yīng)值,經(jīng)過(guò)若干代的遺傳,將得到滿足要求的后代(問(wèn)題的解)。 ? 遺傳算法提供了一種求解復(fù)雜系統(tǒng)優(yōu)化問(wèn)題的通用框架,它不依賴于問(wèn)題的具體領(lǐng)域,因此可以應(yīng)用于函數(shù)優(yōu)化、組合優(yōu)化、生產(chǎn)調(diào)度、自動(dòng)控制、機(jī)器人智能控制、圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等眾多領(lǐng)域。 45 信息論方法 ? 信息論是研究信息的測(cè)度及其性質(zhì)、信息傳輸和信息處理系統(tǒng)的一般規(guī)律的學(xué)科分支。其研究?jī)?nèi)容主要包括:以編碼理論為中心的所謂狹義信息論,它研究信息的測(cè)度、信息的容量、信源特性、信源編碼、信道和信息系統(tǒng)模型等;信號(hào)處理技術(shù),它研究信號(hào)和噪音分析、信號(hào)的過(guò)濾與檢測(cè),以及有關(guān)理論;以計(jì)算機(jī)為中心的信息處理技術(shù)與理論,例如模式識(shí)別、自學(xué)習(xí)理論、自動(dòng)機(jī)器翻譯等。 ? 在數(shù)據(jù)挖掘中,決策樹(shù)( decision tree)是一種廣泛使用的圖解法決策分析工具,它把影響各行動(dòng)的有關(guān)因素(自然狀態(tài)、概率、損益值等)用樹(shù)型圖表示,可直觀形象地表示出各條件和所允許的行動(dòng)以及各種結(jié)果中間的關(guān)系。 46 決策樹(shù)方法 ? 決策樹(shù):用樹(shù)結(jié)構(gòu)表示決策集,這些決策產(chǎn)生規(guī)則,用于對(duì)數(shù)據(jù)集進(jìn)行分類。 ? 決策樹(shù)的建立:利用訓(xùn)練集生成一個(gè)測(cè)試函數(shù),根據(jù)不同取值建立樹(shù)的分支,再在每個(gè)分支子集中重復(fù)建樹(shù)的分支的過(guò)程,即可建立決策樹(shù)。然后對(duì)決策樹(shù)進(jìn)行剪枝處理,即可得到規(guī)則。 ? 典型的決策樹(shù)方法: ID分類回歸樹(shù)( CART)、 。 47 集合論方法-約略集 ? 約略集( Rough Set)又稱為粗糙集和粗集,是由波蘭華沙理工大學(xué) Z . Pawlak教授等提出的研究不完整數(shù)據(jù)、不精確知識(shí)的表達(dá)、學(xué)習(xí)和歸納的理論與方法。 ? 約略集方法與使用統(tǒng)計(jì)學(xué)方法或模糊集合論方法處理不精確數(shù)據(jù)的方法不同,它是以對(duì)觀察和測(cè)量所得數(shù)據(jù)進(jìn)行分類的能力為基礎(chǔ)的,為智能信息處理提供了有效的理論基礎(chǔ)和處理技術(shù)。 48 集合論方法-約略集 ? 約略集理論是 1982年在 《 計(jì)算機(jī)與信息科學(xué) 》 國(guó)際雜志上發(fā)表的論文 “ Rough Sets”中首先提出的一個(gè)分析數(shù)據(jù)的數(shù)學(xué)理論。在分類的意義下,這個(gè)理論定義了模糊性與不確定性的概念,由于最初的研究大多是用波蘭文發(fā)表的,因此,這項(xiàng)研究在當(dāng)時(shí)并未引起國(guó)際計(jì)算機(jī)學(xué)界的重視,研究地域局限在東歐各國(guó)。 ? 到了 80年代末,這個(gè)理論引起了世界各國(guó)學(xué)者的注意,人們對(duì)約略集理論的主要興趣在于它恰好反映了人們以不完全信息或知識(shí)去處理一些不分明現(xiàn)象的能力,或依據(jù)觀察、度量到的某些不精確的結(jié)果而進(jìn)行分類數(shù)據(jù)的能力。如醫(yī)學(xué)、藥學(xué)、工業(yè)、工程技術(shù)、控制系統(tǒng)、社會(huì)科學(xué)、地球科學(xué)、開(kāi)關(guān)電路、圖象處理和其他許多方面都已經(jīng)成功地實(shí)現(xiàn)了它的應(yīng)用。 49 集合論方法-約略集 ? 國(guó)際上關(guān)于約略集理論和知識(shí)發(fā)現(xiàn)的會(huì)議: ? 1993年在 Banff, Alberta, Canada舉行的 The Int’l Workshop on Rough Sets and Knowledge Discovery ? 1996年在 University of Tokyo舉行的 The Fourth Int’l Workshop on Rough Sets, Fuzzy Sets, and Machine Discovery ? 研究集中在約略集理論的數(shù)學(xué)性質(zhì)、拓廣、與其他不確定方法的關(guān)系和互補(bǔ),以及有效算法等方面。 ? 基于 Rough集方法的數(shù)據(jù)挖掘工具:如ProbRough、 TRANCE、 KDDR、 LERS、DataLogic/R等。 50 精確集與約略集 ? 令 U是全域, X?U,若 X是任意基本集的并,則 X是 R(區(qū)分關(guān)系) 可定義的,否則是 R不可定義的; R可定義集也稱作 R精確集( R Exact Sets),它在 U的知識(shí)庫(kù)中可以被定義,而 R不可定義集不能在該知識(shí)庫(kù)中定義,稱為 R非精確集( R Inexact Sets)或 R約略集( R Rough Sets)。 51 約略集- 上近似與下近似 ? 約略集的基本觀點(diǎn):用一個(gè)二元關(guān)系來(lái)建構(gòu)集合的近似。信息系統(tǒng) S =( U, T, V, ?)的不可區(qū)分集合 RB(x)(在約略集理論中即等價(jià)類[x]?B)是用來(lái)近似任何子集 X?U的基石。 ? 如果用屬性 B不能精確地定義集合 X,這時(shí)可以考慮用等價(jià)關(guān)系 ?B導(dǎo)出的等價(jià)類近似地定義集合 X,給出集合 X的下近似和上近似的定義。 ? 根據(jù) X的上下近似,可以將 U分為三個(gè)區(qū)域:正區(qū)域,負(fù)區(qū)域和邊界區(qū)域。 52 概念 X的上下近似圖解 53 集合論方法- 約略集 ? 約略集理論用于分類規(guī)則挖掘:發(fā)現(xiàn)不精確數(shù)據(jù)或噪聲數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系。其基本思想是建立樣本數(shù)據(jù)內(nèi)部的等價(jià)類,而這些等價(jià)類是按照下近似和上近似“ 約略地 ” 定義的。對(duì)于每一個(gè)等價(jià)類可以產(chǎn)生相應(yīng)的判定規(guī)則,對(duì)于下近似可建立確定性規(guī)則,對(duì)于上近似可建立不確定性規(guī)則(含可信度),并用判定表表示這些規(guī)則。 ? 約略集理論用于特征歸約和相關(guān)分析:找出描述給定數(shù)據(jù)集中所有概念的最小屬性子集。 ? 約略集理論用于屬性化簡(jiǎn)及其規(guī)則篩選:減少數(shù)據(jù)庫(kù)系統(tǒng)中的冗余屬性,提高數(shù)據(jù)庫(kù)中所隱含知識(shí)的可理解性。 54 集合論方法- 模糊集方法 ? 模糊性是客觀存在的,系統(tǒng)的復(fù)雜性越高,精確化能力就越低,也就意味著模糊性越強(qiáng)。 ? 在進(jìn)行分類規(guī)則挖掘時(shí),如果采用精確值作為閾值或邊界是比較苛刻的,引入模糊集的隸屬函數(shù)后可以使分類更加接近于現(xiàn)實(shí)?;谀:碚摰姆诸惙椒ㄍǔP枰獙傩灾缔D(zhuǎn)換為模糊值,然后使用模糊規(guī)則對(duì)給定樣本數(shù)據(jù)進(jìn)行分類。 ? 模糊集合理論還可以用于對(duì)實(shí)際問(wèn)題進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類分析等。 55 統(tǒng)計(jì)學(xué)分析方法 ? 在數(shù)據(jù)挖掘中,統(tǒng)計(jì)學(xué)可應(yīng)用于預(yù)測(cè)、聚類規(guī)則挖掘和時(shí)序數(shù)據(jù)的趨勢(shì)分析等。 ? 預(yù)測(cè)是數(shù)據(jù)分析的一種重要形式,通過(guò)建立連續(xù)值函數(shù)模型,可以預(yù)測(cè)數(shù)據(jù)的未來(lái)變化趨勢(shì)。連續(xù)值的預(yù)測(cè)可以使用統(tǒng)計(jì)學(xué)中的回歸統(tǒng)計(jì)技術(shù)建模,如線性回歸、多元回歸、非線性回歸、廣義線性回歸(對(duì)數(shù)回歸、泊松回歸等)。許多問(wèn)題可以用線性回歸方法解決,而更多的問(wèn)題則可以對(duì)變量進(jìn)行變換,使得非線性的問(wèn)題轉(zhuǎn)換為線性的問(wèn)題加以處理。 56 統(tǒng)計(jì)學(xué)分析方法- 預(yù)測(cè) ? 在數(shù)據(jù)屬性之間存在兩種關(guān)系: ? 函數(shù)關(guān)系:能用函數(shù)公式表示的確定性關(guān)系,可以采用回歸分析的方法; ? 相關(guān)關(guān)系:不能用函數(shù)公式表示,但仍是相關(guān)確定的關(guān)系,可以采用相關(guān)分析和主成分分析等方法。 57 統(tǒng)計(jì)學(xué)分析方法- 聚類分析 ? 統(tǒng)計(jì)學(xué)方法還可以應(yīng)用于基于模型的聚類分析。例如,概念聚類是一種基于模型的聚類方法,它對(duì)于一組為標(biāo)記的對(duì)象,產(chǎn)生一個(gè)分類模式。這種聚類不僅能夠確定相似對(duì)象的分組,還可以發(fā)現(xiàn)每一個(gè)分組的特征描述,即每一個(gè)分組代表了一個(gè)概念或類。概念聚類的大多數(shù)方法采用了統(tǒng)計(jì)學(xué)的途徑,在決定概念或聚類時(shí)使用概率度量,用概率描述導(dǎo)出的概念。 58 可視化技術(shù) ? 可視化數(shù)據(jù)分析技術(shù)拓寬了傳統(tǒng)的圖表功能,使用戶對(duì)數(shù)據(jù)的剖析更清楚、更直觀。例如,把數(shù)據(jù)倉(cāng)庫(kù)中的多維數(shù)據(jù)或者把由數(shù)據(jù)挖掘獲得的模式和規(guī)則變成多種圖形,這對(duì)揭示數(shù)據(jù)的狀況、內(nèi)在本質(zhì)及規(guī)律性起到了重要的作用。 59 數(shù)據(jù)挖掘解決的典型商業(yè)問(wèn)題 ? 數(shù)據(jù)挖掘技術(shù)從一開(kāi)始就是面向應(yīng)用的,尤其是在如銀行、電信、保險(xiǎn)、交通、零售(如超級(jí)市場(chǎng))等商業(yè)領(lǐng)域。 ? 解決的典型商業(yè)問(wèn)題包括:數(shù)據(jù)庫(kù)營(yíng)銷( Database Marketing)、客戶群體劃分( Customer Segmentation amp。 Classification)、背景分析( Profile Analysis)、交叉銷售( Crossselling)等市場(chǎng)分析行為,以及客戶流失性分析 (Churn Analysis)、客戶信用記分 (Credit Scoring)、欺詐發(fā)現(xiàn) (Fraud Detection)等等。 60 數(shù)據(jù)挖掘在市場(chǎng)營(yíng)銷的應(yīng)用 ? 是以市場(chǎng)營(yíng)銷學(xué)的市場(chǎng)細(xì)分原理為基礎(chǔ), 其基本假定是 “ 消費(fèi)者過(guò)去的行為是其今后消費(fèi)傾向的最好說(shuō)明 ” ? 通過(guò)收集、加工和處理涉及消費(fèi)者消費(fèi)行為的大量信息,確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個(gè)體下一步的消費(fèi)行為,然后以此為基礎(chǔ),對(duì)所識(shí)別出來(lái)的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營(yíng)銷 61 數(shù)據(jù)挖掘在市場(chǎng)營(yíng)銷的應(yīng)用 ? 與傳統(tǒng)的不區(qū)分消費(fèi)者對(duì)象特征的大規(guī)模營(yíng)銷手段相比,大大節(jié)省了營(yíng)銷成本,提高了營(yíng)銷效果,從而為企業(yè)帶來(lái)更多的利潤(rùn)。 ? 基于數(shù)據(jù)挖掘的營(yíng)銷對(duì)我國(guó)當(dāng)前的市場(chǎng)競(jìng)爭(zhēng)中也很具有啟發(fā)意義,我們經(jīng)??梢钥吹椒比A商業(yè)街上一些廠商對(duì)來(lái)往行人不分對(duì)象地散發(fā)大量商品宣傳廣告,其結(jié)果是不需要的人隨手丟棄資料,而需要的人并不一定能夠得到。 ? 如果搞家電維修服務(wù)的公司向在商店中剛剛購(gòu)買家電的消費(fèi)者郵寄維修服務(wù)廣告,賣特效藥品的廠商向醫(yī)院特定門診就醫(yī)的病人郵寄廣告,肯定會(huì)比漫無(wú)目的的營(yíng)銷效果要好得多。 62 競(jìng)技運(yùn)動(dòng)中的數(shù)據(jù)挖掘 ? 美國(guó)著名的國(guó)家籃球隊(duì) NBA的教練,利用 IBM公司提供的數(shù)據(jù)挖掘
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1