freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

判別分析的數(shù)據(jù)挖掘研究畢業(yè)論文-在線瀏覽

2024-08-08 12:54本頁(yè)面
  

【正文】 DD系統(tǒng)發(fā)現(xiàn)的知識(shí)以用戶(hù)能了解的方式呈現(xiàn),并且根據(jù)需要進(jìn)行知識(shí)評(píng)價(jià)。 數(shù)據(jù)處理的概念 數(shù)據(jù)處理(data processing)是對(duì)數(shù)據(jù)的采集、存儲(chǔ)、檢索、加工、變換和傳輸。數(shù)據(jù)的形式可以是數(shù)字、文字、圖形或聲音等。數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無(wú)章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對(duì)于某些特定的人們來(lái)說(shuō)是有價(jià)值、有意義的數(shù)據(jù)。數(shù)據(jù)處理貫穿于社會(huì)生產(chǎn)和社會(huì)生活的各個(gè)領(lǐng)域?!?數(shù)據(jù)處理是對(duì)數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)進(jìn)行分析和加工的技術(shù)過(guò)程。比數(shù)據(jù)分析含義廣。如測(cè)繪制圖管理、倉(cāng)庫(kù)管理、財(cái)會(huì)管理、交通運(yùn)輸管理,技術(shù)情報(bào)管理、辦公室自動(dòng)化等。故需建立地理數(shù)據(jù)庫(kù),系統(tǒng)地整理和存儲(chǔ)地理數(shù)據(jù)減少冗余,發(fā)展數(shù)據(jù)處理軟件,充分利用數(shù)據(jù)庫(kù)技術(shù)進(jìn)行數(shù)據(jù)管理和處理。接著對(duì)數(shù)據(jù)進(jìn)行相關(guān)分分類(lèi),進(jìn)行分類(lèi)劃分之后,就可以根據(jù)具體的分析需求選擇模式分析的技術(shù),如路徑分析、興趣關(guān)聯(lián)規(guī)則、聚類(lèi)等。 近十幾年來(lái),人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千萬(wàn)萬(wàn)個(gè)數(shù)據(jù)庫(kù)被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開(kāi)發(fā)等等,并且這一勢(shì)頭仍將持續(xù)發(fā)展下去。如何才能不被信息的汪洋大海所淹沒(méi),從中及時(shí)發(fā)現(xiàn)有用的知識(shí),提高信息利用率呢?要想使數(shù)據(jù)真正成為一個(gè)公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。數(shù)據(jù)挖掘(Data Mining)是一個(gè)多學(xué)科交叉研究領(lǐng)域,它融合了數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、知識(shí)工程、面向?qū)ο蠓椒?、信息檢索、高性能計(jì)算以及數(shù)據(jù)可視化等最新技術(shù)的研究成果。特別是最近幾年來(lái),一些基本概念和方法趨于清晰,它的研究正向著更深入的方向發(fā)展。數(shù)據(jù)挖掘(Data Mining)是一門(mén)受到來(lái)自各種不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科,有很多不同的術(shù)語(yǔ)名稱(chēng),除了常用的“數(shù)據(jù)挖掘”和“知識(shí)發(fā)現(xiàn)”之外,與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析、知識(shí)抽取、信息發(fā)現(xiàn)、數(shù)據(jù)采掘、知識(shí)獲取、數(shù)據(jù)考古、信息收獲和決策支持等。還有很多和這一術(shù)語(yǔ)相近似的術(shù)語(yǔ),如從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。可以是演繹的,也可以是歸納的。因此,數(shù)據(jù)挖掘是一門(mén)很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。實(shí)際上,利用數(shù)據(jù)挖掘從數(shù)據(jù)集中所有發(fā)現(xiàn)的知識(shí)都是相對(duì)的,是有特定前提和約束條件,面向特定領(lǐng)域的,同時(shí)還要能夠易于被用戶(hù)理解。簡(jiǎn)而言之,數(shù)據(jù)挖掘其實(shí)是一類(lèi)深層次的數(shù)據(jù)分析方法。現(xiàn)在,由于各行業(yè)業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于純機(jī)會(huì)的商業(yè)運(yùn)作而產(chǎn)生。特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開(kāi)始就是面向應(yīng)用的。例如加拿大 BC 省電話公司要求加拿大 SimonFraser 大學(xué) KDD 研究組,根據(jù)其擁有十多年的客戶(hù)數(shù)據(jù),總結(jié)、分析并提出新的電話收費(fèi)和管理辦法,制定既有利于公司又有利于客戶(hù)的優(yōu)惠政策。這種需求驅(qū)動(dòng)力,比數(shù)據(jù)庫(kù)查詢(xún)更為強(qiáng)大。所有發(fā)現(xiàn)的知識(shí)都是相對(duì)的,是有特定前提和約束條件、面向特定領(lǐng)域的,同時(shí)還要能夠易于被用戶(hù)理解,最好能用自然語(yǔ)言表達(dá)發(fā)現(xiàn)結(jié)果。 數(shù)據(jù)挖掘研究現(xiàn)狀KDD一詞首先出現(xiàn)在1989年8月舉行的第11屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上。其他內(nèi)容的專(zhuān)題會(huì)議也把數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)列為議題之一,成為當(dāng)前計(jì)算機(jī)科學(xué)界的一大熱點(diǎn)。人們可以通過(guò)電子郵件相互討論 DMKD 的熱點(diǎn)問(wèn)題。隨著 DMKD 研究逐步走向深入,人們?cè)絹?lái)越清楚地認(rèn)識(shí)到,DMKD 的研究主要有 3 個(gè)技術(shù)支柱,即數(shù)據(jù)庫(kù)、人工智能和數(shù)理統(tǒng)計(jì)。數(shù)據(jù)庫(kù)最實(shí)質(zhì)的應(yīng)用僅僅是查詢(xún)嗎?理論根基最深的關(guān)系數(shù)據(jù)庫(kù)最本質(zhì)的技術(shù)進(jìn)步點(diǎn),就是數(shù)據(jù)存放和數(shù)據(jù)使用之間的相互分離。數(shù)據(jù)只為職員服務(wù),不為老板服務(wù)!這是很多單位的領(lǐng)導(dǎo)在熱心數(shù)據(jù)庫(kù)建設(shè)后發(fā)出的感嘆。另一方面,對(duì)于一個(gè)感興趣的特定領(lǐng)域客觀世界,先用數(shù)據(jù)庫(kù)技術(shù)將其形式化并組織起來(lái),就會(huì)大大提高知識(shí)獲取起點(diǎn),以后從中發(fā)掘或發(fā)現(xiàn)的所有知識(shí)都是針對(duì)該數(shù)據(jù)庫(kù)而言的。專(zhuān)家系統(tǒng)曾經(jīng)是人工智能研究工作者的驕傲。領(lǐng)域?qū)<议L(zhǎng)期以來(lái)面向一個(gè)特定領(lǐng)域的經(jīng)驗(yàn)世界,通過(guò)人腦的思維活動(dòng)積累了大量有用信息。因此,知識(shí)獲取成為專(zhuān)家系統(tǒng)研究中公認(rèn)的瓶頸問(wèn)題。此外,即使某個(gè)領(lǐng)域的知識(shí)通過(guò)一定手段獲取并表達(dá)了,但這樣做成的專(zhuān)家系統(tǒng)對(duì)常識(shí)和百科知識(shí)出奇地貧乏,而人類(lèi)專(zhuān)家的知識(shí)是以擁有大量常識(shí)為基礎(chǔ)的。例如戰(zhàn)場(chǎng)指揮員會(huì)根據(jù)在某地發(fā)現(xiàn)一只剛死的波斯貓的情報(bào)很快斷定敵高級(jí)指揮所的位置,而再好的軍事專(zhuān)家系統(tǒng)也難以顧全到如此的信息。人工智能學(xué)者開(kāi)始著手基于案例的推理,尤其是從事機(jī)器學(xué)習(xí)的科學(xué)家們,不再滿(mǎn)足自己構(gòu)造的小樣本學(xué)習(xí)模式的象牙塔,開(kāi)始正視現(xiàn)實(shí)生活中大量的、不完全的、有噪聲的、模糊的、隨機(jī)的大數(shù)據(jù)樣本,也走上了數(shù)據(jù)挖掘的道路。如今相當(dāng)強(qiáng)大有效的數(shù)理統(tǒng)計(jì)方法和工具,已成為信息咨詢(xún)業(yè)的基礎(chǔ)。然而,數(shù)理統(tǒng)計(jì)和數(shù)據(jù)庫(kù)技術(shù)結(jié)合得并不算快,數(shù)據(jù)庫(kù)查詢(xún)語(yǔ)言 SQL 中的聚合函數(shù)功能極其簡(jiǎn)單,就是一個(gè)證明。一旦人們有了從數(shù)據(jù)查詢(xún)到知識(shí)發(fā)現(xiàn)、從數(shù)據(jù)演繹到數(shù)據(jù)歸納的要求,概率論和數(shù)理統(tǒng)計(jì)就獲得了新的生命力,所以才會(huì)在 DMKD 這個(gè)結(jié)合點(diǎn)上,立即呈現(xiàn)出忽如一夜春風(fēng)來(lái),千樹(shù)萬(wàn)樹(shù)梨花開(kāi)的繁榮景象。因此,從這個(gè)意義說(shuō),數(shù)據(jù)挖掘就是從數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)以及其它數(shù)據(jù)存儲(chǔ)方式中挖掘有用知識(shí)的過(guò)程。 (2) 數(shù)據(jù)挖掘是KDD過(guò)程的一個(gè)步驟 在“知識(shí)發(fā)現(xiàn)96國(guó)際會(huì)議” 上,許多學(xué)者建議對(duì)這兩個(gè)名詞加以區(qū)分。雖然我們可以從數(shù)據(jù)倉(cāng)庫(kù)、WEB等源數(shù)據(jù)中挖掘知識(shí),但是這些數(shù)據(jù)源都是和數(shù)據(jù)庫(kù)技術(shù)相關(guān)的。因此KDD是一個(gè)更廣義的范疇,它包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式生成及評(píng)估等一系列步驟。(3)KDD與Data Mining含義相同也有些人認(rèn)為,KDD與Data Mining只是叫法不一樣,它們的含義基本相同。也有人說(shuō),KDD在人工智能界更流行;Data Mining在數(shù)據(jù)庫(kù)界使用更多。從上面的描述中可以看出,數(shù)據(jù)挖掘概念可以在不同的技術(shù)層面上來(lái)理解,但是其核心仍然是從數(shù)據(jù)中挖掘知識(shí)。一般在科研領(lǐng)域中稱(chēng)為KDD,而在工程領(lǐng)域則多稱(chēng)為數(shù)據(jù)挖掘。從研究的歷史看,它們可能是數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)以及其它方面的學(xué)者和工程技術(shù)人員,在數(shù)據(jù)挖掘的探討性研究過(guò)程中創(chuàng)立的理論體系。結(jié)合最新的研究成果,有下面一些重要的理論框架可以幫助我們準(zhǔn)確地理解數(shù)據(jù)挖掘的概念與技術(shù)特點(diǎn)。同時(shí),并行計(jì)算機(jī)體系結(jié)構(gòu)研究和KDD也被列入今后5年內(nèi)公司應(yīng)該投資的10個(gè)新技術(shù)領(lǐng)域之一。2) 數(shù)據(jù)挖掘技術(shù)作為一門(mén)新技術(shù),仍有許多問(wèn)題需要研究、解決和探索。1分類(lèi)和預(yù)測(cè)分類(lèi)是數(shù)據(jù)挖掘中一項(xiàng)非常重要的任務(wù),目前在商業(yè)上的應(yīng)用最多。分類(lèi)和回歸都可用于預(yù)測(cè),預(yù)測(cè)的目的是從歷史數(shù)據(jù)記錄中自動(dòng)推導(dǎo)出對(duì)給定數(shù)據(jù)的推廣描述,從而能對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。目前普遍認(rèn)為不存在某種方法能適合各種特點(diǎn)的數(shù)據(jù)。2決策樹(shù)構(gòu)造一個(gè)決策樹(shù)分類(lèi)器通常分為兩步:樹(shù)的生成和剪枝。如果當(dāng)前訓(xùn)練例子集合中的所有實(shí)例是同類(lèi)的, 構(gòu)造一個(gè)葉節(jié)點(diǎn), 節(jié)點(diǎn)內(nèi)容即是該類(lèi)別。對(duì)每個(gè)子集合重復(fù)此過(guò)程, 直到當(dāng)前集中的實(shí)例是同類(lèi)的為止。 經(jīng)過(guò)剪枝, 不僅能有效的克服噪聲, 還使樹(shù)變得簡(jiǎn)單, 容易理解。 目前的決策樹(shù)算法通過(guò)啟發(fā)式屬性選擇策略來(lái)解決問(wèn)題。一個(gè)聚類(lèi)就是由彼此相似的一組對(duì)象所構(gòu)成的集合;不同聚類(lèi)中對(duì)象是不相似的。在許多應(yīng)用,一個(gè)聚類(lèi)中所有對(duì)象常常被當(dāng)作一個(gè)對(duì)象來(lái)進(jìn)行處理或分析等操作。需要根據(jù)應(yīng)用所涉及的數(shù)據(jù)類(lèi)型、聚類(lèi)的目的以及具體應(yīng)用要求來(lái)選擇合適的聚類(lèi)算法。通常聚類(lèi)分析算法可以劃分為以下幾大類(lèi): (1)劃分方法(2)層次方法(3)基于密度方法(4)基于網(wǎng)格方法(5)基于模型方法。I為數(shù)據(jù)項(xiàng)集(itemset),n為數(shù)據(jù)項(xiàng)集的長(zhǎng)度。(2)事務(wù)一個(gè)事務(wù)T(Transaction)是數(shù)據(jù)項(xiàng)集I中的一組項(xiàng)目的集合,即T205。每一個(gè)事務(wù)賦予一個(gè)唯一的標(biāo)識(shí)符TID。(3)數(shù)據(jù)項(xiàng)集的支持度數(shù)據(jù)項(xiàng)集的支持度(Support)就是數(shù)據(jù)項(xiàng)集出現(xiàn)的概率。T。 I, Y 205。X稱(chēng)作規(guī)則的前提,Y是結(jié)果。其表達(dá)式為Support(X→Y)=P(X∩Y)。支持度體現(xiàn)了項(xiàng)目集X在交易集中出現(xiàn)的頻度,置信度體現(xiàn)了項(xiàng)目集X和Y之間的關(guān)聯(lián)程度。 滿(mǎn)足最小支持閾值的項(xiàng)集就稱(chēng)為頻繁項(xiàng)集(或稱(chēng)大項(xiàng)集)。挖掘關(guān)聯(lián)規(guī)則的問(wèn)題就是找出這樣一些規(guī)則,它們的Support和confidence分別大于用戶(hù)指定的最小支持度(minisupport)和最小置信度(miniconfidence)的限度,稱(chēng)這些規(guī)則為強(qiáng)規(guī)則。這兩個(gè)閾值均在0%到100%之間,而不是0到1之間。事實(shí)上,人們一般只對(duì)滿(mǎn)足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。前者即用戶(hù)規(guī)定的關(guān)聯(lián)規(guī)則必須滿(mǎn)足的最小支持度,它表示了一個(gè)項(xiàng)集在統(tǒng)計(jì)意義上的需滿(mǎn)足的最低程度。挖掘關(guān)聯(lián)規(guī)則主要包含以下二個(gè)步驟:步驟一:發(fā)現(xiàn)所有的頻繁項(xiàng)集,根據(jù)定義,這些項(xiàng)集的頻度至少應(yīng)等于(預(yù)先設(shè)置的)最小支持頻度;步驟二:根據(jù)所獲得的頻繁項(xiàng)集,產(chǎn)生相應(yīng)的強(qiáng)關(guān)聯(lián)規(guī)則。此外還可利用有趣性度量標(biāo)準(zhǔn)來(lái)幫助挖掘有價(jià)值的關(guān)聯(lián)規(guī)則知識(shí)。軟件spss簡(jiǎn)介:SPSS(Statistical Product and Service Solutions),“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”軟件。IBM公司2009年7月28日宣布將用12億美元收購(gòu)分析軟件提供商SPSS。而且更名為IBM SPSS。它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來(lái),使用Windows的窗口方式展示各種管理和分析數(shù)據(jù)方法的功能,對(duì)話框展示出各種功能選擇項(xiàng)。SPSS采用類(lèi)似EXCEL表格的方式輸入與管理數(shù)據(jù),數(shù)據(jù)接口較為通用,能方便的從其他數(shù)據(jù)庫(kù)中讀入數(shù)據(jù)。輸出結(jié)果十分美觀,存儲(chǔ)時(shí)則是專(zhuān)用的SPO格式,可以轉(zhuǎn)存為HTML格式和文本格式。極大的方便了中、高級(jí)用戶(hù)。這可以說(shuō)是SPSS軟件的缺陷。用戶(hù)可以根據(jù)實(shí)際需要和計(jì)算機(jī)的功能選擇模塊,以降低對(duì)系統(tǒng)硬盤(pán)容量的要求,有利于該軟件的推廣應(yīng)用。spss統(tǒng)計(jì)分析過(guò)程包括描述性統(tǒng)計(jì)、均值比較、一般線性模型、相關(guān)分析、回歸分析、對(duì)數(shù)線性模型、聚類(lèi)分析、數(shù)據(jù)簡(jiǎn)化、生存分析、時(shí)間序列分析、多重響應(yīng)等幾大類(lèi),每類(lèi)中又分好幾個(gè)統(tǒng)計(jì)過(guò)程,比如回歸分析中又分線性回歸分析、曲線估計(jì)、Logistic回歸、Probit回歸、加權(quán)估計(jì)、兩階段最小二乘法、非線性回歸等多個(gè)統(tǒng)計(jì)過(guò)程,而且每個(gè)過(guò)程中又允許用戶(hù)選擇不同的方法及參數(shù)。 SPSS for Windows的分析結(jié)果清晰、直觀、易學(xué)易用,而且可以直接讀取EXCEL及DBF數(shù)據(jù)文件,現(xiàn)已推廣到多種各種操作系統(tǒng)的計(jì)算機(jī)上,它和SAS、BMDP并稱(chēng)為國(guó)際上最有影響的三大統(tǒng)計(jì)軟件。(Distributed Analysis Architecture,分布式分析系統(tǒng)),全面適應(yīng)互聯(lián)網(wǎng),支持動(dòng)態(tài)收集、分析數(shù)據(jù)和HTML格式報(bào)告,依靠于諸多競(jìng)爭(zhēng)對(duì)手。 雖然如此,SPSS for Windows由于其操作簡(jiǎn)單,已經(jīng)在我國(guó)的社會(huì)科學(xué)、自然科學(xué)的各個(gè)領(lǐng)域發(fā)揮了
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1