freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

判別分析的數(shù)據(jù)挖掘研究畢業(yè)論文(編輯修改稿)

2025-07-25 12:54 本頁面
 

【文章內(nèi)容簡介】 ) 數(shù)據(jù)挖掘是KDD過程的一個(gè)步驟 在“知識發(fā)現(xiàn)96國際會議” 上,許多學(xué)者建議對這兩個(gè)名詞加以區(qū)分。核心思想是:KDD是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部過程,而Data Mining則是此全部過程的一個(gè)特定的、關(guān)鍵步驟,這種觀點(diǎn)有它的合理性。雖然我們可以從數(shù)據(jù)倉庫、WEB等源數(shù)據(jù)中挖掘知識,但是這些數(shù)據(jù)源都是和數(shù)據(jù)庫技術(shù)相關(guān)的。數(shù)據(jù)倉庫是由源數(shù)據(jù)庫集成而來的,即使是像WEB這樣的數(shù)據(jù)源恐怕也離不開數(shù)據(jù)庫技術(shù)來組織和存儲抽取的信息。因此KDD是一個(gè)更廣義的范疇,它包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式生成及評估等一系列步驟。這樣,我們可以把KDD看作是一些基本功能構(gòu)件的系統(tǒng)化協(xié)同工作系統(tǒng),而數(shù)據(jù)挖掘則是這個(gè)系統(tǒng)中的一個(gè)關(guān)鍵的部分。(3)KDD與Data Mining含義相同也有些人認(rèn)為,KDD與Data Mining只是叫法不一樣,它們的含義基本相同。事實(shí)上,在現(xiàn)今的文獻(xiàn)中,許多場合,如技術(shù)綜述等,這兩個(gè)術(shù)語仍然不加區(qū)分地使用著。也有人說,KDD在人工智能界更流行;Data Mining在數(shù)據(jù)庫界使用更多。所以,從廣義的觀點(diǎn),數(shù)據(jù)挖掘是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲形式的)中,挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。從上面的描述中可以看出,數(shù)據(jù)挖掘概念可以在不同的技術(shù)層面上來理解,但是其核心仍然是從數(shù)據(jù)中挖掘知識。從本質(zhì)來講,數(shù)據(jù)挖掘與知識發(fā)現(xiàn)是有區(qū)別的,但是在很多場合人們往往不嚴(yán)格區(qū)分?jǐn)?shù)據(jù)挖掘和數(shù)據(jù)庫中的知識發(fā)現(xiàn),兩者互為使用。一般在科研領(lǐng)域中稱為KDD,而在工程領(lǐng)域則多稱為數(shù)據(jù)挖掘。 數(shù)據(jù)挖掘研究的理論基礎(chǔ)數(shù)據(jù)挖掘方法可以是基于數(shù)學(xué)理論的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。從研究的歷史看,它們可能是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)以及其它方面的學(xué)者和工程技術(shù)人員,在數(shù)據(jù)挖掘的探討性研究過程中創(chuàng)立的理論體系。1997年,Mannila對當(dāng)時(shí)流行的數(shù)據(jù)挖掘的理論框架給出了綜述。結(jié)合最新的研究成果,有下面一些重要的理論框架可以幫助我們準(zhǔn)確地理解數(shù)據(jù)挖掘的概念與技術(shù)特點(diǎn)。 模式發(fā)現(xiàn)架 規(guī)則發(fā)現(xiàn)架構(gòu) 基于概率和統(tǒng)計(jì)理論 微觀經(jīng)濟(jì)學(xué)觀點(diǎn) 基于數(shù)據(jù)壓縮理論 基于歸納數(shù)據(jù)庫理論 數(shù)據(jù)挖掘技術(shù)將來的發(fā)展趨勢:1) 數(shù)據(jù)挖掘技術(shù)已經(jīng)存在相當(dāng)大市場,將成為對工業(yè)產(chǎn)生重要影響的關(guān)鍵技術(shù)之一。同時(shí),并行計(jì)算機(jī)體系結(jié)構(gòu)研究和KDD也被列入今后5年內(nèi)公司應(yīng)該投資的10個(gè)新技術(shù)領(lǐng)域之一。這些資料都表明,數(shù)據(jù)挖掘技術(shù)在將來有很大的發(fā)展?jié)摿翱臻g。2) 數(shù)據(jù)挖掘技術(shù)作為一門新技術(shù),仍有許多問題需要研究、解決和探索。分析目前的研究和應(yīng)用現(xiàn)狀,對于數(shù)據(jù)挖掘技術(shù)將來的工作重點(diǎn)有:a. 數(shù)據(jù)挖掘技術(shù)與特定商業(yè)邏輯的平滑集成問題;b. 數(shù)據(jù)挖掘技術(shù)與特定數(shù)據(jù)存儲類型的適應(yīng)問題;c. 大型數(shù)據(jù)的選擇和規(guī)格化問題;d. 數(shù)據(jù)挖掘系統(tǒng)的構(gòu)架與交互式挖掘技術(shù);e. 數(shù)據(jù)挖掘語言與系統(tǒng)的可視化問題; f. 數(shù)據(jù)挖掘理論與算法研究。1分類和預(yù)測分類是數(shù)據(jù)挖掘中一項(xiàng)非常重要的任務(wù),目前在商業(yè)上的應(yīng)用最多。分類的目的是提出一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。分類和回歸都可用于預(yù)測,預(yù)測的目的是從歷史數(shù)據(jù)記錄中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進(jìn)行預(yù)測。分類的效果一般和數(shù)據(jù)的特點(diǎn)有關(guān),有的數(shù)據(jù)噪聲大,有的有缺省值,有的分布稀疏,有的字段或?qū)傩蚤g相關(guān)性強(qiáng),有的屬性是離散的而有的是連續(xù)值或混合式的。目前普遍認(rèn)為不存在某種方法能適合各種特點(diǎn)的數(shù)據(jù)。下面介紹幾種常用的分類算法。2決策樹構(gòu)造一個(gè)決策樹分類器通常分為兩步:樹的生成和剪枝。樹的生成采用自上而下的遞歸分治法。如果當(dāng)前訓(xùn)練例子集合中的所有實(shí)例是同類的, 構(gòu)造一個(gè)葉節(jié)點(diǎn), 節(jié)點(diǎn)內(nèi)容即是該類別。否則, 根據(jù)某種策略選擇一個(gè)屬性, 按照該屬性的不同取值, 把當(dāng)前實(shí)例集合劃分為若干子集合。對每個(gè)子集合重復(fù)此過程, 直到當(dāng)前集中的實(shí)例是同類的為止。剪枝就是剪去那些不會增大樹的錯(cuò)誤預(yù)測率的分枝。 經(jīng)過剪枝, 不僅能有效的克服噪聲, 還使樹變得簡單, 容易理解。生成最優(yōu)的決策樹同樣是NP問題。 目前的決策樹算法通過啟發(fā)式屬性選擇策略來解決問題。 3聚類分析概念 將一組物理的或抽象的對象,根據(jù)它們之間的相似程度,分為若干組;其中相似的對象構(gòu)成一組,這一過程就稱為聚類過程(clustering)。一個(gè)聚類就是由彼此相似的一組對象所構(gòu)成的集合;不同聚類中對象是不相似的。就是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)項(xiàng)(items)之間所存在的有價(jià)值聯(lián)系。在許多應(yīng)用,一個(gè)聚類中所有對象常常被當(dāng)作一個(gè)對象來進(jìn)行處理或分析等操作。 聚類分析的主要方法 在聚類分析中有大量的算法可供選擇。需要根據(jù)應(yīng)用所涉及的數(shù)據(jù)類型、聚類的目的以及具體應(yīng)用要求來選擇合適的聚類算法。如果利用聚類分析作為描述性或探索性的工具,那么就可以使用若干聚類算法對同一個(gè)數(shù)據(jù)集進(jìn)行處理以觀察可能獲得的有關(guān)(數(shù)據(jù)特征)描述。通常聚類分析算法可以劃分為以下幾大類: (1)劃分方法(2)層次方法(3)基于密度方法(4)基于網(wǎng)格方法(5)基于模型方法。(1)數(shù)據(jù)項(xiàng)和數(shù)據(jù)項(xiàng)集設(shè)I ={i1,i2,...,im}是n個(gè)不同項(xiàng)目的集合,則每一個(gè)項(xiàng)目ik(k=1,2,…,n)稱為數(shù)據(jù)項(xiàng)(item)。I為數(shù)據(jù)項(xiàng)集(itemset),n為數(shù)據(jù)項(xiàng)集的長度。長度為k的數(shù)據(jù)項(xiàng)集稱為k項(xiàng)集(kitemsets)。(2)事務(wù)一個(gè)事務(wù)T(Transaction)是數(shù)據(jù)項(xiàng)集I中的一組項(xiàng)目的集合,即T205。I。每一個(gè)事務(wù)賦予一個(gè)唯一的標(biāo)識符TID。所有事務(wù)的全體就構(gòu)成一個(gè)事務(wù)數(shù)據(jù)庫D。(3)數(shù)據(jù)項(xiàng)集的支持度數(shù)據(jù)項(xiàng)集的支持度(Support)就是數(shù)據(jù)項(xiàng)集出現(xiàn)的概率。設(shè)X是I中的一個(gè)子集,稱一個(gè)事務(wù)T包含X,當(dāng)且僅當(dāng)X205。T。X的支持度為: Support (X)=P(X)(4)關(guān)聯(lián)規(guī)則及其支持度和置信度一個(gè)關(guān)聯(lián)規(guī)則就是具有“ X→Y ”形式的蘊(yùn)含式,其中有X 205。 I, Y 205。 I且X∩Y=f 。X稱作規(guī)則的前提,Y是結(jié)果。規(guī)則X→Y的支持度為s,是指在D中有s%的事務(wù),既包含X同時(shí)又包含Y,即同時(shí)出現(xiàn)數(shù)據(jù)項(xiàng)集X和Y的概率。其表達(dá)式為Support(X→Y)=P(X∩Y)。規(guī)則X→Y的置信度(Confidence)為c,是指在D中包含X的事務(wù)有c%的事務(wù)同時(shí)又包含Y, 即出現(xiàn)數(shù)據(jù)項(xiàng)集X的前提下,出現(xiàn)數(shù)據(jù)項(xiàng)集Y的概率,其表達(dá)式為confidence(X→Y)=P(Y∣X)。支持度體現(xiàn)了項(xiàng)目集X在交易集中出現(xiàn)的頻度,置信度體現(xiàn)了項(xiàng)目集X和Y之間的關(guān)聯(lián)程度。(5)頻繁項(xiàng)集一個(gè)項(xiàng)集的出現(xiàn)頻度就是整個(gè)交易數(shù)據(jù)集D中包含該項(xiàng)集的交易記錄數(shù), 若一個(gè)項(xiàng)集的出現(xiàn)頻度大于最小支持度閾值乘以交易記錄集D中記錄數(shù),那么就稱該項(xiàng)集滿足最小支持度閾值;而滿足最小支持度閾值所對應(yīng)的交易記錄數(shù)就稱為最小支持頻度。 滿足最小支持閾值的項(xiàng)集就稱為頻繁項(xiàng)集(或稱大項(xiàng)集)。所有頻繁k項(xiàng)集的集合就記為Lk。挖掘關(guān)聯(lián)規(guī)則的問題就是找出這樣一些規(guī)則,它們的Support和confidence分別大于用戶指定的最小支持度(minisupport)和最小置信度(miniconfidence)的限度,稱這些規(guī)則為強(qiáng)規(guī)則。通常為方便起見,都將最小支持度閾值簡寫為min_sup;最小信任度閾值簡寫為min_conf。這兩個(gè)閾值均在0%到100%之間,而不是0到1之間。 如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度,那么在事務(wù)數(shù)據(jù)庫中存在無窮多的關(guān)聯(lián)規(guī)則。事實(shí)上,人們一般只對滿足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。因此,為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,需要給定兩個(gè)閾值:最小支持度和最小可信度。前者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小支持度,它表示了一個(gè)項(xiàng)集在統(tǒng)計(jì)意義上的需滿足的最低程度。后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小可信度,它反應(yīng)了關(guān)聯(lián)規(guī)則的最低可靠度。挖掘關(guān)聯(lián)規(guī)則主要包含以下二個(gè)步驟:步驟一:發(fā)現(xiàn)所有的頻繁項(xiàng)集,根據(jù)定義,這些項(xiàng)集的頻度至少應(yīng)等于(預(yù)先設(shè)置的)最小支持頻度;步驟二:根據(jù)所獲得的頻繁項(xiàng)集,產(chǎn)生相應(yīng)的強(qiáng)關(guān)聯(lián)規(guī)則。根據(jù)定義這些規(guī)則必須滿足最小信任度閾值。此外還可利用有趣性度量標(biāo)準(zhǔn)來幫助挖掘有價(jià)值的關(guān)聯(lián)規(guī)則知識。由于步驟二中的相應(yīng)操作極為簡單,因此挖掘關(guān)聯(lián)規(guī)則的整個(gè)性能就是由步驟一中的操作處理所決定。軟件spss簡介:SPSS(Statistical Product and Service Solutions),“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”軟件。最初軟件全稱為“社會科學(xué)統(tǒng)計(jì)軟件包”(Solutions Statistical Package for the Social Sciences),但是隨著SPSS產(chǎn)品服務(wù)領(lǐng)域的擴(kuò)大和服務(wù)深度的增加,SPSS公司已于2000年正式將英文全稱更改為“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”,標(biāo)志著SPSS的戰(zhàn)略方向正在做出重大調(diào)整。IBM公司2009年7月28日宣布將用12億美元收購分析軟件提供商SPSS。SPSS稱將在2009年10月2日召開特別股東大會投票表決有關(guān)將該公司出售給IBM的交易。,而且更名為IBM SPSS。 SPSS是世界上最早采用圖形菜單驅(qū)動界面的統(tǒng)計(jì)軟件,它最突出的特點(diǎn)就是操作界面極為友好,輸出結(jié)果美觀漂亮。它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來,使用Windows的窗口方式展示各種管理和分析數(shù)據(jù)方法的功能,對話框展示出各種功能選擇項(xiàng)。用戶只要掌握一定的Windows操作技能,粗通統(tǒng)計(jì)分析原理,就可以使用該軟件為特定的科研工作服務(wù)。SPSS采用類似EXCEL表格的方式輸入與管理數(shù)據(jù),數(shù)據(jù)接口較為通用,能方便的從其他數(shù)據(jù)庫中讀入數(shù)據(jù)。其統(tǒng)計(jì)過程包括了常用的、較為成熟的統(tǒng)計(jì)過程,完全可以滿足非統(tǒng)計(jì)專業(yè)人士的工作需要。輸出結(jié)果十分美觀,存儲時(shí)則是專用的SPO格式,可以轉(zhuǎn)存為HTML格式和文本格式。對于熟悉老版本編程運(yùn)行方式的用戶,SPSS還特別設(shè)計(jì)了語法生成窗口,用戶只需在菜單中選好各個(gè)選項(xiàng),然后按“粘貼”按鈕就可以自動生成標(biāo)準(zhǔn)的SPSS程序。極大的方便了中、高級用戶。 SPSS輸出結(jié)果雖然漂亮,但不能為WORD等常用文字處理軟件直接打開,只能采用拷貝、粘貼的方式加以交互。這可以說是SPSS軟件的缺陷。 SPSS for Windows是一個(gè)組合式軟件包,它集數(shù)據(jù)整理、分析功能于一身。用戶可以根據(jù)實(shí)際需要和計(jì)算機(jī)的功能選擇模塊,以降低對系統(tǒng)硬盤容量的要求,有利于該軟件的推廣應(yīng)用。SPSS的基本功能包括數(shù)據(jù)管理、統(tǒng)計(jì)分析、圖表分析、輸出管理等等。spss統(tǒng)計(jì)分析過程包括描述性統(tǒng)計(jì)、均值比較、一般線性模型、相關(guān)分析、回歸分析、對數(shù)線性模型、聚類分析、數(shù)據(jù)簡化、生存分析、時(shí)間序列分析、多重響應(yīng)等幾大類,每類中又分好幾個(gè)統(tǒng)計(jì)過程,比如回歸分析中又分線性回歸分析、曲線估計(jì)、Logistic回歸、Probit回歸、加權(quán)估計(jì)、兩階段最小二乘法、非線性回歸等多個(gè)統(tǒng)計(jì)過程,而且每個(gè)過程中又允許用戶選擇不同的方法及參數(shù)。SPSS也有專門的繪圖系統(tǒng),可以根據(jù)數(shù)據(jù)繪制各種圖形。 SPSS for Windows的
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1