freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

判別分析的數(shù)據(jù)挖掘研究畢業(yè)論文(參考版)

2025-07-01 12:54本頁(yè)面
  

【正文】 按照處理對(duì)象的不同我們將web數(shù)據(jù)挖掘分為三大類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用記錄挖掘。這大量的非結(jié)構(gòu)化數(shù)據(jù)是無(wú)法使用現(xiàn)有數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)處理和管理的, 這就對(duì)Web 進(jìn)行有效的信息抽取和知識(shí)發(fā)現(xiàn)帶來(lái)了極大的挑戰(zhàn), 也使得Web 數(shù)據(jù)挖掘更加復(fù)雜。因?yàn)槊總€(gè)用戶可能只關(guān)心很小的對(duì)自己有用的一部分信息,其余的信息對(duì)這個(gè)用戶來(lái)說(shuō)就是不感興趣的,而且會(huì)淹沒(méi)所希望搜索的結(jié)果。因此web挖掘應(yīng)能根據(jù)不同的用戶提供個(gè)性化的服務(wù)。目前因特網(wǎng)用戶在不斷的快速增加,各個(gè)用戶可以有不同的背景、興趣和使用目的。鏈接信息和訪問(wèn)記錄也在頻繁地更新之中。Web不僅以極快的速度增長(zhǎng),而且其信息還在不斷地發(fā)生著更新。Web頁(yè)面缺乏統(tǒng)一的結(jié)構(gòu),它包含了遠(yuǎn)比任何一組書籍或文本文檔多得多的風(fēng)格和內(nèi)容。這使得幾乎不可能去構(gòu)造一個(gè)數(shù)據(jù)倉(cāng)庫(kù)來(lái)復(fù)制、存儲(chǔ)或集成Web上的所有數(shù)據(jù)。與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)所面對(duì)的數(shù)據(jù)相比,Web挖掘的數(shù)據(jù)源具有以下特點(diǎn): (1)對(duì)有效的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘而言,Web似乎太龐大了。 Web挖掘就是從Web文檔和Web活動(dòng)中抽取感興趣的、潛在的有用模式和隱藏的信息。然而,盡管Web上有海量的數(shù)據(jù),但由于Web頁(yè)面過(guò)于復(fù)雜、而且是無(wú)結(jié)構(gòu)的、動(dòng)態(tài)的,導(dǎo)致人們難以迅速、方便地在Web上找到所需要的數(shù)據(jù)和信息。給出一個(gè)countall算法,稱為AprioriAll,給出一個(gè)countsome算法,稱為AprioriSome。這里給出兩種算法,分別稱為countall和countsome。在遍歷數(shù)據(jù)的過(guò)程中,我們計(jì)算出這些候選序列的支持度,這樣在一次遍歷的最后,我們就可以決定哪些候選序列是真正的大序列,這些序列構(gòu)成下一次遍歷的種子集。序列階段的算法序列階段算法的基本結(jié)構(gòu)是對(duì)數(shù)據(jù)進(jìn)行多次遍歷。 分5個(gè)具體階段來(lái)找出所有的序列模式。需要注意的是,大序列中的每一個(gè)項(xiàng)集都必須具有最小支持。于是項(xiàng)集i和1序列i具有相同的支持。有兩個(gè)序列x和y,x,y表示x和y經(jīng)過(guò)連接運(yùn)算形成的新的序列。序列模式的發(fā)現(xiàn) 一個(gè)序列的長(zhǎng)度(length)是它所包含的項(xiàng)集(itemset)的總數(shù)。 給定一個(gè)由客戶交易組成的數(shù)據(jù)庫(kù)D,挖掘序列模式的問(wèn)題就是在那些具有客戶指定最小支持度(minimum support)的序列中找出最大序列(maximal sequence)。 如果一個(gè)序列s包含于一個(gè)客戶序列中,則我們稱該客戶支持(support)序列s。Ti中的項(xiàng)集定義成itemset(Ti)。我們稱這樣的序列為客戶序列(customersequence)。一個(gè)客戶所有的事務(wù)(transactions)可以綜合的看成是一個(gè)序列,每一個(gè)事務(wù)都由相應(yīng)的一個(gè)項(xiàng)集來(lái)表示。前者表示項(xiàng)3和項(xiàng)5是先后購(gòu)買的,而后者則表示項(xiàng)3和項(xiàng)5是同時(shí)購(gòu)買的,這就是區(qū)別所在。比如序列 (3) (4,5) (8) 包含于序列 (7) (3,8) (9) (4,5,6) (8) ,因?yàn)?3)包含于(3,8),(4,5)包含于(4,5,6)以及(8)包含于(8)。一個(gè)序列s可以表示為s1,s2…sn,這里的sj代表的是一個(gè)項(xiàng)集。 一個(gè)序列(sequence)是一列排好序的項(xiàng)集。2.基本定義 序列模式的元素也可以不只是一個(gè)元素(如一本書),它也可以是一個(gè)項(xiàng)集(item set)。序列模式的概念及定義 1.?dāng)?shù)據(jù)源的形式 假設(shè)我們給定一個(gè)由客戶交易(customer transaction)組成的大型數(shù)據(jù)庫(kù)D,每個(gè)交易(transaction)由客戶號(hào)(customerid)、交易時(shí)間(transactiontime)及在交易中購(gòu)買的項(xiàng)(item)組成。但序列模式挖掘側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后序列關(guān)系。序列模式挖掘是基于時(shí)間或者其它序列的經(jīng)常發(fā)生的模式。不過(guò),在支持度的設(shè)置問(wèn)題上有一些又考慮的東西。也就是說(shuō)一旦找到概念層1的所有頻繁項(xiàng)集,開(kāi)始在第2層找頻繁項(xiàng)集,找出第2層所有頻繁項(xiàng)集后,在開(kāi)始找第3層,如此下去。 多層關(guān)聯(lián)規(guī)則的挖掘基本上可以沿用“支持度可信度”的框架。雖然較高層次得到的規(guī)則可能是跟普通的信息,但是對(duì)于一個(gè)用戶來(lái)說(shuō)是普通的信息,對(duì)于另一個(gè)用戶卻未必如此。多層關(guān)聯(lián)規(guī)則挖掘 對(duì)于很多應(yīng)用來(lái)說(shuō),由于數(shù)據(jù)分布的分散性,所以很難在數(shù)據(jù)最細(xì)節(jié)的層次上發(fā)現(xiàn)一些強(qiáng)關(guān)聯(lián)規(guī)則。 Ck | 179。 Ct ++ 。 D { //掃描數(shù)據(jù)庫(kù),以確定每個(gè)候選項(xiàng)集的支持頻度(5) Ct = subset( Ck, t )。k++) {(3) Ck = apriorigen ( Lk1, min_sup)。輸入:交易數(shù)據(jù)庫(kù)D最小支持閾值min_sup輸出:Li,D中的頻繁項(xiàng)集;處理流程:(1) L1=find_frequent_1_itemset(D);//發(fā)現(xiàn)1項(xiàng)集(2) for(k=2。每挖掘一層Lk就需要掃描整個(gè)數(shù)據(jù)庫(kù)一遍。這一循環(huán)方法就是利用k項(xiàng)集來(lái)產(chǎn)生(k+1)項(xiàng)集。Apriori算法就是根據(jù)有關(guān)頻繁項(xiàng)集特性的先驗(yàn)知識(shí)而命名的。使用 SPSS 提供的擴(kuò)展編程功能和特性,讓 SPSS for Windows 成為了最強(qiáng)大的統(tǒng)計(jì)開(kāi)發(fā)平臺(tái)之一。reg。 可編程性 SPSS 中包括了 SPSS Programmability Extension 功能,在 SPSS 命令語(yǔ)法語(yǔ)言的基礎(chǔ)上提供與其它編程語(yǔ)言的結(jié)合功能。在 中用戶可以直接在 Base 模塊中直接使用這種新的算法來(lái)對(duì)兩種以上的變量的次序輸出進(jìn)行預(yù)測(cè)。用戶還可以定制 SPSS 內(nèi)部信息顯示的方式,這樣在管理數(shù)據(jù)的時(shí)候能夠節(jié)省時(shí)間,也具備一定的靈活性。而 PDF 格式的輸出功能夠讓用戶更好地同其它人員進(jìn)行信息共享。 圖形和輸出 在SPSS 以往版本中已經(jīng)使用的一種高度可視化的構(gòu)造圖表交互界面-圖形構(gòu)建器在 SPSS 新版中得到了進(jìn)一步的加強(qiáng)。對(duì)于企業(yè)用戶來(lái)說(shuō),SPSS 服務(wù)器不僅性能得到加強(qiáng),其中用于 SPSS 預(yù)測(cè)企業(yè)服務(wù)萡 SPSS 適配器能夠讓企業(yè)內(nèi)部的各個(gè)部門能夠更有效地使用一致性的數(shù)據(jù)。除此之外,SPSS 18 還提供了新的圖形選項(xiàng)以及 PDF 格式輸出功能-這些都是用戶強(qiáng)烈要求的新特性。公司從大量的客戶反饋信息中提取有益的建議,并加入到最新的版本之中。 SPSS 業(yè)界領(lǐng)先的預(yù)測(cè)分析軟件提供商 SPSS 公司推出其旗艦統(tǒng)計(jì)分析軟件 SPSS 的最新版本 SPSS for Windows。并且現(xiàn)在很多群體只需要掌握簡(jiǎn)單的操作分析,大多青睞于SPSS,像《基于SPSS的數(shù)據(jù)分析》一書也較適用于初學(xué)者。用戶可以根據(jù)自己的分析需要和計(jì)算機(jī)的實(shí)際配置情況靈活選擇。結(jié)果可保存為*.txt, word, PPT及html格式的文件。比如由dBASE、FoxBASE、FoxPRO產(chǎn)生的*.dbf文件,文件編輯器軟件生成的ASCⅡ數(shù)據(jù)文件,Excel的*.xls文件等均可轉(zhuǎn)換成可供分析的SPSS數(shù)據(jù)文件。SPSS提供了從簡(jiǎn)單的統(tǒng)計(jì)描述到復(fù)雜的多因素統(tǒng)計(jì)分析方法,比如數(shù)據(jù)的探索性分析、統(tǒng)計(jì)描述、列聯(lián)表分析、二維相關(guān)、秩相關(guān)、偏相關(guān)、方差分析、非參數(shù)檢驗(yàn)、多元回歸、生存分析、協(xié)方差分析、判別分析、因子分析、聚類分析、非線性回歸、Logistic回歸等。 功能強(qiáng)大具有完整的數(shù)據(jù)輸入、編輯、統(tǒng)計(jì)分析、報(bào)表、圖形制作等功能。對(duì)于常見(jiàn)的統(tǒng)計(jì)方法,SPSS的命令語(yǔ)句、子命令及選擇項(xiàng)的選擇絕大部分由“對(duì)話框”的操作完成。 編程方便具有第四代語(yǔ)言的特點(diǎn),告訴系統(tǒng)要做什么,無(wú)需告訴怎樣做。而新增的SPSS Classification Trees模塊將使得SPSS軟件本身就能夠針對(duì)市場(chǎng)細(xì)分工作提供更為完整的方法體系。在13版中,SPSS軟件已經(jīng)可以和其他一些最新的產(chǎn)品很好的整合在一起,形成更為完整的解決方案。為此,本次編寫的高級(jí)教程并未介紹該模塊,而將在高級(jí)教程的下一個(gè)版本,以及關(guān)于市場(chǎng)細(xì)分問(wèn)題的教材中對(duì)其加以詳細(xì)介紹。但是,整個(gè)選項(xiàng)卡界面的內(nèi)容實(shí)際上是和原先的向?qū)Щ疽恢碌模硗?,模型的結(jié)果輸出仍然是AnswerTree中標(biāo)準(zhǔn)的樹(shù)形圖,這使得AnswerTree的老用戶基本上不需要專門的學(xué)習(xí)就能夠懂得如何使用該模塊。RT三種算法,在AnswerTree中提供的QUEST算法尚不能肯定是否會(huì)被納入。目前在市場(chǎng)細(xì)分和數(shù)據(jù)挖掘中有較廣泛的應(yīng)用??磥?lái)SPSS公司也意識(shí)到了這一點(diǎn),而AnswerTree就是在此背景下第一個(gè)被徹底整合的產(chǎn)品。 4.Classification Tree模塊這個(gè)模塊實(shí)際上就是將以前單獨(dú)發(fā)行的SPSS AnswerTree軟件整合進(jìn)了SPSS平臺(tái)。這樣,對(duì)于一個(gè)任意復(fù)雜的抽樣研究,如多階段分層整群抽樣,或者更復(fù)雜的PPS抽樣,研究者都可以在該模塊中輕松的實(shí)現(xiàn)從抽樣設(shè)計(jì)、統(tǒng)計(jì)描述到復(fù)雜統(tǒng)計(jì)建模以發(fā)現(xiàn)影響因素的整個(gè)分析過(guò)程,方差分析模型、線形回歸模型、Logistic回歸模型等復(fù)雜的統(tǒng)計(jì)模型都可以加以使用,而操作方式將會(huì)和完全隨機(jī)抽樣數(shù)據(jù)的分析操作沒(méi)有什么差別。一般線形模型將會(huì)被完整地引入復(fù)雜抽樣模塊中,以實(shí)現(xiàn)對(duì)復(fù)雜抽樣研究中各種連續(xù)性變量的建模預(yù)測(cè)功能,例如對(duì)市場(chǎng)調(diào)研中的客戶滿意度數(shù)據(jù)進(jìn)行建模。但當(dāng)時(shí)并未提供統(tǒng)計(jì)建模功能。此外,樞軸表將可以被直接導(dǎo)出到PowerPoint中,這些無(wú)疑都方便了用戶的使用。 2)統(tǒng)計(jì)表:幾乎全部過(guò)程的輸出都將會(huì)棄用文本,改為更美觀的樞軸表。首先在常規(guī)圖中引入更多的交互圖功能,如圖組(Paneled charts),帶誤差線的分類圖形如誤差線條圖和線圖,三維效果的簡(jiǎn)單、堆積和分段餅圖等。13版將針對(duì)使用中出現(xiàn)的一些問(wèn)題,以及用戶的需求對(duì)圖表功能作進(jìn)一步的改善。 2.完善的結(jié)果報(bào)告功能從10版起,對(duì)數(shù)據(jù)和結(jié)果的圖表呈現(xiàn)功能一直是SPSS改進(jìn)的重點(diǎn)。另外,Autorecode過(guò)程將可以同時(shí)對(duì)多個(gè)變量進(jìn)行重編碼,以提高分析效率。13版中的改進(jìn)可能主要有以下幾個(gè)方面: 1)超長(zhǎng)變量名:在12版中,變量名已經(jīng)最多可以為64個(gè)字符長(zhǎng)度,13版中可能還要大大放寬這一限制,以達(dá)到對(duì)當(dāng)今各種復(fù)雜數(shù)據(jù)倉(cāng)庫(kù)更好的兼容性。該軟件還可以應(yīng)用于經(jīng)濟(jì)學(xué)、生物學(xué)、心理學(xué)、地理學(xué)、醫(yī)療衛(wèi)生、體育、農(nóng)業(yè)、林業(yè)、商業(yè)、金融等各個(gè)領(lǐng)域。但是它很難與一般辦公軟件如Office或是WPS2000直接兼容,在撰寫調(diào)查報(bào)告時(shí)往往要用電子表格軟件及專業(yè)制圖軟件來(lái)重新繪制相關(guān)圖表,已經(jīng)遭到諸多統(tǒng)計(jì)學(xué)人士的批評(píng);而且SPSS作為三大綜合性統(tǒng)計(jì)軟件之一,其統(tǒng)計(jì)分析功能與另外兩個(gè)軟件即SAS和BMDP相比仍有一定欠缺。在國(guó)際學(xué)術(shù)界有條不成文的規(guī)定,即在國(guó)際學(xué)術(shù)交流中,凡是用SPSS軟件完成的計(jì)算和統(tǒng)計(jì)分析,可以不必說(shuō)明算法,由此可見(jiàn)其影響之大和信譽(yù)之高。SPSS也有專門的繪圖系統(tǒng),可以根據(jù)數(shù)據(jù)繪制各種圖形。SPSS的基本功能包括數(shù)據(jù)管理、統(tǒng)計(jì)分析、圖表分析、輸出管理等等。 SPSS for Windows是一個(gè)組合式軟件包,它集數(shù)據(jù)整理、分析功能于一身。 SPSS輸出結(jié)果雖然漂亮,但不能為WORD等常用文字處理軟件直接打開(kāi),只能采用拷貝、粘貼的方式加以交互。對(duì)于熟悉老版本編程運(yùn)行方式的用戶,SPSS還特別設(shè)計(jì)了語(yǔ)法生成窗口,用戶只需在菜單中選好各個(gè)選項(xiàng),然后按“粘貼”按鈕就可以自動(dòng)生成標(biāo)準(zhǔn)的SPS
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1