freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

判別分析的數(shù)據(jù)挖掘研究畢業(yè)論文-文庫吧資料

2025-07-04 12:54本頁面
  

【正文】 S程序。其統(tǒng)計(jì)過程包括了常用的、較為成熟的統(tǒng)計(jì)過程,完全可以滿足非統(tǒng)計(jì)專業(yè)人士的工作需要。用戶只要掌握一定的Windows操作技能,粗通統(tǒng)計(jì)分析原理,就可以使用該軟件為特定的科研工作服務(wù)。 SPSS是世界上最早采用圖形菜單驅(qū)動(dòng)界面的統(tǒng)計(jì)軟件,它最突出的特點(diǎn)就是操作界面極為友好,輸出結(jié)果美觀漂亮。SPSS稱將在2009年10月2日召開特別股東大會(huì)投票表決有關(guān)將該公司出售給IBM的交易。最初軟件全稱為“社會(huì)科學(xué)統(tǒng)計(jì)軟件包”(Solutions Statistical Package for the Social Sciences),但是隨著SPSS產(chǎn)品服務(wù)領(lǐng)域的擴(kuò)大和服務(wù)深度的增加,SPSS公司已于2000年正式將英文全稱更改為“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”,標(biāo)志著SPSS的戰(zhàn)略方向正在做出重大調(diào)整。由于步驟二中的相應(yīng)操作極為簡單,因此挖掘關(guān)聯(lián)規(guī)則的整個(gè)性能就是由步驟一中的操作處理所決定。根據(jù)定義這些規(guī)則必須滿足最小信任度閾值。后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小可信度,它反應(yīng)了關(guān)聯(lián)規(guī)則的最低可靠度。因此,為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,需要給定兩個(gè)閾值:最小支持度和最小可信度。 如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度,那么在事務(wù)數(shù)據(jù)庫中存在無窮多的關(guān)聯(lián)規(guī)則。通常為方便起見,都將最小支持度閾值簡寫為min_sup;最小信任度閾值簡寫為min_conf。所有頻繁k項(xiàng)集的集合就記為Lk。(5)頻繁項(xiàng)集一個(gè)項(xiàng)集的出現(xiàn)頻度就是整個(gè)交易數(shù)據(jù)集D中包含該項(xiàng)集的交易記錄數(shù), 若一個(gè)項(xiàng)集的出現(xiàn)頻度大于最小支持度閾值乘以交易記錄集D中記錄數(shù),那么就稱該項(xiàng)集滿足最小支持度閾值;而滿足最小支持度閾值所對應(yīng)的交易記錄數(shù)就稱為最小支持頻度。規(guī)則X→Y的置信度(Confidence)為c,是指在D中包含X的事務(wù)有c%的事務(wù)同時(shí)又包含Y, 即出現(xiàn)數(shù)據(jù)項(xiàng)集X的前提下,出現(xiàn)數(shù)據(jù)項(xiàng)集Y的概率,其表達(dá)式為confidence(X→Y)=P(Y∣X)。規(guī)則X→Y的支持度為s,是指在D中有s%的事務(wù),既包含X同時(shí)又包含Y,即同時(shí)出現(xiàn)數(shù)據(jù)項(xiàng)集X和Y的概率。 I且X∩Y=f 。X的支持度為: Support (X)=P(X)(4)關(guān)聯(lián)規(guī)則及其支持度和置信度一個(gè)關(guān)聯(lián)規(guī)則就是具有“ X→Y ”形式的蘊(yùn)含式,其中有X 205。設(shè)X是I中的一個(gè)子集,稱一個(gè)事務(wù)T包含X,當(dāng)且僅當(dāng)X205。所有事務(wù)的全體就構(gòu)成一個(gè)事務(wù)數(shù)據(jù)庫D。I。長度為k的數(shù)據(jù)項(xiàng)集稱為k項(xiàng)集(kitemsets)。(1)數(shù)據(jù)項(xiàng)和數(shù)據(jù)項(xiàng)集設(shè)I ={i1,i2,...,im}是n個(gè)不同項(xiàng)目的集合,則每一個(gè)項(xiàng)目ik(k=1,2,…,n)稱為數(shù)據(jù)項(xiàng)(item)。如果利用聚類分析作為描述性或探索性的工具,那么就可以使用若干聚類算法對同一個(gè)數(shù)據(jù)集進(jìn)行處理以觀察可能獲得的有關(guān)(數(shù)據(jù)特征)描述。 聚類分析的主要方法 在聚類分析中有大量的算法可供選擇。就是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)項(xiàng)(items)之間所存在的有價(jià)值聯(lián)系。 3聚類分析概念 將一組物理的或抽象的對象,根據(jù)它們之間的相似程度,分為若干組;其中相似的對象構(gòu)成一組,這一過程就稱為聚類過程(clustering)。生成最優(yōu)的決策樹同樣是NP問題。剪枝就是剪去那些不會(huì)增大樹的錯(cuò)誤預(yù)測率的分枝。否則, 根據(jù)某種策略選擇一個(gè)屬性, 按照該屬性的不同取值, 把當(dāng)前實(shí)例集合劃分為若干子集合。樹的生成采用自上而下的遞歸分治法。下面介紹幾種常用的分類算法。分類的效果一般和數(shù)據(jù)的特點(diǎn)有關(guān),有的數(shù)據(jù)噪聲大,有的有缺省值,有的分布稀疏,有的字段或?qū)傩蚤g相關(guān)性強(qiáng),有的屬性是離散的而有的是連續(xù)值或混合式的。分類的目的是提出一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。分析目前的研究和應(yīng)用現(xiàn)狀,對于數(shù)據(jù)挖掘技術(shù)將來的工作重點(diǎn)有:a. 數(shù)據(jù)挖掘技術(shù)與特定商業(yè)邏輯的平滑集成問題;b. 數(shù)據(jù)挖掘技術(shù)與特定數(shù)據(jù)存儲(chǔ)類型的適應(yīng)問題;c. 大型數(shù)據(jù)的選擇和規(guī)格化問題;d. 數(shù)據(jù)挖掘系統(tǒng)的構(gòu)架與交互式挖掘技術(shù);e. 數(shù)據(jù)挖掘語言與系統(tǒng)的可視化問題; f. 數(shù)據(jù)挖掘理論與算法研究。這些資料都表明,數(shù)據(jù)挖掘技術(shù)在將來有很大的發(fā)展?jié)摿翱臻g。 模式發(fā)現(xiàn)架 規(guī)則發(fā)現(xiàn)架構(gòu) 基于概率和統(tǒng)計(jì)理論 微觀經(jīng)濟(jì)學(xué)觀點(diǎn) 基于數(shù)據(jù)壓縮理論 基于歸納數(shù)據(jù)庫理論 數(shù)據(jù)挖掘技術(shù)將來的發(fā)展趨勢:1) 數(shù)據(jù)挖掘技術(shù)已經(jīng)存在相當(dāng)大市場,將成為對工業(yè)產(chǎn)生重要影響的關(guān)鍵技術(shù)之一。1997年,Mannila對當(dāng)時(shí)流行的數(shù)據(jù)挖掘的理論框架給出了綜述。 數(shù)據(jù)挖掘研究的理論基礎(chǔ)數(shù)據(jù)挖掘方法可以是基于數(shù)學(xué)理論的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。從本質(zhì)來講,數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)是有區(qū)別的,但是在很多場合人們往往不嚴(yán)格區(qū)分?jǐn)?shù)據(jù)挖掘和數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),兩者互為使用。所以,從廣義的觀點(diǎn),數(shù)據(jù)挖掘是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲(chǔ)形式的)中,挖掘隱含在其中的、人們事先不知道的、對決策有用的知識(shí)的過程。事實(shí)上,在現(xiàn)今的文獻(xiàn)中,許多場合,如技術(shù)綜述等,這兩個(gè)術(shù)語仍然不加區(qū)分地使用著。這樣,我們可以把KDD看作是一些基本功能構(gòu)件的系統(tǒng)化協(xié)同工作系統(tǒng),而數(shù)據(jù)挖掘則是這個(gè)系統(tǒng)中的一個(gè)關(guān)鍵的部分。數(shù)據(jù)倉庫是由源數(shù)據(jù)庫集成而來的,即使是像WEB這樣的數(shù)據(jù)源恐怕也離不開數(shù)據(jù)庫技術(shù)來組織和存儲(chǔ)抽取的信息。核心思想是:KDD是從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)的全部過程,而Data Mining則是此全部過程的一個(gè)特定的、關(guān)鍵步驟,這種觀點(diǎn)有它的合理性。這種描述強(qiáng)調(diào)了數(shù)據(jù)挖掘在源數(shù)據(jù)形式上的多樣性。 數(shù)據(jù)挖掘與數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(1)KDD看成數(shù)據(jù)挖掘的一個(gè)特例數(shù)據(jù)挖掘系統(tǒng)可以在關(guān)系數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫、數(shù)據(jù)倉庫、空間數(shù)據(jù)庫(Spatial Database)、文本數(shù)據(jù)(Text Data)以及諸如WEB等多種數(shù)據(jù)組織形式中挖掘知識(shí),既然如此,那么可以說數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)只是數(shù)據(jù)挖掘的一個(gè)方面,這是早期比較流行的觀點(diǎn)。咨詢業(yè)用數(shù)據(jù)庫查詢數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不夠。信息時(shí)代,咨詢業(yè)更為發(fā)達(dá)。數(shù)理統(tǒng)計(jì)是應(yīng)用數(shù)學(xué)中最重要、最活躍的學(xué)科之一,它在計(jì)算機(jī)發(fā)明之前就誕生了,迄今已有幾百年的發(fā)展歷史。以上這 3 大難題大大限制了專家系統(tǒng)的應(yīng)用,使得專家系統(tǒng)目前還停留在構(gòu)造諸如發(fā)動(dòng)機(jī)故障論斷一類的水平上。人工智能學(xué)家 Feigenbaum 估計(jì),一般人擁有的常識(shí)存入計(jì)算機(jī)大約有 100 萬條事實(shí)和抽象經(jīng)驗(yàn)法則,離開常識(shí)的專家系統(tǒng)有時(shí)會(huì)比傻子還傻。其次,知識(shí)工程師在整理表達(dá)從領(lǐng)域?qū)<夷抢铽@得的知識(shí)時(shí),用 ifthen 等類的規(guī)則表達(dá),約束性太大,用常規(guī)數(shù)理邏輯來表達(dá)社會(huì)現(xiàn)象和人的思維活動(dòng)局限性太大,也太困難,勉強(qiáng)抽象出來的規(guī)則有很強(qiáng)的工藝色彩,差異性極大,知識(shí)表示又成為一大難題。在研制一個(gè)專家系統(tǒng)時(shí),知識(shí)工程師首先要從領(lǐng)域?qū)<夷抢铽@取知識(shí),這一過程實(shí)質(zhì)上是歸納過程,是非常復(fù)雜的個(gè)人到個(gè)人之間的交互過程,有很強(qiáng)的個(gè)性和隨機(jī)性。專家系統(tǒng)實(shí)質(zhì)上是一個(gè)問題求解系統(tǒng),目前的主要理論工具是基于謂詞演算的機(jī)器定理證明技術(shù)二階演繹系統(tǒng)。因此,在需求的驅(qū)動(dòng)下,很多數(shù)據(jù)庫學(xué)者轉(zhuǎn)向?qū)?shù)據(jù)倉庫和數(shù)據(jù)挖掘的研究,從對演繹數(shù)據(jù)庫的研究轉(zhuǎn)向?qū)w納數(shù)據(jù)庫的研究。由于數(shù)據(jù)庫文化的迅速普及,用數(shù)據(jù)庫作為知識(shí)源具有堅(jiān)實(shí)的基礎(chǔ)。查詢是數(shù)據(jù)庫的奴隸,發(fā)現(xiàn)才是數(shù)據(jù)庫的主人。數(shù)據(jù)庫技術(shù)在經(jīng)過了 80 年代的輝煌之后,已經(jīng)在各行各業(yè)成為一種數(shù)據(jù)庫文化或時(shí)尚,數(shù)據(jù)庫界目前除了關(guān)注萬維網(wǎng)數(shù)據(jù)庫、分布式數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、多媒體數(shù)據(jù)庫、查詢優(yōu)化和并行計(jì)算等技術(shù)外,已經(jīng)在開始反思。而領(lǐng)導(dǎo)整個(gè)潮流的 DMKD 開發(fā)和研究中心,當(dāng)數(shù)設(shè)在美國 EMDEN 的 IBM 公司開發(fā)部。此外,數(shù)據(jù)庫、人工智能、信息處理、知識(shí)工程等領(lǐng)域的國際學(xué)術(shù)刊物也紛紛開辟了 KDD 專題或?qū)??。迄今為止,由美國人工智能協(xié)會(huì)主辦的 KDD 國際研討會(huì)已經(jīng)召開了 7 次,規(guī)模由原來的專題討論會(huì)發(fā)展到國際學(xué)術(shù)大會(huì),人數(shù)由二三十人到七八百人,論文收錄比例從 2X1 到 6X1,研究重點(diǎn)也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。因此 DMKD 的研究成果是很講求實(shí)際的。同時(shí)需要指出的是,這里所說的知識(shí)發(fā)現(xiàn),不是要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學(xué)定理和純數(shù)學(xué)公式,更不是什么機(jī)器定理證明。這樣一來,就把人們對數(shù)據(jù)的應(yīng)用,從低層次的末端查詢操作,提高到為各級經(jīng)營決策者提供決策支持。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指導(dǎo)實(shí)際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動(dòng)進(jìn)行預(yù)測。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰?,更主要是為商業(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,只不過在過去數(shù)據(jù)收集和分析的目的是用于科學(xué)研究,另外,由于當(dāng)時(shí)計(jì)算能力的限制,對大數(shù)據(jù)量進(jìn)行分析的復(fù)雜數(shù)據(jù)分析方法受到很大限制。最好能用自然語言表達(dá)所發(fā)現(xiàn)的結(jié)果從商業(yè)的角度講,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。這個(gè)定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),也不是要去發(fā)現(xiàn)嶄新的自然科學(xué)定理和純數(shù)學(xué)公式,更不是什么機(jī)器定理證明,只要能支持特定的發(fā)現(xiàn)問題即可。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的。人們把原始數(shù)據(jù)看作是形成知識(shí)的源泉,就像從礦石中采礦一樣。 從技術(shù)的角度講,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘技術(shù)正在以一種全新的概念改變著人類利用數(shù)據(jù)的方式,它被認(rèn)為是未來信息處理的骨干技術(shù)之一,網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)。經(jīng)過十幾年的研究,產(chǎn)生了許多新概念和方法。因此,面對人們被數(shù)據(jù)淹沒,人們卻饑餓于知?的挑戰(zhàn),數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來越顯示出其強(qiáng)大的生命力。于是,一個(gè)新的挑戰(zhàn)被提了出來:在這被稱之為信息爆炸的時(shí)代,信息過量幾乎成為人人需要面對的問題。通過模式分析,找到有用的信息,再通過聯(lián)機(jī)分析(OLAP)的驗(yàn)證,結(jié)合客戶登記信息,找出有價(jià)值的市場信息,或發(fā)現(xiàn)潛在的市場?! ∮嘘P(guān)商務(wù)網(wǎng)站的數(shù)據(jù)處理:由于網(wǎng)站的訪問量非常大,在進(jìn)行一些專業(yè)的數(shù)據(jù)分析時(shí),往往要有針對性的數(shù)據(jù)清洗,即把無關(guān)的數(shù)據(jù)、不重要的數(shù)據(jù)等處理掉。在地理數(shù)據(jù)方面既有大量自然環(huán)境數(shù)據(jù)(土地、水、氣候、生物等各類資源數(shù)據(jù)),也有大量社會(huì)經(jīng)濟(jì)數(shù)據(jù)(人口、交通、工農(nóng)業(yè)等),常要求進(jìn)行綜合性數(shù)據(jù)處理。隨著計(jì)算機(jī)的日益普及,在計(jì)算及應(yīng)用領(lǐng)域中,數(shù)值計(jì)算所占比重很小,通過計(jì)算機(jī)數(shù)據(jù)處理進(jìn)行信息管理已成為主要的應(yīng)用。包括對各種原始數(shù)據(jù)的分析、整理、計(jì)算、編輯等的加工和處理。數(shù)據(jù)處理技術(shù)的發(fā)展及其應(yīng)用的廣度和深度,極大地影響著人類社會(huì)發(fā)展的進(jìn)程。數(shù)據(jù)處理是系統(tǒng)工程和自
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1