freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

人工智能數(shù)據(jù)挖掘-免費閱讀

2025-03-08 15:25 上一頁面

下一頁面
  

【正文】 按照處理對象的不同我們將 web數(shù)據(jù)挖掘分為三大類: Web內(nèi)容挖掘、 Web結(jié)構(gòu)挖掘和 Web使用記錄挖掘。目前因特網(wǎng)用戶在不斷的快速增加,各個用戶可以有不同的背景、興趣和使用目的。這使得幾乎不可能去構(gòu)造一個數(shù)據(jù)倉庫來復制、存儲或集成 Web上的所有數(shù)據(jù)。給出一個 countall算法,稱為 AprioriAll,給出一個 countsome算法,稱為 AprioriSome。 分 5個具體階段來找出所有的序列模式。 序列模式挖掘 一個序列的長度 (length)是它所包含的項集 (itemset)的總數(shù)。通常,將一個客戶的交易按交易時間排序成 T1 ,T2 , ……, Tn。 設(shè)有兩個序列 a a1,a2…an和 b b1,b2…bm,如果存在整數(shù) i1i2…in且 a1包含于 bi1, a2包含于 bi2, …, an包含于 bin,則稱序列 a包含于序列 b。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如“在某一段時間內(nèi) , 顧客購買商品 A , 接著購買商品 B , 而后購買商品 C , 即序列 A →B →C 出現(xiàn)的頻度較高”之類的知識。一般地,可以采用自頂向下策略,由概念層 1開始向下,到較低的更特定的概念層,對每個概念層分別計算頻繁項集,直到不能再找到頻繁項集。 } (7) Lk = { c ? Ck | ? min_sup} (8) Return L=∪ k Lk 。具體做法就是:首先找出頻繁 1項集,記為 L1;然后利用 L1來挖掘 L2 ,即頻繁 2項集;不斷如此循環(huán)下去直到無法發(fā)現(xiàn)更多的頻繁 k項集為止。 關(guān)聯(lián)規(guī)則挖掘 挖掘關(guān)聯(lián)規(guī)則主要包含以下二個步驟: 步驟一 :發(fā)現(xiàn)所有的頻繁項集,根據(jù)定義,這些項集的頻度至少應等于(預先設(shè)置的)最小支持頻度; 步驟二 :根據(jù)所獲得的頻繁項集,產(chǎn)生相應的強關(guān)聯(lián)規(guī)則。挖掘關(guān)聯(lián)規(guī)則的問題就是找出這樣一些規(guī)則 ,它們的 Support和 confidence分別大于用戶指定的最小支持度 (minisupport)和最小置信度 (miniconfidence)的限度 ,稱這些規(guī)則為強規(guī)則。X稱作規(guī)則的前提 ,Y是結(jié)果。I為數(shù)據(jù)項集(itemset),n為數(shù)據(jù)項集的長度。所以研究在數(shù)據(jù)庫中的不同的抽象層次上發(fā)掘規(guī)則是數(shù)據(jù)挖掘新的研究內(nèi)容。關(guān)聯(lián)規(guī)則挖掘目的就是從大量的數(shù)據(jù)中挖掘出有價值描述數(shù)據(jù)項之間相互聯(lián)系的有關(guān)知識。一個聚類就是由彼此相似的一組對象所構(gòu)成的集合;不同聚類中對象是不相似的。給定對象間的一種等價關(guān)系,即導致由等價類構(gòu)成的近似空間的不分明關(guān)系, Rough集就用不分明對象類形成的上近似和下近似來描述。選取概率值最大的類別作為預測值。算法從正例中的一個種子的一個選擇子 (屬性值對 )出發(fā),逐漸地增加選擇子,直到找到覆蓋所有正例的最大復合。生成最優(yōu)的決策樹同樣是NP問題。下面介紹幾種常用的分類算法。根據(jù)挖掘?qū)ο髞矸?,?shù)據(jù)挖掘方法有面向關(guān)系數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及 WEB信息等。數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識最常見的有以下四類。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計分析技術(shù)。傳統(tǒng)的查詢和報表工具是告訴人們數(shù)據(jù)庫中都有什么, OLAP則更進一步告訴人們下一步會怎么樣和如果人們采取這樣的措施又會怎么樣。數(shù)據(jù)挖掘所得到的信息應具有先未知,有效和可實用三個特征。 從上面的描述中可以看出,數(shù)據(jù)挖掘概念可以在不同的技術(shù)層面上來理解,但是其核心仍然是從數(shù)據(jù)中挖掘知識。雖然我們可以從數(shù)據(jù)倉庫、 WEB等源數(shù)據(jù)中挖掘知識,但是這些數(shù)據(jù)源都是和數(shù)據(jù)庫技術(shù)相關(guān)的。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,只不過在過去數(shù)據(jù)收集和分析的目的是用于科學研究,另外,由于當時計算能力的限制,對大數(shù)據(jù)量進行分析的復雜數(shù)據(jù)分析方法受到很大限制。數(shù)據(jù)挖掘技術(shù)正在以一種全新的概念改變著人類利用數(shù)據(jù)的方式,它被認為是未來信息處理的骨干技術(shù)之一,網(wǎng)絡(luò)之后的下一個技術(shù)熱點。 數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘( Data Mining)是一門受到來自各種不同領(lǐng)域的研究者關(guān)注的交叉性學科,有很多不同的術(shù)語名稱,除了常用的“數(shù)據(jù)挖掘”和“知識發(fā)現(xiàn)”之外,與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析、知識抽取、信息發(fā)現(xiàn)、數(shù)據(jù)采掘、知識獲取、數(shù)據(jù)考古、信息收獲和決策支持等?,F(xiàn)在,由于各行業(yè)業(yè)務(wù)自動化的實現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于純機會的商業(yè)運作而產(chǎn)生。數(shù)據(jù)倉庫是由源數(shù)據(jù)庫集成而來的,即使是像 WEB這樣的數(shù)據(jù)源恐怕也離不開數(shù)據(jù)庫技術(shù)來組織和存儲抽取的信息。從本質(zhì)來講,數(shù)據(jù)挖掘與知識發(fā)現(xiàn)是有區(qū)別的,但是在很多場合人們往往不嚴格區(qū)分數(shù)據(jù)挖掘和數(shù)據(jù)庫中的知識發(fā)現(xiàn),兩者互為使用。 先前未知的信息是指該信息是預先未曾預料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值,在商業(yè)應用中最典型的例子就是一家連鎖店通過數(shù)據(jù)挖掘發(fā)現(xiàn)了小孩尿布和啤酒之間有著驚人的聯(lián)系。用戶首先建立一個假設(shè),然后用 OLAP檢索數(shù)據(jù)庫來驗證這個假設(shè)是否正確。相反,它是統(tǒng)計分析方法學的延伸和擴展。 廣義知識 關(guān)聯(lián)知識 分類知識 預測型知識 數(shù)據(jù)挖掘概述 數(shù)據(jù)庫中發(fā)現(xiàn)知識( KDD)是 在 1989 年召開的第 11 屆國際人工智能聯(lián)合學術(shù)會議 (IJCAI) 上首次提出的。根據(jù)挖掘方法來分,數(shù)據(jù)挖掘方法可分為機器學習方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。 數(shù)據(jù)挖掘 技術(shù)簡介 1.決策樹 構(gòu)造一個決策樹分類器通常分為兩步:樹的生成和剪枝。 目前的決策樹算法通過啟發(fā)式屬性選擇策略來解決問題。在最初的 AQ11基礎(chǔ)上, AQ15增加了漸近學習,構(gòu)造學習和近似推理等功能,成為比較成熟的覆蓋算法。此方法簡單易行并且具有較好的精度。前者指的是所有對象都一定被包含,后者指的是所有對象可能被包含。就是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)項( items)之間所存在的有價值聯(lián)系。隨著收集和存儲在數(shù)據(jù)庫中的數(shù)據(jù)規(guī)模越來越大,人們對從這些數(shù)據(jù)中挖掘相應的關(guān)聯(lián)知識越來越有興趣。 關(guān)聯(lián)規(guī)則挖掘 二是提高算法效率。長度為k的數(shù)據(jù)項集稱為k 項集 (kitemsets)。規(guī)則X→Y 的支持度為s ,是指在D中有s %的事務(wù) ,既包含X同時又包含Y ,即同時出現(xiàn)數(shù)據(jù)項集X和Y的概率。通常為方便起見,都將最小支持度閾值簡寫為 min_sup;最小信任度閾值簡寫為 min_conf。根據(jù)定義這些規(guī)則必須滿足最小信任度閾值。每挖掘一層 Lk就需要掃描整個數(shù)據(jù)庫一遍。 關(guān)聯(lián)規(guī)則挖掘 2. Apriori算法的改進 雖然 Apriori算法自身已經(jīng)進行了一定的優(yōu)化,但是在實際應用中,還是存在不令人滿意的地方,于是人們相繼提出了一個改進的方法。也就是說一旦找到概念層 1的所有頻繁項集,開始在第 2層找頻繁項集,找出第 2層所有頻繁項集后,在開始找第 3層,如此下去。 序列模式挖掘 1.數(shù)據(jù)源的形式 假設(shè)我們
點擊復制文檔內(nèi)容
化學相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1