freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

人工智能數(shù)據(jù)挖掘(參考版)

2025-02-22 15:25本頁面
  

【正文】 ( 1)數(shù)據(jù)挖掘語言的標準化 ( 2)可視化數(shù)據(jù)挖掘 ( 3) Web 挖掘 ( 4)復雜數(shù)據(jù)類型挖掘的新方法 ( 5)交互式發(fā)現(xiàn) ( 6)可伸縮的數(shù)據(jù)挖掘方法 ( 7)數(shù)據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)和 Web 數(shù)據(jù)庫系統(tǒng)的集成 ( 8)數(shù)據(jù)挖掘中的隱私保護與信息安全 ( 9)應用的探索 演講完畢,謝謝觀看! 。 數(shù)據(jù)挖掘的研究熱點與發(fā)展趨勢 隨著網(wǎng)絡技術和數(shù)據(jù)挖掘技術的發(fā)展,從應用的角度來看,目前有這樣一些研究熱點:網(wǎng)站的數(shù)據(jù)挖掘、生物信息和 DNA數(shù)據(jù)分析的數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘等幾個方面。 web上的信息的多樣性決定了 web數(shù)據(jù)挖掘的多樣性。 Web 是一個巨大的、廣泛分布的、異構的、半結(jié)構的、超文本 P超媒體的、相互聯(lián)系并且不斷變化的信息倉庫 , 其中包括鏈接信息、訪問使用信息等。 WEB挖掘 ( 5) web上的信息只有很小的一部分是相關的或有用的。大部分的用戶并不了解信息網(wǎng)絡結(jié)構,不清楚搜索的高昂代價,極易在網(wǎng)絡中迷失方向,也極易在跳躍式的訪問中煩亂不已和在等待中失去耐心。 ( 4) Web面對的是一個廣泛的形形色色的用戶群體。新聞、股票市場、公司廣告和Web服務中心都在不斷地更新著各自的頁面。 ( 3) Web是一個動態(tài)性極強的信息源。 ( 2) Web頁面的復雜性高于任何傳統(tǒng)的文本文檔。 Web的數(shù)據(jù)量目前以 Terabytes計算,而且仍然在迅速地增長。 Web挖掘可以在確定權威頁面、 Web文檔分類、 Web Log挖掘、智能查詢等在很多方面發(fā)揮作用。在面臨如此龐大的信息空間以及 Web組織無序化的情況下,搜索是解決網(wǎng)絡信息無序和混亂的一個基本方法,現(xiàn)代社會的競爭趨勢要求能夠?qū)@些信息進行實時和深層次的分析,因此,如何利用數(shù)據(jù)挖掘知識,進一步提高 Web信息搜索的性能成為眾多學者研究的熱點。 WEB挖掘 隨著 Inter的日益普及,人們通過 Web接觸到了比以前多得多的數(shù)據(jù)和信息。countall 累計所有大序 列,包括非最大序列 (nonmaximal sequence),在找最大階段 (maximal phase),這些非最大序列必須被刪除。在第一次遍歷前,所有在大項集階段得到的具有最小支持度 (minimum support)的大 1序列組成了種子集。在每次遍歷中,我們從一個由大序列 (large sequence)組成的種子集(seed set)開始,利用這個種子集,可以產(chǎn)生新的潛在的大序列。其找出過程分為 : 排序階段、大項集階段、轉(zhuǎn)換階段、序列階段和選最大階段。因此,任何大序列都是大項集的列表所組成。具有最小支持 (minimum support)的項集稱為大項集 (large itemset or litemset)。 一個項集 i的支持是指那一部分在單次交易中買了項集 i中的項的那一部分客戶。具有 k長度的序列稱為 k序列。而每個這樣的最大序列就代表了一個序列模式 (sequential pattern)。一個具體序列的支持 (support)定義為那一部分支持該序列的客戶總數(shù)。如圖 。 Ti中的項集定義成 itemset(Ti)。我們稱這樣的序列為客戶序列 (customersequence)。 序列模式挖掘 一個客戶所有的事務 (transactions)可以綜合的看成是一個序列,每一個事務都由相應的一個項集來表示。前者表示項 3和項 5是先后購買的,而后者則表示項 3和項 5是同時購買的,這就是區(qū)別所在。比如序列 (3) (4,5) (8) 包含于序列 (7) (3,8) (9) (4,5,6) (8) ,因為 (3)包含于 (3,8),(4,5)包含于 (4,5,6)以及 (8)包含于 (8)。一個序列 s可以表示為 s1,s2…sn,這里的 sj代表的是一個項集。 序列模式挖掘 一個序列 (sequence)是一列排好序的項集。 2.基本定義 序列模式的元素也可以不只是一個元素 (如一本書 ),它也可以是一個項集 (item set)。 序列模式挖掘 1.數(shù)據(jù)源的形式 假設我們給定一個由客戶交易 (customer transaction)組成的大型數(shù)據(jù)庫 D,每個交易 (transaction)由客戶號 (customerid)、交易時間 (transactiontime)及在交易中購買的項 (item)組成。但序列模式挖掘側(cè)重點在于分析數(shù)據(jù)間的前后序列關系。 關聯(lián)規(guī)則挖掘 序列模式挖掘 序列模式挖掘是基于時間或者其它序列的經(jīng)常發(fā)生的模式。不過,在支持度的設置問題上有一些又考慮的東西。也就是說一旦找到概念層 1的所有頻繁項集,開始在第 2層找頻繁項集,找出第 2層所有頻繁項集后,在開始找第 3層,如此下去。 多層關聯(lián)規(guī)則的挖掘基本上可以沿用“支持度 可信度”的框架。雖然較高層次得到的規(guī)則可能是跟普通的信息,但是對于一個用戶來說是普通的信息,對于另一個用戶卻未必如此。 (1)基于劃分的方法 (2)基于 HASH技術的方法 (3)基于采樣技術的方法 對于很多應用來說,由于數(shù)據(jù)分布的分散性,所以很難在數(shù)據(jù)最細節(jié)的層次上發(fā)現(xiàn)一些強關聯(lián)規(guī)則。 關聯(lián)規(guī)則挖掘 2. Apriori算法的改進 雖然 Apriori算法自身已經(jīng)進行了一定的優(yōu)化,但是在實際應用中,還是存在不令人滿意的地方,于是人們相繼提出了一個改進的方法。 //獲得 t所包含的候選項集 (6) for each c ? Ct ++ 。k++) { (3) Ck = apriorigen ( Lk1, min_sup)。 輸入:交易數(shù)據(jù)庫 D最小支持閾值 min_sup 輸出: Li, D中的頻繁項集; 處理流程: (1) L1=find_frequent_1_itemset(D); //發(fā)現(xiàn) 1項集 (2) for(k=2。每挖掘一層 Lk就需要掃描整個數(shù)據(jù)庫一遍。這一循環(huán)方法就是利用 k項集來產(chǎn)生 (k+1)項集。 Apriori算法就是根據(jù)有關頻繁項集特性的先驗知識而命名的。由于步驟二中的相應操作極為簡單,因此挖掘關聯(lián)規(guī)則的整個性能就是由步驟一中的操作處理所決定。根據(jù)定義這些規(guī)則必須滿足最小信任度閾值。后者即用戶規(guī)定的關聯(lián)規(guī)則必須滿足的最小可信度,它反應了關聯(lián)規(guī)則的最低可靠度。因此,為了發(fā)現(xiàn)出有意義的關聯(lián)規(guī)則,需要給定兩個閾值 :最小支持度和最小可信度。 如果不考慮關聯(lián)規(guī)則的支持度和可信度,那么在事務數(shù)據(jù)庫中存在無窮多的關聯(lián)規(guī)則。通常為方便起見,都將最小支持度閾值簡寫為 min_sup;最小信任度閾值簡寫為 min_conf。所有頻繁 k項集的集合就記為 Lk。 ( 5)頻繁項集 一個項集的出現(xiàn)頻度就是整個交易數(shù)據(jù)集 D中包含該項集的交易記錄數(shù) , 若一個項集的出現(xiàn)頻度大于最小支持度閾值乘以交易記錄集 D中記錄數(shù),那么就稱該項集滿足最小支持度閾值;而滿足最小支
點擊復制文檔內(nèi)容
化學相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1