freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

人工智能數(shù)據(jù)挖掘-資料下載頁

2025-02-20 15:25本頁面
  

【正文】 ,(4,5)包含于 (4,5,6)以及 (8)包含于 (8)。但是序列 (3) (5) 不包含于 (3,5) ,反之亦然。前者表示項 3和項 5是先后購買的,而后者則表示項 3和項 5是同時購買的,這就是區(qū)別所在。在一個序列集 (a set of sequences)中如果序列 s不包含于任何其他序列中,則稱序列 s為最大的 (maximal)。 序列模式挖掘 一個客戶所有的事務 (transactions)可以綜合的看成是一個序列,每一個事務都由相應的一個項集來表示。事務按交易時間序排列就成了一個序列。我們稱這樣的序列為客戶序列 (customersequence)。通常,將一個客戶的交易按交易時間排序成 T1 ,T2 , ……, Tn。 Ti中的項集定義成 itemset(Ti)。這樣,這個客戶的客戶序列就成了這樣的一個序列: 〈 itemset(T1) itemset(T2) … itemset(Tn)〉 。如圖 。 如果一個序列 s包含于一個客戶序列中,則我們稱該客戶支持(support)序列 s。一個具體序列的支持 (support)定義為那一部分支持該序列的客戶總數(shù)。 給定一個由客戶交易組成的數(shù)據(jù)庫 D,挖掘序列模式的問題就是在那些具有客戶指定最小支持度 (minimum support)的序列中找出最大序列 (maximal sequence)。而每個這樣的最大序列就代表了一個序列模式 (sequential pattern)。 序列模式挖掘 一個序列的長度 (length)是它所包含的項集 (itemset)的總數(shù)。具有 k長度的序列稱為 k序列。有兩個序列 x和 y, x, y表示 x和 y經(jīng)過連接運算形成的新的序列。 一個項集 i的支持是指那一部分在單次交易中買了項集 i中的項的那一部分客戶。于是項集 i和 1序列 i具有相同的支持。具有最小支持 (minimum support)的項集稱為大項集 (large itemset or litemset)。需要注意的是,大序列中的每一個項集都必須具有最小支持。因此,任何大序列都是大項集的列表所組成。 分 5個具體階段來找出所有的序列模式。其找出過程分為 : 排序階段、大項集階段、轉換階段、序列階段和選最大階段。 序列模式挖掘 序列階段算法的基本結構是對數(shù)據(jù)進行多次遍歷。在每次遍歷中,我們從一個由大序列 (large sequence)組成的種子集(seed set)開始,利用這個種子集,可以產生新的潛在的大序列。在遍歷數(shù)據(jù)的過程中,我們計算出這些候選序列的支持度,這樣在一次遍歷的最后,我們就可以決定哪些候選序列是真正的大序列,這些序列構成下一次遍歷的種子集。在第一次遍歷前,所有在大項集階段得到的具有最小支持度 (minimum support)的大 1序列組成了種子集。 這里給出兩種算法,分別稱為 countall和 countsome。countall 累計所有大序 列,包括非最大序列 (nonmaximal sequence),在找最大階段 (maximal phase),這些非最大序列必須被刪除。給出一個 countall算法,稱為 AprioriAll,給出一個 countsome算法,稱為 AprioriSome。 WEB挖掘 隨著 Inter的日益普及,人們通過 Web接觸到了比以前多得多的數(shù)據(jù)和信息。然而,盡管 Web上有海量的數(shù)據(jù),但由于 Web頁面過于復雜、而且是無結構的、動態(tài)的,導致人們難以迅速、方便地在 Web上找到所需要的數(shù)據(jù)和信息。在面臨如此龐大的信息空間以及 Web組織無序化的情況下,搜索是解決網(wǎng)絡信息無序和混亂的一個基本方法,現(xiàn)代社會的競爭趨勢要求能夠對這些信息進行實時和深層次的分析,因此,如何利用數(shù)據(jù)挖掘知識,進一步提高 Web信息搜索的性能成為眾多學者研究的熱點。 Web挖掘就是從 Web文檔和 Web活動中抽取感興趣的、潛在的有用模式和隱藏的信息。 Web挖掘可以在確定權威頁面、 Web文檔分類、 Web Log挖掘、智能查詢等在很多方面發(fā)揮作用。 與傳統(tǒng)數(shù)據(jù)挖掘技術所面對的數(shù)據(jù)相比, Web挖掘的數(shù)據(jù)源具有以下特點: WEB挖掘 ( 1)對有效的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘而言, Web似乎太龐大了。 Web的數(shù)據(jù)量目前以 Terabytes計算,而且仍然在迅速地增長。這使得幾乎不可能去構造一個數(shù)據(jù)倉庫來復制、存儲或集成 Web上的所有數(shù)據(jù)。 ( 2) Web頁面的復雜性高于任何傳統(tǒng)的文本文檔。 Web頁面缺乏統(tǒng)一的結構,它包含了遠比任何一組書籍或文本文檔多得多的風格和內容。 ( 3) Web是一個動態(tài)性極強的信息源。 Web不僅以極快的速度增長,而且其信息還在不斷地發(fā)生著更新。新聞、股票市場、公司廣告和Web服務中心都在不斷地更新著各自的頁面。鏈接信息和訪問記錄也在頻繁地更新之中。 ( 4) Web面對的是一個廣泛的形形色色的用戶群體。目前因特網(wǎng)用戶在不斷的快速增加,各個用戶可以有不同的背景、興趣和使用目的。大部分的用戶并不了解信息網(wǎng)絡結構,不清楚搜索的高昂代價,極易在網(wǎng)絡中迷失方向,也極易在跳躍式的訪問中煩亂不已和在等待中失去耐心。因此 web挖掘應能根據(jù)不同的用戶提供個性化的服務。 WEB挖掘 ( 5) web上的信息只有很小的一部分是相關的或有用的。因為每個用戶可能只關心很小的對自己有用的一部分信息,其余的信息對這個用戶來說就是不感興趣的,而且會淹沒所希望搜索的結果。 Web 是一個巨大的、廣泛分布的、異構的、半結構的、超文本 P超媒體的、相互聯(lián)系并且不斷變化的信息倉庫 , 其中包括鏈接信息、訪問使用信息等。這大量的非結構化數(shù)據(jù)是無法使用現(xiàn)有數(shù)據(jù)庫管理系統(tǒng)來處理和管理的 , 這就對 Web 進行有效的信息抽取和知識發(fā)現(xiàn)帶來了極大的挑戰(zhàn) , 也使得 Web 數(shù)據(jù)挖掘更加復雜。 web上的信息的多樣性決定了 web數(shù)據(jù)挖掘的多樣性。按照處理對象的不同我們將 web數(shù)據(jù)挖掘分為三大類: Web內容挖掘、 Web結構挖掘和 Web使用記錄挖掘。 數(shù)據(jù)挖掘的研究熱點與發(fā)展趨勢 隨著網(wǎng)絡技術和數(shù)據(jù)挖掘技術的發(fā)展,從應用的角度來看,目前有這樣一些研究熱點:網(wǎng)站的數(shù)據(jù)挖掘、生物信息和 DNA數(shù)據(jù)分析的數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘等幾個方面。 1.電子商務網(wǎng)站的數(shù)據(jù)挖掘 2.生物信息和 DNA數(shù)據(jù)分析的數(shù)據(jù)挖掘 3.文本數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的研究熱點與發(fā)展趨勢 研究焦點可能會集中到以下幾個方面。 ( 1)數(shù)據(jù)挖掘語言的標準化 ( 2)可視化數(shù)據(jù)挖掘 ( 3) Web 挖掘 ( 4)復雜數(shù)據(jù)類型挖掘的新方法 ( 5)交互式發(fā)現(xiàn) ( 6)可伸縮的數(shù)據(jù)挖掘方法 ( 7)數(shù)據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)和 Web 數(shù)據(jù)庫系統(tǒng)的集成 ( 8)數(shù)據(jù)挖掘中的隱私保護與信息安全 ( 9)應用的探索 演講完畢,謝謝觀看!
點擊復制文檔內容
化學相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1