freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

人工智能數(shù)據(jù)挖掘-資料下載頁(yè)

2025-02-20 15:25本頁(yè)面
  

【正文】 ,(4,5)包含于 (4,5,6)以及 (8)包含于 (8)。但是序列 (3) (5) 不包含于 (3,5) ,反之亦然。前者表示項(xiàng) 3和項(xiàng) 5是先后購(gòu)買的,而后者則表示項(xiàng) 3和項(xiàng) 5是同時(shí)購(gòu)買的,這就是區(qū)別所在。在一個(gè)序列集 (a set of sequences)中如果序列 s不包含于任何其他序列中,則稱序列 s為最大的 (maximal)。 序列模式挖掘 一個(gè)客戶所有的事務(wù) (transactions)可以綜合的看成是一個(gè)序列,每一個(gè)事務(wù)都由相應(yīng)的一個(gè)項(xiàng)集來表示。事務(wù)按交易時(shí)間序排列就成了一個(gè)序列。我們稱這樣的序列為客戶序列 (customersequence)。通常,將一個(gè)客戶的交易按交易時(shí)間排序成 T1 ,T2 , ……, Tn。 Ti中的項(xiàng)集定義成 itemset(Ti)。這樣,這個(gè)客戶的客戶序列就成了這樣的一個(gè)序列: 〈 itemset(T1) itemset(T2) … itemset(Tn)〉 。如圖 。 如果一個(gè)序列 s包含于一個(gè)客戶序列中,則我們稱該客戶支持(support)序列 s。一個(gè)具體序列的支持 (support)定義為那一部分支持該序列的客戶總數(shù)。 給定一個(gè)由客戶交易組成的數(shù)據(jù)庫(kù) D,挖掘序列模式的問題就是在那些具有客戶指定最小支持度 (minimum support)的序列中找出最大序列 (maximal sequence)。而每個(gè)這樣的最大序列就代表了一個(gè)序列模式 (sequential pattern)。 序列模式挖掘 一個(gè)序列的長(zhǎng)度 (length)是它所包含的項(xiàng)集 (itemset)的總數(shù)。具有 k長(zhǎng)度的序列稱為 k序列。有兩個(gè)序列 x和 y, x, y表示 x和 y經(jīng)過連接運(yùn)算形成的新的序列。 一個(gè)項(xiàng)集 i的支持是指那一部分在單次交易中買了項(xiàng)集 i中的項(xiàng)的那一部分客戶。于是項(xiàng)集 i和 1序列 i具有相同的支持。具有最小支持 (minimum support)的項(xiàng)集稱為大項(xiàng)集 (large itemset or litemset)。需要注意的是,大序列中的每一個(gè)項(xiàng)集都必須具有最小支持。因此,任何大序列都是大項(xiàng)集的列表所組成。 分 5個(gè)具體階段來找出所有的序列模式。其找出過程分為 : 排序階段、大項(xiàng)集階段、轉(zhuǎn)換階段、序列階段和選最大階段。 序列模式挖掘 序列階段算法的基本結(jié)構(gòu)是對(duì)數(shù)據(jù)進(jìn)行多次遍歷。在每次遍歷中,我們從一個(gè)由大序列 (large sequence)組成的種子集(seed set)開始,利用這個(gè)種子集,可以產(chǎn)生新的潛在的大序列。在遍歷數(shù)據(jù)的過程中,我們計(jì)算出這些候選序列的支持度,這樣在一次遍歷的最后,我們就可以決定哪些候選序列是真正的大序列,這些序列構(gòu)成下一次遍歷的種子集。在第一次遍歷前,所有在大項(xiàng)集階段得到的具有最小支持度 (minimum support)的大 1序列組成了種子集。 這里給出兩種算法,分別稱為 countall和 countsome。countall 累計(jì)所有大序 列,包括非最大序列 (nonmaximal sequence),在找最大階段 (maximal phase),這些非最大序列必須被刪除。給出一個(gè) countall算法,稱為 AprioriAll,給出一個(gè) countsome算法,稱為 AprioriSome。 WEB挖掘 隨著 Inter的日益普及,人們通過 Web接觸到了比以前多得多的數(shù)據(jù)和信息。然而,盡管 Web上有海量的數(shù)據(jù),但由于 Web頁(yè)面過于復(fù)雜、而且是無結(jié)構(gòu)的、動(dòng)態(tài)的,導(dǎo)致人們難以迅速、方便地在 Web上找到所需要的數(shù)據(jù)和信息。在面臨如此龐大的信息空間以及 Web組織無序化的情況下,搜索是解決網(wǎng)絡(luò)信息無序和混亂的一個(gè)基本方法,現(xiàn)代社會(huì)的競(jìng)爭(zhēng)趨勢(shì)要求能夠?qū)@些信息進(jìn)行實(shí)時(shí)和深層次的分析,因此,如何利用數(shù)據(jù)挖掘知識(shí),進(jìn)一步提高 Web信息搜索的性能成為眾多學(xué)者研究的熱點(diǎn)。 Web挖掘就是從 Web文檔和 Web活動(dòng)中抽取感興趣的、潛在的有用模式和隱藏的信息。 Web挖掘可以在確定權(quán)威頁(yè)面、 Web文檔分類、 Web Log挖掘、智能查詢等在很多方面發(fā)揮作用。 與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)所面對(duì)的數(shù)據(jù)相比, Web挖掘的數(shù)據(jù)源具有以下特點(diǎn): WEB挖掘 ( 1)對(duì)有效的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘而言, Web似乎太龐大了。 Web的數(shù)據(jù)量目前以 Terabytes計(jì)算,而且仍然在迅速地增長(zhǎng)。這使得幾乎不可能去構(gòu)造一個(gè)數(shù)據(jù)倉(cāng)庫(kù)來復(fù)制、存儲(chǔ)或集成 Web上的所有數(shù)據(jù)。 ( 2) Web頁(yè)面的復(fù)雜性高于任何傳統(tǒng)的文本文檔。 Web頁(yè)面缺乏統(tǒng)一的結(jié)構(gòu),它包含了遠(yuǎn)比任何一組書籍或文本文檔多得多的風(fēng)格和內(nèi)容。 ( 3) Web是一個(gè)動(dòng)態(tài)性極強(qiáng)的信息源。 Web不僅以極快的速度增長(zhǎng),而且其信息還在不斷地發(fā)生著更新。新聞、股票市場(chǎng)、公司廣告和Web服務(wù)中心都在不斷地更新著各自的頁(yè)面。鏈接信息和訪問記錄也在頻繁地更新之中。 ( 4) Web面對(duì)的是一個(gè)廣泛的形形色色的用戶群體。目前因特網(wǎng)用戶在不斷的快速增加,各個(gè)用戶可以有不同的背景、興趣和使用目的。大部分的用戶并不了解信息網(wǎng)絡(luò)結(jié)構(gòu),不清楚搜索的高昂代價(jià),極易在網(wǎng)絡(luò)中迷失方向,也極易在跳躍式的訪問中煩亂不已和在等待中失去耐心。因此 web挖掘應(yīng)能根據(jù)不同的用戶提供個(gè)性化的服務(wù)。 WEB挖掘 ( 5) web上的信息只有很小的一部分是相關(guān)的或有用的。因?yàn)槊總€(gè)用戶可能只關(guān)心很小的對(duì)自己有用的一部分信息,其余的信息對(duì)這個(gè)用戶來說就是不感興趣的,而且會(huì)淹沒所希望搜索的結(jié)果。 Web 是一個(gè)巨大的、廣泛分布的、異構(gòu)的、半結(jié)構(gòu)的、超文本 P超媒體的、相互聯(lián)系并且不斷變化的信息倉(cāng)庫(kù) , 其中包括鏈接信息、訪問使用信息等。這大量的非結(jié)構(gòu)化數(shù)據(jù)是無法使用現(xiàn)有數(shù)據(jù)庫(kù)管理系統(tǒng)來處理和管理的 , 這就對(duì) Web 進(jìn)行有效的信息抽取和知識(shí)發(fā)現(xiàn)帶來了極大的挑戰(zhàn) , 也使得 Web 數(shù)據(jù)挖掘更加復(fù)雜。 web上的信息的多樣性決定了 web數(shù)據(jù)挖掘的多樣性。按照處理對(duì)象的不同我們將 web數(shù)據(jù)挖掘分為三大類: Web內(nèi)容挖掘、 Web結(jié)構(gòu)挖掘和 Web使用記錄挖掘。 數(shù)據(jù)挖掘的研究熱點(diǎn)與發(fā)展趨勢(shì) 隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)挖掘技術(shù)的發(fā)展,從應(yīng)用的角度來看,目前有這樣一些研究熱點(diǎn):網(wǎng)站的數(shù)據(jù)挖掘、生物信息和 DNA數(shù)據(jù)分析的數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘等幾個(gè)方面。 1.電子商務(wù)網(wǎng)站的數(shù)據(jù)挖掘 2.生物信息和 DNA數(shù)據(jù)分析的數(shù)據(jù)挖掘 3.文本數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的研究熱點(diǎn)與發(fā)展趨勢(shì) 研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面。 ( 1)數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化 ( 2)可視化數(shù)據(jù)挖掘 ( 3) Web 挖掘 ( 4)復(fù)雜數(shù)據(jù)類型挖掘的新方法 ( 5)交互式發(fā)現(xiàn) ( 6)可伸縮的數(shù)據(jù)挖掘方法 ( 7)數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)和 Web 數(shù)據(jù)庫(kù)系統(tǒng)的集成 ( 8)數(shù)據(jù)挖掘中的隱私保護(hù)與信息安全 ( 9)應(yīng)用的探索 演講完畢,謝謝觀看!
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1