freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究(104頁(yè))(參考版)

2024-11-12 03:23本頁(yè)面
  

【正文】 數(shù)據(jù)庫(kù)作 為一種 結(jié)構(gòu)化 的數(shù)據(jù)組 織形式 ,利用 其依附的數(shù)據(jù) 模型可能 刻畫了 數(shù)據(jù)間 的關(guān)聯(lián)( 如關(guān)系 數(shù)據(jù)庫(kù) 的主鍵和外鍵)。 關(guān)聯(lián)知識(shí) 挖掘 關(guān)聯(lián) 知 識(shí)( Associatio n) 反 映 一個(gè) 事 件和 其它 事 件 之間的 依賴或 關(guān)聯(lián)。 概念分 層結(jié) 構(gòu)應(yīng) 該由 特定 的背景 知識(shí) 決定 ,由 領(lǐng)域 專家或知識(shí)工程 師整理 成合適的 形式( 如概念 樹、隊(duì) 列或規(guī)則 等)并輸入到 模式庫(kù)中 。對(duì) 這類對(duì) 象可以作 為背景 知識(shí)定 義它的結(jié)構(gòu), 在數(shù)據(jù)挖 掘的過 程中可 以根據(jù)具 體的抽 象層次 通過編碼解析等操作完成概念的抽象。 ? 操 作 導(dǎo) 出 分 層( Ope rationDrive d Hie rarchy) 有些屬 性可 能是 復(fù)雜 對(duì)象 ,包含 多類 信息 。 ? 集 合 分 組 分 層( SetGrouping Hie rarchy) 將屬性 在特 定背 景知 識(shí)下 的取值 范圍 合理 分割 ,形 成替代的離散值 或區(qū)間 集合。 例如, 作為一個(gè)跨國(guó)公司的銷售部門 DEPT 的模 式分層 結(jié)構(gòu)可能 是: DEPT→ COMPAN Y→ C IT Y→ C O UNT RY。 目前使用較多的概念分層方法有: ? 模式分層( Sche ma Hie rarchy) 利用屬 性在 特定 背景 知識(shí) 下的語(yǔ) 義層 次形 成不 同層 次的模式關(guān)聯(lián) 。例如,一個(gè) 記錄銷 售人員銷 售情況 的數(shù)據(jù)庫(kù) 的表 S A LES( EN O, E NA ME, E A GE, VA L UE, DEP T), 它的 每個(gè) 屬性的定義域 都可能存 在蘊(yùn)涵 于領(lǐng)域 知識(shí)內(nèi)的 概念延 伸。 所謂概 念分 層實(shí)際 上就 是將低層概念 集映射到 高層概 念集的 方法。因 此,探 索多層次 概念的 描述機(jī) 制是必要的 。 ( 2) 多 層 次 概念 描述 問題 由數(shù)據(jù)歸納 出的概 念是有層 次的 ,例如 , loca tio n 是“北京 工 業(yè) 大 學(xué) ”, 那 么 我 們 可 能 通 過 背 景 知 識(shí) ( Bac kgro und K now ledge)歸 納 出 “北 京 市”、“ 中國(guó) ”、“ 亞 洲” 等 不 同層次的更高 級(jí)概念。有了 泛化關(guān) 系后, 就可以對(duì)它進(jìn) 行各種深 入的操 作而生 成滿足用 戶需要 的知識(shí) ,如在泛化關(guān) 系基礎(chǔ)上 生成特 性規(guī)則 、判別規(guī) 則、分 類規(guī)則 以及關(guān)聯(lián)規(guī)則等 。 它 直接對(duì)用 戶感興 趣 的數(shù)據(jù)視圖 (用 一般的 S Q L 查詢語(yǔ) 言即可獲 得 )進(jìn)行泛 化,而不是像多維 數(shù)據(jù)分析 方法那 樣預(yù)先 就存儲(chǔ)好 了泛化 數(shù)據(jù)。近 年來,在 面向數(shù) 據(jù)庫(kù)的 廣義知識(shí) 挖掘方 面進(jìn)行 了有第 2 章 數(shù)據(jù)挖掘技術(shù) 18 針對(duì)性的研 究。其實(shí) ,這種模 型,特別 是它操 作的 完備性(如上鉆、下鉆等),可以成為廣義知識(shí)發(fā)現(xiàn)的基礎(chǔ)。 例如 ,可以存 放每周 的數(shù)據(jù) ,也可在月底 形成月數(shù) 據(jù),月 數(shù)據(jù)又 能形成年 數(shù)據(jù) 。最流 行的存 儲(chǔ)匯集 數(shù)據(jù)類的 方法是 多維數(shù) 據(jù)庫(kù)( Mul ti di me nsio n Da tabase)技 術(shù)。 ? 多 維 數(shù) 據(jù) 分 析可 以看作 是一 種廣義 知識(shí)挖 掘的 有效方法 數(shù)據(jù)分析的 經(jīng)常性 工作是數(shù) 據(jù)的聚 集, 諸如 計(jì)數(shù)、求和、平均、最 大值等 。第二 ,對(duì)于 數(shù)據(jù)挖掘系統(tǒng) 來說,正 樣本來 自于源 數(shù)據(jù)庫(kù), 而負(fù)樣 本是不 可能在源數(shù)據(jù) 庫(kù)中直接 存儲(chǔ)的 ,但是 缺乏對(duì)比 類信息 的概念 歸納是不可 靠 的。 要結(jié)合 概率統(tǒng) 計(jì)方法, 在檢驗(yàn) 部分正 樣本或負(fù)樣本 情況下得 到概念 的描述 。 傳統(tǒng)的機(jī) 器學(xué)習(xí) 希望是 精練的小樣本 集,而數(shù) 據(jù)挖掘 系統(tǒng)必 須忠實(shí)于 源數(shù)據(jù) ,是面 向大容量數(shù)據(jù) 庫(kù)等存儲(chǔ) 數(shù)據(jù)集 的。但 是,要把這種思 想應(yīng)用 到數(shù)據(jù)挖 掘中要 解決兩個(gè) 關(guān)鍵問 題。我們 知道 ,典 型的 示例 學(xué)習(xí)把樣本分 成正樣本 和負(fù)樣 本,學(xué) 習(xí)的結(jié)果 就是形 成覆蓋 所有正樣本但 不覆蓋任 何負(fù)樣 本的概 念描述。 概念描 述 是 廣義 知識(shí) 挖掘 的重要 方法 ,目 前已 經(jīng)得 到廣泛研究。概 念 描 述 分 為 特 征 性 ( Charac teri zatio n ) 描 述 和 區(qū) 別 性( Discri mi natio n) 描述 。 被挖 掘出的 廣 義知識(shí) 可以結(jié) 合可視化技術(shù) 以直觀的 圖表( 如餅圖 、柱狀圖 、曲線 圖、立 方體等)形式 展示給用 戶,也 可以作為 其它應(yīng) 用(如 分類、預(yù) 測(cè))的基礎(chǔ)知識(shí)。數(shù) 據(jù)挖掘 的目的之一就 是 根據(jù) 這些 數(shù)據(jù) 的微觀 特性發(fā)現(xiàn) 有普遍 性的、 更高層次概念 的中觀和 宏觀的 知識(shí) 。 廣義知識(shí) 挖掘 廣義知 識(shí)( Ge neraliza tio n) 是 指描 述類 別特征 的概 括性知識(shí)。 數(shù)據(jù)挖掘 常用的知識(shí)表示模式與方法 數(shù)據(jù)挖 掘的 目的 是發(fā) 現(xiàn)知 識(shí),知 識(shí)要 通過 一定 的模 式給出。 當(dāng)然, 這些 分類 方法 都從 不同角 度, 刻畫 了數(shù) 據(jù)挖 掘研究的策略 和范疇, 他們是 互相交 叉而相互 補(bǔ)充的 。 根據(jù)挖 掘方 法可 以分 為: 機(jī)器學(xué) 習(xí)方 法、 統(tǒng)計(jì) 方法 、聚類分 析方 法 、 探 索性 分析 、 神經(jīng) 網(wǎng)絡(luò) ( Ne ural Ne tw or k)方法、遺傳 算法( Ge ne tic Al gorithm)、數(shù)據(jù) 庫(kù)方法 、近似 推理和不確定 性推理方 法、基 于證據(jù) 理論和元 模式的 方法、 現(xiàn)代數(shù)學(xué)分析方法、粗糙集( Rough Set)方法、集成方法等。 根據(jù)挖 掘任 務(wù)可 以分 為: 分類或 預(yù)測(cè) 模型 發(fā)現(xiàn) 、數(shù) 據(jù)總結(jié)與聚類 發(fā)現(xiàn)、關(guān) 聯(lián)規(guī)則 發(fā)現(xiàn)、 序列模式 發(fā)現(xiàn)、 相似模 式發(fā)現(xiàn)、混沌 模式發(fā)現(xiàn) 、依賴 關(guān)系或 依賴模型 發(fā)現(xiàn)、 異常和 趨勢(shì)發(fā)現(xiàn)等。 為了弄 清相關(guān)的 概念和 技術(shù)路 線,仍有大量的工作等待我們?nèi)ヌ剿骱蛧L 試。對(duì)于特定 的研究和 開發(fā)領(lǐng) 域來說 ,它們是 相互交 叉并且 有所側(cè)重的。這類研究的上升趨勢(shì)可以通過 AC M SOGMOD?02 會(huì)議的相關(guān)論 文數(shù)量 得到驗(yàn)證 [ 1 3]。 (7) 可 視 化 數(shù) 據(jù) 挖掘 ( Visual Data Mining) 1997 年, Kei m 等 對(duì)可視化 數(shù)據(jù)挖 掘的相關(guān) 技術(shù)給 出了綜述 [ 1 2]。 一個(gè) 數(shù)據(jù) 挖 掘系 統(tǒng)必 須 具有 原始 數(shù) 據(jù)庫(kù)和模式庫(kù) ,數(shù)據(jù)挖 掘的過 程就是 歸納的數(shù) 據(jù)查詢 過程。按 C ha krabarti 等人的描 述,最小 描述長(zhǎng) 度( MD L Mi ni mum Descriptio n Le ngth )原 理可以評(píng) 價(jià)一個(gè) 壓縮方法 的優(yōu)劣 ,即最好的 壓 縮方法應(yīng) 該是概 念本身 的描述和 把它作 為預(yù)測(cè) 器的編碼長(zhǎng)度都最小 [ 10]。 (5) 基 于 數(shù) 據(jù) 壓 縮( Data Compression)理論 在這種 理論 框架 下, 數(shù)據(jù) 挖掘技 術(shù)被 看作 是對(duì) 數(shù)據(jù) 的壓縮的 過程 [ 10 ] 。他們認(rèn) 為,如 果一個(gè) 知識(shí)模式對(duì)一 個(gè)企業(yè)是 有效的 話,那 么它就是 有 趣的 。 (4) 微 觀 經(jīng) 濟(jì) 學(xué) 觀點(diǎn) ( Microeconomic View) 在這種 理論 框架 下, 數(shù)據(jù) 挖掘技 術(shù)被 看作 是一 個(gè)問 題的優(yōu)化過程 [ 9] 。特 別是, 最近十年,統(tǒng) 計(jì)學(xué)已經(jīng) 成為支 撐數(shù)據(jù) 倉(cāng)庫(kù)、數(shù) 據(jù)挖掘 技術(shù)的 重要理論基礎(chǔ) 。統(tǒng)計(jì) 學(xué)作為一個(gè)古 老的學(xué)科 ,已經(jīng) 在數(shù)據(jù) 挖掘中得 到廣泛 的 應(yīng)用 。目 前,這 種方法在 數(shù)據(jù)挖 掘的分 類和聚類研究 和應(yīng)用中 取得了 很好的 成果。 (3) 基 于 概 率 和 統(tǒng)計(jì) 理論 在這 種理 論框 架下 ,數(shù) 據(jù)挖 掘技 術(shù)被 看作 是從 大量 源數(shù)據(jù)集中發(fā)現(xiàn) 隨機(jī)變 量的概率 分布情 況的過程 [1, 8] 。他 們給 出了統(tǒng) 一的 挖掘 模型 和規(guī)則 發(fā)現(xiàn) 過程 中的第 2 章 數(shù)據(jù)挖掘技術(shù) 14 幾個(gè)基本 運(yùn)算,解 決了數(shù) 據(jù)挖掘 問題如何 映射到 模型和 通過基本運(yùn)算 發(fā)現(xiàn)規(guī)則 的問題 。 近幾年 ,也已 經(jīng)開始多模式的知識(shí)發(fā)現(xiàn)的研究。按著這種 架構(gòu),我 們可以 針對(duì)不 同的知識(shí) 模式的 發(fā)現(xiàn)過 程進(jìn)行研究。 結(jié)合最 新的 研究成 果, 有下面一些重 要的理論 框架可 以幫助 我們準(zhǔn)確 地理解 數(shù)據(jù)挖 掘的概念與技術(shù)特點(diǎn): (1) 模式發(fā)現(xiàn)( Pattern Discovery)架構(gòu) 在這種 理論 框架 下, 數(shù)據(jù) 挖掘技 術(shù)被 認(rèn)為 是從 源數(shù) 據(jù)集中發(fā)現(xiàn)知識(shí) 模式的 過程 [1, 2, 4] 。 從 研究的 歷史看 ,它們可能是 數(shù)據(jù)庫(kù)、 人工智 能、數(shù) 理統(tǒng)計(jì)、 計(jì)算機(jī) 科學(xué)以 及其它 方面的 學(xué)者和工 程技術(shù) 人員, 在 數(shù)據(jù)挖 掘 的探 討性研 究過程中創(chuàng)立 的 理論體 系 。經(jīng)過 十幾年 的探索, 一些重 要的理 論框架已經(jīng)形 成,并且 吸引著 眾多的 研究和開 發(fā)者為 此進(jìn)一 步工作,向著更深入的方向發(fā)展。雖 然關(guān)于 數(shù)據(jù)挖 掘的理論 基礎(chǔ)問 題仍然 沒有到完全成 熟的地步 ,但是 分析它 的發(fā)展可 以使我 們對(duì)數(shù) 據(jù)挖掘的概念 更清楚。 本文除了 在第 2 章 使用數(shù)據(jù)挖掘 的廣義定 義外, 為了避 免引起混 淆,其 它章節(jié) 寧愿使用數(shù)據(jù)挖掘的狹義定義。 從上面 的描 述中 可以 看出 ,數(shù)據(jù) 挖掘 概念 可以 在不 同的第 2 章 數(shù)據(jù)挖掘技術(shù) 13 技術(shù)層面 上來理解 ,但是 其核心 仍然是從 數(shù)據(jù)中 挖掘知 識(shí)。也 有人說, KDD 在人 工智能界 更流行 ; Da ta Mi ni ng 在 數(shù)據(jù)庫(kù) 界使用更多。 ( 3) KDD與 Data Mining含義相同 有些人認(rèn)為 , KDD 與 Data Mi ni ng 只是叫法 不一樣 ,它們的含義 基本相同 。 數(shù)據(jù)挖掘作為 K DD 的 一個(gè)重 要步驟看 待,可 以使我們 更容易 聚焦研究重點(diǎn) ,有效解 決問題 。源 數(shù)據(jù)經(jīng) 過清洗 和轉(zhuǎn)換等成為 適合于挖 掘的數(shù) 據(jù)集, 數(shù)據(jù)挖掘 在這種 具有固 定形式的數(shù)據(jù) 集上完成 知識(shí)的 提煉, 最后以合 適的知 識(shí)模式 用于進(jìn)一步分 析決策工 作。因此 K DD 是 一個(gè)更 廣義的范 疇,它包括數(shù) 據(jù)清洗、 數(shù)據(jù)集 成、數(shù) 據(jù)選擇、 數(shù)據(jù)轉(zhuǎn) 換、數(shù) 據(jù)挖掘、模式生成 及評(píng)估 等一系列 步驟。 雖然我 們可以從數(shù)據(jù)倉(cāng) 庫(kù)、 WE B 等 源數(shù)據(jù)中 挖掘知 識(shí),但是 這些數(shù) 據(jù)源都是和數(shù) 據(jù)庫(kù)技術(shù) 相關(guān)的 。核心 思想是: K DD 是 從數(shù)據(jù) 庫(kù)中發(fā)現(xiàn)知識(shí)的 全部過 程,而 Data Mini ng 則是此全 部過程 的一個(gè)特定的 、關(guān)鍵步 驟。 這種描述強(qiáng)調(diào)了數(shù)據(jù)挖掘在源數(shù)據(jù)形式上的多樣性。這是 早期比 較流第 2 章 數(shù)據(jù)挖掘技術(shù) 12 行的觀 點(diǎn), 在許 多文獻(xiàn) 可以 看到 這種說 法 [4, 5]。我 們可以從 這些不 同的觀 點(diǎn)中了解數(shù)據(jù)挖掘的技術(shù)含義。 數(shù)據(jù)挖掘 的 技術(shù) 含義 談到數(shù) 據(jù)挖 掘,必 須提 到數(shù)據(jù) 庫(kù)中 的知 識(shí)發(fā)現(xiàn) ( KDD: K now ledge Discover y i n Data bases)。 同時(shí), 數(shù)據(jù)挖掘 技術(shù)只 有面向 特定的商業(yè) 領(lǐng)域 才有應(yīng) 用價(jià)值 。 從商業(yè)應(yīng)用角度 刻畫數(shù)據(jù)挖掘 ,可以使 我們更 全面的 了解數(shù)據(jù) 挖掘的 真正含 義。這 正是數(shù) 據(jù)挖掘 這個(gè)名字 的由來 。它 通過對(duì) 這 些數(shù)據(jù)進(jìn)行 微觀、中 觀乃至 宏觀的 統(tǒng)計(jì)、分 析、綜 合和推 理,發(fā)現(xiàn)數(shù)據(jù) 間的關(guān)聯(lián) 性、未 來趨勢(shì) 以及一般 性的概 括知識(shí) 等,這些知識(shí)性的信息可以用來指導(dǎo)高級(jí)商務(wù)活動(dòng)。 數(shù)據(jù)挖掘 概念 從 商業(yè)角度 看數(shù) 據(jù)挖 掘技術(shù) 數(shù)據(jù)挖 掘從 本質(zhì) 上說 是一 種新的 商業(yè) 信息 處理 技術(shù) 。數(shù) 據(jù)挖掘繼 承了專 家系統(tǒng) 的高度實(shí) 用性特 點(diǎn),并 且以數(shù)據(jù)為基 本出發(fā)點(diǎn) ,客觀 地挖掘 知識(shí)。例如 ,知識(shí) 獲取被普遍認(rèn) 為是專家 系統(tǒng)研 究中的 瓶頸問 題。機(jī) 器學(xué)習(xí) 應(yīng)該說是 得到了 充分的 研究和發(fā)展,并且數(shù) 據(jù)挖掘技 術(shù)繼承 了機(jī)器學(xué) 習(xí)解決 問題的思 想。數(shù)據(jù) 挖掘技術(shù) 是數(shù)理 統(tǒng)計(jì)分析 應(yīng)用的 延伸和發(fā) 展,假如人們 利用數(shù)據(jù) 庫(kù)的方 式從被 動(dòng)地查詢 變成了 主動(dòng)發(fā) 現(xiàn)知識(shí)的話, 那么概率 論和數(shù) 理統(tǒng)計(jì) 這一古老 的學(xué)科 可以為 我們從數(shù)據(jù)歸納知識(shí)――數(shù)據(jù)挖掘技術(shù)提供理論基礎(chǔ)。以前 的基于數(shù) 理統(tǒng)計(jì) 方法的 應(yīng)用大多 都是通 過專用 程序來實(shí)現(xiàn)的 。數(shù)理 統(tǒng)計(jì)是一 個(gè)有幾 百年發(fā) 展歷史的 應(yīng)用數(shù) 學(xué)學(xué)科 。數(shù) 據(jù)挖掘 系統(tǒng)的核 心模塊 技術(shù)和 算法都離不開 這些理論 和技術(shù) 的支持 。 歷經(jīng)了 十幾 年的 發(fā)展 ,包 括基于 統(tǒng)計(jì) 學(xué)、 人工 智能 等在內(nèi)的理論 與技術(shù)性 成果已 經(jīng)被成 功地應(yīng)用 到商業(yè) 處理和 分析中 。經(jīng) 過幾十 年的發(fā) 展,計(jì)算 機(jī)的體 系結(jié)構(gòu) ,特別是并行 處理技術(shù) 已經(jīng)逐 漸成熟 和普遍應(yīng) 用,并 成為支 持大型數(shù)據(jù)處 理應(yīng)用的 基礎(chǔ)。 大家熟知 的摩爾 定律告 訴我們, 計(jì)算機(jī) 硬件的 關(guān)鍵指標(biāo)大約以 每 18 個(gè) 月翻一 番的速度 在增長(zhǎng) ,而且 現(xiàn)在看 來仍有日益加速 的趨勢(shì)。這些豐富 多彩的數(shù) 據(jù)存儲(chǔ) 、管理 以及訪問 技術(shù)的 發(fā)展, 為數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用提供了豐富的土壤。因 此,人 們已經(jīng) 具備利用 多種方 式存儲(chǔ) 海量數(shù)據(jù)的能力 。據(jù)說 ,在美 國(guó)電視達(dá) 到 5000
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1