freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的olap技術(shù)概述-資料下載頁

2025-01-25 18:08本頁面
  

【正文】 ? 規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間? 最?。畲笠?guī)范化? zscore規(guī)范化? 小數(shù)定標規(guī)范化? 屬性構(gòu)造? 通過現(xiàn)有屬性構(gòu)造新的屬性,并添加到屬性集中。數(shù)據(jù)變換 —— 規(guī)范化? 最小-最大規(guī)范化? zscore規(guī)范化? 小數(shù)定標規(guī)范化其中, j是使 Max(| |)1的最小整數(shù)數(shù)據(jù)歸約策略? 數(shù)據(jù)倉庫中往往存有海量數(shù)據(jù),在其上進行復雜的數(shù)據(jù)分析與挖掘需要很長的時間? 數(shù)據(jù)歸約? 數(shù)據(jù)歸約可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但可以產(chǎn)生相同的(或幾乎相同的)分析結(jié)果? 數(shù)據(jù)歸約策略? 數(shù)據(jù)立方體聚集? 維歸約? 數(shù)據(jù)壓縮? 數(shù)值歸約? 離散化和概念分層產(chǎn)生? 用于數(shù)據(jù)歸約的時間不應當超過或 “ 抵消 ” 在歸約后的數(shù)據(jù)上挖掘節(jié)省的時間。數(shù)據(jù)立方體聚集? 最底層的方體對應于基本方體? 基本方體對應于感興趣的實體? 在數(shù)據(jù)立方體中存在著不同級別的匯總? 數(shù)據(jù)立方體可以看成方體的格? 每個較高層次的抽象將進一步減少結(jié)果數(shù)據(jù)? 數(shù)據(jù)立方體提供了對預計算的匯總數(shù)據(jù)的快速訪問? 使用與給定任務相關(guān)的最小方體? 在可能的情況下,對于匯總數(shù)據(jù)的查詢應當使用數(shù)據(jù)立方體維歸約? 通過刪除不相干的屬性或維減少數(shù)據(jù)量? 屬性子集選擇? 找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能的接近使用所有屬性的原分布? 減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解? 啟發(fā)式的(探索性的)方法? 逐步向前選擇? 逐步向后刪除? 向前選擇和向后刪除相結(jié)合? 判定歸納樹探索性選擇方法? d個屬性有 2d個可能的子集? 逐步向前選擇? 由空屬性集開始,選擇原屬性集中最好的屬性,并將其添加入該集合,重復該步驟。? 逐步向后刪除? 由整個屬性集開始,每一步都刪除掉尚在屬性集中的最壞屬性? 向前選擇和向后刪除相結(jié)合? 每一步選擇一個最好屬性,并刪除一個最壞屬性? 可以使用一個臨界值來判定上述三種方法的結(jié)束條件? 判定歸納樹數(shù)據(jù)壓縮? 有損壓縮 VS. 無損壓縮? 字符串壓縮? 有廣泛的理論基礎和精妙的算法? 通常是無損壓縮? 在解壓縮前對字符串的操作非常有限? 音頻 /視頻壓縮? 通常是有損壓縮,壓縮精度可以遞進選擇? 有時可以在不解壓整體數(shù)據(jù)的情況下,重構(gòu)某個片斷? 兩種有損數(shù)據(jù)壓縮的方法:小波變換和主要成分分析數(shù)值歸約? 通過選擇替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量? 有參方法:使用一個參數(shù)模型估計數(shù)據(jù),最后只要存儲參數(shù)即可。? 線性回歸方法: Y=α+βX? 多元回 歸 : 線 性回 歸 的 擴 充? 對 數(shù) 線 性模型:近似離散的多 維 數(shù)據(jù)概率分布? 無參方法:? 直方圖? 聚類? 選樣直方圖? 一種流行的數(shù)據(jù)歸約技術(shù)? 將某屬性的數(shù)據(jù)劃分為不相交的子集,或桶,桶中放置該值的出現(xiàn)頻率? 桶和屬性值的劃分規(guī)則? 等寬? 等深? V最優(yōu)? MaxDiff聚類? 將數(shù)據(jù)集劃分為聚類,然后通過聚類來表示數(shù)據(jù)集? 如果數(shù)據(jù)可以組成各種不同的聚類,則該技術(shù)非常有效,反之如果數(shù)據(jù)界線模糊,則方法無效? 數(shù)據(jù)可以分層聚類,并被存儲在多層索引樹中? 聚類的定義和算法都有很多選擇選樣? 允許用數(shù)據(jù)的較小隨機樣本(子集)表示大的數(shù)據(jù)集? 對數(shù)據(jù)集 D的樣本選擇:? 簡單隨機選擇 n個樣本,不回放:由 D的 N個元組中抽取 n個樣本? 簡單隨機選擇 n個樣本,回放:過程同上,只是元組被抽取后,將被回放,可能再次被抽取? 聚類選樣: D中元組被分入 M個互不相交的聚類中,可在其中的 m個聚類上進行簡單隨機選擇( mM)? 分層選樣: D被劃分為互不相交的 “ 層 ” ,則可通過對每一層的簡單隨機選樣得到 D的分層選樣離散化? 三種類型的屬性值:? 名稱型 ——. 無序集合中的值? 序數(shù) ——. 有序集合中的值? 連續(xù)值 ——. 實數(shù)? 離散化? 將連續(xù)屬性的范圍劃分為區(qū)間? 有效的規(guī)約數(shù)據(jù)? 基于判定樹的分類挖掘 基于判定樹的分類挖掘的大部分時間花在數(shù)據(jù)的分類和比較上(比如一個判定條件為: 400?, 0- 1000的整數(shù)將在比較 1000次后得出結(jié)果,但是如果先將這 1000個值劃分為 10個區(qū)間: 0100,100200…9001000,則只要比較 10次就可以得出結(jié)果)? 離散化的數(shù)值用于進一步分析離散化和概念分層? 離散化? 通過將屬性域劃分為區(qū)間,減少給定連續(xù)屬性值的個數(shù)。區(qū)間的標號可以代替實際的數(shù)據(jù)值。? 概念分層? 通過使用高層的概念(比如:青年、中年、老年)來替代底層的屬性值(比如:實際的年齡數(shù)據(jù)值)來規(guī)約數(shù)據(jù)? 概念分層后,數(shù)據(jù)的細節(jié)丟失了,但是概化后的數(shù)據(jù)更有意義,更容易解釋,而且所需的存儲空間更少。有效的減少 I/O支出數(shù)據(jù)數(shù)值的離散化和概念分層生成? 分箱( binning)? 分箱技術(shù)遞歸的用于結(jié)果劃分,可以產(chǎn)生概念分層。 分箱、遞歸的:比如將 10,000個值,每個箱子中放 10個,則可以將其規(guī)約為 1000個值;如果要求將這 10,000個值規(guī)約為 10個概念,則只要將上述分箱方法遞歸的使用 3次就可以了。? 直方圖分析( histogram)? 直方圖分析方法遞歸的應用于每一部分,可以自動產(chǎn)生多級概念分層。? 聚類分析? 將數(shù)據(jù)劃分成簇,每個簇形成同一個概念層上的一個節(jié)點,每個簇可再分成多個子簇,形成子節(jié)點。? 基于熵的離散化? 通過自然劃分分段通過自然劃分分段? 將數(shù)值區(qū)域劃分為相對一致的、易于閱讀的、看上去更直觀或自然的區(qū)間。? 自然劃分的 345規(guī)則:? 如果一個區(qū)間最高有效位上包含 3, 6, 7或 9個不同的值,就將該區(qū)間劃分為 3個等寬子區(qū)間;? 如果一個區(qū)間最高有效位上包含 2, 4,或 8個不同的值,就將該區(qū)間劃分為 4個等寬子區(qū)間;? 如果一個區(qū)間最高有效位上包含 1, 5,或 10個不同的值,就將該區(qū)間劃分為 5個等寬子區(qū)間;? 將該規(guī)則遞歸的應用于每個子區(qū)間? 對于數(shù)據(jù)集中出現(xiàn)的最大值和最小值的極端分布,為了避免上述方法出現(xiàn)的結(jié)果扭曲,可以在頂層分段時,選用一個大部分的概率空間。 . 5%95%? 比如年收入最低的可能時 5, 000,最高的可能是 50萬,如果之間進行區(qū)間劃分,就會將頂層劃分為 5個分段(每 10萬 1個),但是 95%以上的人他們的收入都是集中在 【10,000~100,000】 的范圍,也就是說都集中在第一段,這樣的分段就會引起結(jié)果的扭曲 …分類數(shù)據(jù)的概念分層生成? 分類數(shù)據(jù)是指無序的離散數(shù)據(jù),它有有限個值(可能很多個)。? 分類數(shù)據(jù)的概念分層生成方法:? 由用戶或?qū)<以谀J郊夛@式的說明屬性的部分序。? 通過顯示數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分。? 說明屬性集,但不說明它們的偏序,然后系統(tǒng)根據(jù)算法自動產(chǎn)生屬性的序,構(gòu)造有意義的概念分層。? 對只說明部分屬性集的情況,則可根據(jù)數(shù)據(jù)庫模式中的數(shù)據(jù)語義定義對屬性的捆綁信息,來恢復相關(guān)的屬性。屬性集的規(guī)格? 根據(jù)在給定屬性集中,每個屬性所包含的不同值的個數(shù),可以自動的生成概念分成;不同值個數(shù)最多的屬性將被放在概念分層的最底層。? 越底層的屬性集將有越多的不同值跟它相對應,而越高層的屬性值將有越少的不同值跟它相對應。因為底層屬性的值要通過匯總才可以生成高層屬性的值,而匯總就意味著不同值個數(shù)的減少。countryprovincecitystreet5個不同值65 個不同值3567 個不同值674,339 個不同值演講完畢,謝謝觀看!
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1