freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的olap技術(shù)-資料下載頁(yè)

2025-01-25 18:09本頁(yè)面
  

【正文】 ? 規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間? 最?。畲笠?guī)范化? zscore規(guī)范化? 小數(shù)定標(biāo)規(guī)范化? 屬性構(gòu)造? 通過(guò)現(xiàn)有屬性構(gòu)造新的屬性,并添加到屬性集中。數(shù)據(jù)變換 —— 規(guī)范化? 最?。畲笠?guī)范化? zscore規(guī)范化? 小數(shù)定標(biāo)規(guī)范化其中, j是使 Max(| |)1的最小整數(shù)數(shù)據(jù)歸約策略? 數(shù)據(jù)倉(cāng)庫(kù)中往往存有海量數(shù)據(jù),在其上進(jìn)行復(fù)雜的數(shù)據(jù)分析與挖掘需要很長(zhǎng)的時(shí)間? 數(shù)據(jù)歸約? 數(shù)據(jù)歸約可以用來(lái)得到數(shù)據(jù)集的歸約表示,它小得多,但可以產(chǎn)生相同的(或幾乎相同的)分析結(jié)果? 數(shù)據(jù)歸約策略? 數(shù)據(jù)立方體聚集? 維歸約? 數(shù)據(jù)壓縮? 數(shù)值歸約? 離散化和概念分層產(chǎn)生? 用于數(shù)據(jù)歸約的時(shí)間不應(yīng)當(dāng)超過(guò)或 “ 抵消 ” 在歸約后的數(shù)據(jù)上挖掘節(jié)省的時(shí)間。數(shù)據(jù)立方體聚集? 最底層的方體對(duì)應(yīng)于基本方體? 基本方體對(duì)應(yīng)于感興趣的實(shí)體? 在數(shù)據(jù)立方體中存在著不同級(jí)別的匯總? 數(shù)據(jù)立方體可以看成方體的格? 每個(gè)較高層次的抽象將進(jìn)一步減少結(jié)果數(shù)據(jù)? 數(shù)據(jù)立方體提供了對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)的快速訪問(wèn)? 使用與給定任務(wù)相關(guān)的最小方體? 在可能的情況下,對(duì)于匯總數(shù)據(jù)的查詢應(yīng)當(dāng)使用數(shù)據(jù)立方體維歸約? 通過(guò)刪除不相干的屬性或維減少數(shù)據(jù)量? 屬性子集選擇? 找出最小屬性集,使得數(shù)據(jù)類(lèi)的概率分布盡可能的接近使用所有屬性的原分布? 減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解? 啟發(fā)式的(探索性的)方法? 逐步向前選擇? 逐步向后刪除? 向前選擇和向后刪除相結(jié)合? 判定歸納樹(shù)探索性選擇方法? d個(gè)屬性有 2d個(gè)可能的子集? 逐步向前選擇? 由空屬性集開(kāi)始,選擇原屬性集中最好的屬性,并將其添加入該集合,重復(fù)該步驟。? 逐步向后刪除? 由整個(gè)屬性集開(kāi)始,每一步都刪除掉尚在屬性集中的最壞屬性? 向前選擇和向后刪除相結(jié)合? 每一步選擇一個(gè)最好屬性,并刪除一個(gè)最壞屬性? 可以使用一個(gè)臨界值來(lái)判定上述三種方法的結(jié)束條件? 判定歸納樹(shù)數(shù)據(jù)壓縮? 有損壓縮 VS. 無(wú)損壓縮? 字符串壓縮? 有廣泛的理論基礎(chǔ)和精妙的算法? 通常是無(wú)損壓縮? 在解壓縮前對(duì)字符串的操作非常有限? 音頻 /視頻壓縮? 通常是有損壓縮,壓縮精度可以遞進(jìn)選擇? 有時(shí)可以在不解壓整體數(shù)據(jù)的情況下,重構(gòu)某個(gè)片斷? 兩種有損數(shù)據(jù)壓縮的方法:小波變換和主要成分分析數(shù)值歸約? 通過(guò)選擇替代的、較小的數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量? 有參方法:使用一個(gè)參數(shù)模型估計(jì)數(shù)據(jù),最后只要存儲(chǔ)參數(shù)即可。? 線性回歸方法: Y=α+βX? 多元回 歸 : 線 性回 歸 的 擴(kuò) 充? 對(duì) 數(shù) 線 性模型:近似離散的多 維 數(shù)據(jù)概率分布? 無(wú)參方法:? 直方圖? 聚類(lèi)? 選樣直方圖? 一種流行的數(shù)據(jù)歸約技術(shù)? 將某屬性的數(shù)據(jù)劃分為不相交的子集,或桶,桶中放置該值的出現(xiàn)頻率? 桶和屬性值的劃分規(guī)則? 等寬? 等深? V最優(yōu)? MaxDiff聚類(lèi)? 將數(shù)據(jù)集劃分為聚類(lèi),然后通過(guò)聚類(lèi)來(lái)表示數(shù)據(jù)集? 如果數(shù)據(jù)可以組成各種不同的聚類(lèi),則該技術(shù)非常有效,反之如果數(shù)據(jù)界線模糊,則方法無(wú)效? 數(shù)據(jù)可以分層聚類(lèi),并被存儲(chǔ)在多層索引樹(shù)中? 聚類(lèi)的定義和算法都有很多選擇選樣? 允許用數(shù)據(jù)的較小隨機(jī)樣本(子集)表示大的數(shù)據(jù)集? 對(duì)數(shù)據(jù)集 D的樣本選擇:? 簡(jiǎn)單隨機(jī)選擇 n個(gè)樣本,不回放:由 D的 N個(gè)元組中抽取 n個(gè)樣本? 簡(jiǎn)單隨機(jī)選擇 n個(gè)樣本,回放:過(guò)程同上,只是元組被抽取后,將被回放,可能再次被抽取? 聚類(lèi)選樣: D中元組被分入 M個(gè)互不相交的聚類(lèi)中,可在其中的 m個(gè)聚類(lèi)上進(jìn)行簡(jiǎn)單隨機(jī)選擇( mM)? 分層選樣: D被劃分為互不相交的 “ 層 ” ,則可通過(guò)對(duì)每一層的簡(jiǎn)單隨機(jī)選樣得到 D的分層選樣離散化? 三種類(lèi)型的屬性值:? 名稱(chēng)型 ——. 無(wú)序集合中的值? 序數(shù) ——. 有序集合中的值? 連續(xù)值 ——. 實(shí)數(shù)? 離散化? 將連續(xù)屬性的范圍劃分為區(qū)間? 有效的規(guī)約數(shù)據(jù)? 基于判定樹(shù)的分類(lèi)挖掘 基于判定樹(shù)的分類(lèi)挖掘的大部分時(shí)間花在數(shù)據(jù)的分類(lèi)和比較上(比如一個(gè)判定條件為: 400?, 0- 1000的整數(shù)將在比較 1000次后得出結(jié)果,但是如果先將這 1000個(gè)值劃分為 10個(gè)區(qū)間: 0100,100200…9001000,則只要比較 10次就可以得出結(jié)果)? 離散化的數(shù)值用于進(jìn)一步分析離散化和概念分層? 離散化? 通過(guò)將屬性域劃分為區(qū)間,減少給定連續(xù)屬性值的個(gè)數(shù)。區(qū)間的標(biāo)號(hào)可以代替實(shí)際的數(shù)據(jù)值。? 概念分層? 通過(guò)使用高層的概念(比如:青年、中年、老年)來(lái)替代底層的屬性值(比如:實(shí)際的年齡數(shù)據(jù)值)來(lái)規(guī)約數(shù)據(jù)? 概念分層后,數(shù)據(jù)的細(xì)節(jié)丟失了,但是概化后的數(shù)據(jù)更有意義,更容易解釋?zhuān)宜璧拇鎯?chǔ)空間更少。有效的減少 I/O支出數(shù)據(jù)數(shù)值的離散化和概念分層生成? 分箱( binning)? 分箱技術(shù)遞歸的用于結(jié)果劃分,可以產(chǎn)生概念分層。 分箱、遞歸的:比如將 10,000個(gè)值,每個(gè)箱子中放 10個(gè),則可以將其規(guī)約為 1000個(gè)值;如果要求將這 10,000個(gè)值規(guī)約為 10個(gè)概念,則只要將上述分箱方法遞歸的使用 3次就可以了。? 直方圖分析( histogram)? 直方圖分析方法遞歸的應(yīng)用于每一部分,可以自動(dòng)產(chǎn)生多級(jí)概念分層。? 聚類(lèi)分析? 將數(shù)據(jù)劃分成簇,每個(gè)簇形成同一個(gè)概念層上的一個(gè)節(jié)點(diǎn),每個(gè)簇可再分成多個(gè)子簇,形成子節(jié)點(diǎn)。? 基于熵的離散化? 通過(guò)自然劃分分段通過(guò)自然劃分分段? 將數(shù)值區(qū)域劃分為相對(duì)一致的、易于閱讀的、看上去更直觀或自然的區(qū)間。? 自然劃分的 345規(guī)則:? 如果一個(gè)區(qū)間最高有效位上包含 3, 6, 7或 9個(gè)不同的值,就將該區(qū)間劃分為 3個(gè)等寬子區(qū)間;? 如果一個(gè)區(qū)間最高有效位上包含 2, 4,或 8個(gè)不同的值,就將該區(qū)間劃分為 4個(gè)等寬子區(qū)間;? 如果一個(gè)區(qū)間最高有效位上包含 1, 5,或 10個(gè)不同的值,就將該區(qū)間劃分為 5個(gè)等寬子區(qū)間;? 將該規(guī)則遞歸的應(yīng)用于每個(gè)子區(qū)間? 對(duì)于數(shù)據(jù)集中出現(xiàn)的最大值和最小值的極端分布,為了避免上述方法出現(xiàn)的結(jié)果扭曲,可以在頂層分段時(shí),選用一個(gè)大部分的概率空間。 . 5%95%? 比如年收入最低的可能時(shí) 5, 000,最高的可能是 50萬(wàn),如果之間進(jìn)行區(qū)間劃分,就會(huì)將頂層劃分為 5個(gè)分段(每 10萬(wàn) 1個(gè)),但是 95%以上的人他們的收入都是集中在 【10,000~100,000】 的范圍,也就是說(shuō)都集中在第一段,這樣的分段就會(huì)引起結(jié)果的扭曲 …分類(lèi)數(shù)據(jù)的概念分層生成? 分類(lèi)數(shù)據(jù)是指無(wú)序的離散數(shù)據(jù),它有有限個(gè)值(可能很多個(gè))。? 分類(lèi)數(shù)據(jù)的概念分層生成方法:? 由用戶或?qū)<以谀J郊?jí)顯式的說(shuō)明屬性的部分序。? 通過(guò)顯示數(shù)據(jù)分組說(shuō)明分層結(jié)構(gòu)的一部分。? 說(shuō)明屬性集,但不說(shuō)明它們的偏序,然后系統(tǒng)根據(jù)算法自動(dòng)產(chǎn)生屬性的序,構(gòu)造有意義的概念分層。? 對(duì)只說(shuō)明部分屬性集的情況,則可根據(jù)數(shù)據(jù)庫(kù)模式中的數(shù)據(jù)語(yǔ)義定義對(duì)屬性的捆綁信息,來(lái)恢復(fù)相關(guān)的屬性。屬性集的規(guī)格? 根據(jù)在給定屬性集中,每個(gè)屬性所包含的不同值的個(gè)數(shù),可以自動(dòng)的生成概念分成;不同值個(gè)數(shù)最多的屬性將被放在概念分層的最底層。? 越底層的屬性集將有越多的不同值跟它相對(duì)應(yīng),而越高層的屬性值將有越少的不同值跟它相對(duì)應(yīng)。因?yàn)榈讓訉傩缘闹狄ㄟ^(guò)匯總才可以生成高層屬性的值,而匯總就意味著不同值個(gè)數(shù)的減少。countryprovincecitystreet5個(gè)不同值65 個(gè)不同值3567 個(gè)不同值674,339 個(gè)不同值演講完畢,謝謝觀看!
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1