freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi技術(shù)白皮書-閱讀頁

2025-06-22 12:11本頁面
  

【正文】 維彼此垂直。   這種結(jié)構(gòu)可應(yīng)用在多維數(shù)據(jù)庫和面向關(guān)系數(shù)據(jù)庫的 OLAP 系統(tǒng)中,其主要特點(diǎn)是簡化終端用戶的操作。這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維。 這些多維結(jié)構(gòu)是大數(shù)據(jù)維數(shù)的子集,面向某一特定應(yīng)用對維進(jìn) 行分割,即將超立方 結(jié)構(gòu)變?yōu)?子立方結(jié)構(gòu)。   一般來說,多立方結(jié)構(gòu)靈活性較大,但超立方結(jié)構(gòu)更易于理解。但具有多 維分析經(jīng)驗(yàn) 的 MIS 專家更喜歡多立方結(jié)構(gòu),因?yàn)樗哂辛己玫囊晥D翻轉(zhuǎn)性和靈活性。因此,復(fù)雜的系統(tǒng)及預(yù)先建立的通用應(yīng)用傾向于使用多立方結(jié)構(gòu),以使數(shù)據(jù)結(jié)構(gòu)能更好地得到調(diào)整, 滿足常用的應(yīng)用需求。   3. 活動數(shù)據(jù)的存 儲   用戶對某個(gè)應(yīng)用所提取的數(shù)據(jù)稱為活動數(shù)據(jù),它的存儲有以下三種形式:  ?。?)關(guān)系數(shù)據(jù) 庫 如果數(shù)據(jù)來源于關(guān)系數(shù)據(jù)庫,則活動數(shù)據(jù)被存儲在關(guān)系數(shù)據(jù) 庫中。如下 圖:  ?。?)多維數(shù)據(jù)庫 在這種情況下,活動數(shù)據(jù)被存 儲在服務(wù)器上的多維數(shù)據(jù)庫 中,包括來自關(guān)系數(shù)據(jù) 庫和終端用戶的數(shù)據(jù)。有些數(shù)據(jù)被提前計(jì)算,計(jì)算結(jié) 果以數(shù)組形式進(jìn)行存儲。這些數(shù)據(jù)可預(yù)先建立,如 Web 文件。   這三種存儲形式有不同的性能,其中關(guān)系數(shù)據(jù)庫的處理速度大大低于其他兩種。事實(shí)上,多維數(shù)據(jù)計(jì)算不需要在數(shù)據(jù)存儲位置上進(jìn)行。因?yàn)?SQL 的單語句并不具備完成多維計(jì)算的能力,要獲得哪怕是最普通的多維計(jì)算功能也需要多重 SQL。多維引擎在客戶機(jī)或中層服務(wù)器上做大部分的計(jì)算工作,這樣就可以利用 RAM 來存儲數(shù)據(jù),提高響應(yīng)速度。因?yàn)檫@種方式可以同時(shí)優(yōu)化引擎和數(shù)據(jù)庫,而服務(wù)器上充分的內(nèi)存 為有效地計(jì)算大量數(shù) 組提供了保證。 對于日益增多的瘦型客戶機(jī),OLAP 產(chǎn)品將把基于客戶機(jī)的處理移到新的 Web 應(yīng)用服務(wù)器上三、OLAP 的特點(diǎn) 快速性 用戶對 OLAP 的快速反應(yīng) 能力有很高的要求。如果終端用戶在 30 秒內(nèi)沒有得到系統(tǒng)響應(yīng)就會變得不耐煩,因而可能失去分析主線索,影響分析 質(zhì)量。 可分析性 OLAP 系統(tǒng)應(yīng)能處理與應(yīng) 用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。用 戶無需編程就可以定義 新的專門計(jì)算,將其作 為分析的一部分,并以用戶理想的方式給出報(bào)告。 多維性 多維性是 OLAP 的關(guān)鍵屬性。事實(shí)上,多維分析是分析企業(yè)數(shù)據(jù)最有效的方法,是 OLAP 的靈魂。這里有許多因素需要考慮,如數(shù)據(jù)的可復(fù)制性、可利用的磁盤空間、OLAP 產(chǎn)品的性能及與數(shù)據(jù)倉庫的結(jié)合度等。產(chǎn)生多維數(shù)據(jù)報(bào)表的主要技術(shù)就是“旋轉(zhuǎn)”、 “切塊” 、“切片”、 “上鉆”和 “下鉆”等。切片和切塊(Slice and Dice): 主要根據(jù)維的限定做投影、 選擇 等數(shù)據(jù)庫操作從而獲取數(shù)據(jù)。它一般能回答為什么的問題。鉆取的深度與維所劃分的層次相對應(yīng)。OLAP 系統(tǒng)能夠提供豐富多樣、功能強(qiáng) 大的計(jì)算工具,但同 時(shí)方法又 簡單明了,并且是非過程(nonprocedural)的,從而可以及時(shí)完成系統(tǒng)的改變訪問到即時(shí)信息。時(shí)間只有一維,因?yàn)樗荒軓那巴笱由臁S捎?OLAP 系統(tǒng)中對時(shí)間的智能管理,從而使得不同年份的同期比較和同一年份的期間比較等,成 為很容易定 義的事情。于是 ,一個(gè)新的挑戰(zhàn)被提了出來:在這被稱之為信息爆炸的時(shí)代,信息過量幾乎成為人人需要面對的問題。因此, 面對人們被數(shù)據(jù)淹沒, 人們卻饑餓于知識的挑戰(zhàn)。經(jīng)歷 了博弈時(shí)期、自然 語言理解、知識工程等階段,目前的研究 熱點(diǎn)是機(jī)器學(xué)習(xí)。用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機(jī)器學(xué) 習(xí)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知識,這兩者的結(jié)合促成了數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD:Knowledge Discovery in Databases)的產(chǎn)生,因此,數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來越顯示出其強(qiáng)大的生命力。KDD一詞首次出現(xiàn)在 1989 年 8 月舉行的第 11 屆國際聯(lián)合人工智能學(xué) 術(shù)會議上。隨著參與人員的不斷增多,KDD 國際會議發(fā)展成為年會。 數(shù)據(jù)挖掘的概念從 1989 年到現(xiàn)在,KDD 的定義隨著人們研究的不斷深入也在不斷完善,目前比較公認(rèn)的定義是Fayyad 等給出的:KDD 是從數(shù)據(jù)集中識別出有效的、新 穎的、潛在有用的以及最 終可理解模式的高級處理過程。人們把原始數(shù)據(jù)看作是形成知識的源泉,就像從礦石中采礦一樣。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的。 發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的 維護(hù)。 特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。一般來說在科研領(lǐng)域中稱為 KDD,而在工程領(lǐng)域則稱為數(shù)據(jù)挖掘。但往往不適合直接在這些數(shù)據(jù)上面進(jìn)行知識挖 掘,需要做數(shù)據(jù)準(zhǔn) 備 工作,一般包括數(shù)據(jù)的 選擇( 選擇相關(guān)的數(shù)據(jù))、凈化(消除噪音、冗余數(shù)據(jù))、推 測(推算缺失數(shù)據(jù))、 轉(zhuǎn)換 (離散值 數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換,數(shù)據(jù)值的分組分類,數(shù)據(jù)項(xiàng)之 間的計(jì)算組合等)、數(shù)據(jù) 縮減(減少數(shù)據(jù)量)。數(shù)據(jù)準(zhǔn)備是 KDD 的第一個(gè)步驟,也是比 較重要的一個(gè)步驟。 、數(shù)據(jù)挖掘 數(shù)據(jù)挖掘是 KDD 最關(guān)鍵的步 驟,也是技術(shù)難點(diǎn)所在。數(shù)據(jù)挖掘根據(jù) KDD 的目標(biāo),選取相應(yīng)算法的參數(shù),分析數(shù)據(jù),得到可能形成知識的模式 模型。評估可以根據(jù)用戶多年的經(jīng)驗(yàn),有些模式也可以直接用數(shù)據(jù)來 檢驗(yàn)其準(zhǔn)確性。 、鞏固知識 用戶理解的、并被認(rèn)為是符合 實(shí)際和有價(jià)值的模式模型形成了知 識。 、運(yùn)用知識 發(fā)現(xiàn)知識是為了運(yùn)用,如何使知 識能被運(yùn)用也是 KDD 的步驟之一。模式是一個(gè)用 語言 L 來表示的一個(gè)表達(dá)式 E,它可用來描述數(shù)據(jù)集 F 中數(shù)據(jù)的特性,E 所描述的數(shù)據(jù)是集 合 F 的一個(gè)子集 FE。例如, “如果成績在 81 ~90 之間,則成績優(yōu)良”可稱 為一個(gè)模式,而“如果成績?yōu)?8888888889 或 90,則成績優(yōu)良”就不能稱之為一個(gè)模式。 預(yù)測型模式是可以根據(jù)數(shù)據(jù)項(xiàng)的值精確確定某種結(jié)果的模式。例如,根據(jù)各種 動物的資料,可以建立這樣的模式:凡是胎生的動物都是哺乳類動物。 描述型模式是對數(shù)據(jù)中存在的規(guī)則做一種描述,或者根據(jù)數(shù)據(jù)的相似性把數(shù)據(jù)分 組。例如,在地球上,70 %的表面被水覆蓋,30 %是土地。分類模式往往表現(xiàn)為一棵分類樹,根據(jù)數(shù)據(jù)的 值從樹根開始搜索,沿著數(shù)據(jù)滿足的分支往上走,走到 樹葉就能確定類別。如給出某種動 物的特征,可以用分 類模式判定 這種動物是哺乳動物還是鳥類;給出某個(gè)人的教育情況、工作經(jīng)驗(yàn),可以用回歸模式判定這個(gè)人的年工 資在哪個(gè)范圍內(nèi),是在 6000 元以下,還是在 6000 元到 1 萬元之間,還是在 1 萬元以上。這里要考慮到時(shí)間的特殊性質(zhì),像一些周期性的時(shí)間定義如星期、月、季 節(jié)、年 等,不同的日子如節(jié)假日可能造成的影響,日期本身的計(jì)算方法,還有一些需要特殊考慮的地方如時(shí)間前后的相關(guān)性(過去的事情對將來有 多大的影響力)等。 聚類模式 聚類模式把數(shù)據(jù)劃分到不同的組中, 組之間的差別盡可能大,組內(nèi)的差別盡可能小。一般來說,業(yè)務(wù)知識豐富的人 應(yīng)該可以理解這些組的含義 ,如果 產(chǎn)生的模式無法理解或不可用,則該模式可能是無意義的,需要回到上 階段重新組織數(shù)據(jù)。關(guān) 聯(lián)規(guī)則是如下形式的一種 規(guī)則:“在無力償還貸款的人當(dāng)中,60%的人的月收入在 3000 元以下。 為了發(fā)現(xiàn)序列模式,不僅需要知道事件是否發(fā)生,而且需要確定事件 發(fā)生的時(shí)間。概念匯總將數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)由低概念層抽象到高概念層, 主要有數(shù)據(jù)立方體和面向?qū)傩詢煞N方法。 面向?qū)傩缘某槿》椒ㄓ靡环N類 SQL 數(shù)據(jù)采掘查詢語言表達(dá)查詢要求,收集相關(guān)數(shù)據(jù),并利用屬性刪除、概念層次樹、門檻控制、數(shù)量傳播及集合函數(shù)等技術(shù)進(jìn)行數(shù)據(jù)匯總。 面向?qū)傩猿槿〉母拍顚哟螛涫侵改硨傩运哂械膹木唧w概念值到某概念類的層次關(guān)系樹。樹的根結(jié)點(diǎn)是用ANY 表示最一般的概念,葉結(jié)點(diǎn)是最具體的概念即屬性的具體 值,例如屬性 City 的概念層次樹如圖 4 所示。 Cai Cencone 利用屬性值的概念層次關(guān)系,提出了面向?qū)傩缘臉涮嵘惴?并得到一階謂詞邏輯表示的規(guī)則。 與面向元組的歸納方法相比,面向?qū)傩缘臍w納方法搜索空間減少,運(yùn)行效率顯著提高 。最壞時(shí)間復(fù)雜性為 O(N logP),N 為元組個(gè)數(shù),P 為最終概括關(guān)系表中的元組個(gè)數(shù)。此方法已在數(shù)據(jù)挖掘系 統(tǒng)DBMINE 中采用 ,除關(guān)系數(shù)據(jù)庫外,也可擴(kuò)展到面向?qū)ο髷?shù)據(jù)庫。在每個(gè)分支子集中,重復(fù)建立樹的下層結(jié)點(diǎn)和分支的過程,即可建立決策樹。 、神經(jīng)網(wǎng)絡(luò)方法 模擬人腦神經(jīng)元方法,以 MP 模型和 HEBB 學(xué)習(xí)規(guī)則為基礎(chǔ),建立了三大類多種神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)。 、粗集(Rough Set)方法 在數(shù)據(jù)庫中將行元素看成對象,將列元素看成屬性(分為條件屬性和決策屬性)。條件屬性上的等價(jià)類 E 與決策屬性上的等價(jià) 類 Y 之間的關(guān)系分三種情況 : (1)下近似:Y 包含 E。 (2)上近似:Y 和 E 的交非空。 (3)無關(guān):Y 和 E 的交為空。 、 遺傳算法 模擬生物進(jìn)化過程的算法,由繁殖(選擇)、交叉(重組)、 變異 (突變)三個(gè)基本算子組成。 、公式發(fā)現(xiàn) 在工程和科學(xué)數(shù)據(jù)庫中,對若干數(shù)據(jù)項(xiàng)進(jìn)行一定的數(shù)學(xué)運(yùn)算,求得相應(yīng)的數(shù)學(xué)公式。 、統(tǒng)計(jì)分析方法 在數(shù)據(jù)庫字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示, 但仍是相關(guān)確定性關(guān)系),對它們的分析可采用回歸分析、相關(guān)分析、主成分分析等方法。系統(tǒng)的復(fù)雜性越高,精確能力就越低, 模糊性就越強(qiáng)。 、可視化技術(shù) 拓寬了傳統(tǒng)的圖表功能,使用戶對數(shù)據(jù)的剖析更清楚。 、歸納方法 基于歸納方法的空間數(shù)據(jù)采掘算法必須由用戶預(yù)先給定或系統(tǒng)自動生成概念層次樹 ,發(fā)現(xiàn)的知識依賴于層次樹結(jié)構(gòu),計(jì)算復(fù)雜性為 O(logN),N 為空間數(shù)據(jù)個(gè)數(shù)。 、統(tǒng)計(jì)信息網(wǎng)格算法(STING) 該方法是一個(gè)查詢無關(guān)算法,每個(gè)節(jié)點(diǎn)存儲數(shù)據(jù)的統(tǒng)計(jì)信息,可處理大量的查詢。 、空間聚集和特征鄰近關(guān)系采掘 (1)發(fā)現(xiàn)集合鄰近關(guān)系:給定一個(gè)點(diǎn)的聚集,找到聚集的 K 個(gè)最鄰近特征。CRH 用篩選器逐步減少特征個(gè)數(shù),直至找到 K 個(gè)最接近特征。 (2)發(fā)現(xiàn)集合鄰近的共性:給定 N 個(gè)聚集,找到與全部或大多數(shù)聚集最接近的公共特征類,即出現(xiàn)在同一分類中的相似特征,例如發(fā)現(xiàn)所有居民區(qū)都與中學(xué)相近,而不一定是同一所中學(xué)。第四章、 各種技 術(shù) 的 結(jié) 合以模型庫為主體的決策支持系統(tǒng)已經(jīng)發(fā)展了十幾年,它 對計(jì) 算機(jī)輔助決策起到了很大的推動作用。數(shù)據(jù)倉庫與 OLAP 都是數(shù)據(jù)驅(qū)動的。在 OLAP 中加入模型庫,將會極大提高 OLAP 的分析能力。對知識的推理即形成智能模型,它是以定性分析方式輔助決策的。 把數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘、模型 庫結(jié)合起來形成的綜 合決策支持系統(tǒng),是更高級形式的決策支持系統(tǒng)。它們集成的綜 合決策支持系統(tǒng),將相互 補(bǔ)充、相互依賴,發(fā)揮各自的輔助決策優(yōu)勢,實(shí)現(xiàn)更有效的輔助決策。2  OLAP 從數(shù)據(jù)倉庫中的集成數(shù)據(jù)出 發(fā),構(gòu)建面向分析的多維數(shù)據(jù)模型,再使用多維分析方法從多個(gè)不同的視角對多維數(shù)據(jù)進(jìn)行分析、比 較。數(shù)據(jù)挖掘表明,知識就隱藏在日常積累下來的大量數(shù)據(jù)之中,僅靠復(fù)雜的算法和推理并不能發(fā)現(xiàn)知識,數(shù)據(jù)才是知 識的真正源泉。而數(shù)據(jù)倉庫、聯(lián)機(jī)分析和數(shù)據(jù)挖掘 組成的新的 DSS 構(gòu)架解決了 DSS 數(shù)據(jù)庫內(nèi)數(shù)據(jù)的不一致問題。數(shù)據(jù) 倉庫為 OLAP 提供了充分可靠的數(shù)據(jù)基礎(chǔ),數(shù)據(jù)挖掘可以從數(shù)據(jù) 倉庫和多維數(shù)據(jù) 庫中找到所需的數(shù)據(jù),數(shù)據(jù)挖掘中 發(fā)現(xiàn)的知識可以直接用于指導(dǎo) OLAP 的分析處理,而 OLAP 分析得出的新知識也可以立即補(bǔ)充到系統(tǒng)的知識庫中。從而使信息的重點(diǎn)將逐步從支持面向操作層的 OLTP、中間管理控制層的 MIS 提高到數(shù)據(jù)模式分析,高層的決策支持和分析 預(yù)測上來 1
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1