freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi技術(shù)白皮書-資料下載頁

2025-06-07 12:11本頁面
  

【正文】 ,則成績優(yōu)良”就不能稱之為一個(gè)模式。 模式有很多種,按功能可分有兩大類:預(yù)測型(Predictive)模式和描述型(Descriptive)模式。 預(yù)測型模式是可以根據(jù)數(shù)據(jù)項(xiàng)的值精確確定某種結(jié)果的模式。挖掘預(yù)測型模式所使用的數(shù)據(jù)也都是可以明確知道結(jié)果的。例如,根據(jù)各種 動物的資料,可以建立這樣的模式:凡是胎生的動物都是哺乳類動物。當(dāng)有新的動物資料時(shí) ,就可以根據(jù) 這個(gè)模式判別此 動物是否是哺乳動物。 描述型模式是對數(shù)據(jù)中存在的規(guī)則做一種描述,或者根據(jù)數(shù)據(jù)的相似性把數(shù)據(jù)分 組。描述型模式不能直接用于預(yù)測。例如,在地球上,70 %的表面被水覆蓋,30 %是土地。在實(shí)際應(yīng)用中,往往根據(jù)模式的 實(shí)際作用細(xì)分為以下 6 種: 分類模式 分類模式是一個(gè)分類函數(shù)( 分 類 器),能 夠把數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類上。分類模式往往表現(xiàn)為一棵分類樹,根據(jù)數(shù)據(jù)的 值從樹根開始搜索,沿著數(shù)據(jù)滿足的分支往上走,走到 樹葉就能確定類別。 回歸模式 回歸模式的函數(shù)定義與分類模式相似,它 們的差別在于分 類模式的預(yù)測值是離散的,回 歸模式的預(yù)測值是連續(xù)的。如給出某種動 物的特征,可以用分 類模式判定 這種動物是哺乳動物還是鳥類;給出某個(gè)人的教育情況、工作經(jīng)驗(yàn),可以用回歸模式判定這個(gè)人的年工 資在哪個(gè)范圍內(nèi),是在 6000 元以下,還是在 6000 元到 1 萬元之間,還是在 1 萬元以上。 時(shí)間序列模式 時(shí)間序列模式根據(jù)數(shù)據(jù)隨時(shí)間變化的趨勢預(yù)測將來的值。這里要考慮到時(shí)間的特殊性質(zhì),像一些周期性的時(shí)間定義如星期、月、季 節(jié)、年 等,不同的日子如節(jié)假日可能造成的影響,日期本身的計(jì)算方法,還有一些需要特殊考慮的地方如時(shí)間前后的相關(guān)性(過去的事情對將來有 多大的影響力)等。只有充分考慮時(shí)間因素,利用現(xiàn)有數(shù)據(jù)隨 時(shí)間變化的一系列的值,才能更好地預(yù)測將來的值。 聚類模式 聚類模式把數(shù)據(jù)劃分到不同的組中, 組之間的差別盡可能大,組內(nèi)的差別盡可能小。與分類模式不同,進(jìn)行聚類前并不知道將要劃分成幾 個(gè)組和什么樣的組,也不知道根據(jù)哪一(幾)個(gè)數(shù)據(jù)項(xiàng)來定義組。一般來說,業(yè)務(wù)知識豐富的人 應(yīng)該可以理解這些組的含義 ,如果 產(chǎn)生的模式無法理解或不可用,則該模式可能是無意義的,需要回到上 階段重新組織數(shù)據(jù)。 關(guān)聯(lián)模式 關(guān)聯(lián)模式是數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)規(guī)則。關(guān) 聯(lián)規(guī)則是如下形式的一種 規(guī)則:“在無力償還貸款的人當(dāng)中,60%的人的月收入在 3000 元以下。 ” 序列模式 序列模式與關(guān)聯(lián)模式相仿,而把數(shù)據(jù)之 間的關(guān)聯(lián)性與時(shí)間聯(lián) 系起來。 為了發(fā)現(xiàn)序列模式,不僅需要知道事件是否發(fā)生,而且需要確定事件 發(fā)生的時(shí)間。例如,在購買彩電的人們當(dāng)中,60 %的人會在 3 個(gè)月內(nèi)購買影碟機(jī)四、數(shù)據(jù)挖掘的方法、多層次數(shù)據(jù)匯總歸納 數(shù)據(jù)庫中的數(shù)據(jù)和對象經(jīng)常包含原始概念層上的詳細(xì)信息,將一個(gè)數(shù)據(jù)集合歸納成高概念層次信息的數(shù)據(jù)挖掘技術(shù)被稱為數(shù)據(jù)匯總(Data Generalization) 。概念匯總將數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)由低概念層抽象到高概念層, 主要有數(shù)據(jù)立方體和面向?qū)傩詢煞N方法。 數(shù)據(jù)立方體( 多維數(shù)據(jù)庫)方法的主要思想是將那些經(jīng)常查詢、代價(jià)高昂的運(yùn)算,如Count、Sum、Average、Max、Min 等匯總函數(shù)具體化, 并存儲在一個(gè)多維數(shù)據(jù)庫中,為決策支持、知識發(fā)現(xiàn)及其它應(yīng)用服務(wù)。 面向?qū)傩缘某槿》椒ㄓ靡环N類 SQL 數(shù)據(jù)采掘查詢語言表達(dá)查詢要求,收集相關(guān)數(shù)據(jù),并利用屬性刪除、概念層次樹、門檻控制、數(shù)量傳播及集合函數(shù)等技術(shù)進(jìn)行數(shù)據(jù)匯總。匯總數(shù)據(jù)用匯總關(guān)系表示,可以將數(shù)據(jù)轉(zhuǎn)化為不同類型的知識,或?qū)⑵溆成涑刹煌谋?并從中抽取特征、判別式、分 類等相關(guān)規(guī)則。 面向?qū)傩猿槿〉母拍顚哟螛涫侵改硨傩运哂械膹木唧w概念值到某概念類的層次關(guān)系樹。概念層次可由相關(guān)領(lǐng)域?qū)<腋鶕?jù)屬性的領(lǐng)域知識提供,按特定屬性的概念層次從一般到具體排序。樹的根結(jié)點(diǎn)是用ANY 表示最一般的概念,葉結(jié)點(diǎn)是最具體的概念即屬性的具體 值,例如屬性 City 的概念層次樹如圖 4 所示。概念層次為歸納分析提供有用信息 ,將概念組織為不同 層次,從而在高概念層次上用簡單、確切的公式表示規(guī)則。 Cai Cencone 利用屬性值的概念層次關(guān)系,提出了面向?qū)傩缘臉涮嵘惴?并得到一階謂詞邏輯表示的規(guī)則。面向?qū)傩缘臉涮嵘椒ㄖ饕?對目標(biāo)類所有元組 的屬性值由低到高提升,使原來若干屬性值不同的元組成為相同元組,進(jìn)行合并,直到全部元組不超過最大規(guī)則數(shù),再將其轉(zhuǎn)化為一階謂詞邏輯表示的規(guī)則。 與面向元組的歸納方法相比,面向?qū)傩缘臍w納方法搜索空間減少,運(yùn)行效率顯著提高 。對冗余元組的測試在概括屬性的所有值后進(jìn)行,提高了測試效率。最壞時(shí)間復(fù)雜性為 O(N logP),N 為元組個(gè)數(shù),P 為最終概括關(guān)系表中的元組個(gè)數(shù)。處 理過程可利用關(guān)系數(shù)據(jù)庫的 傳統(tǒng)操作。此方法已在數(shù)據(jù)挖掘系 統(tǒng)DBMINE 中采用 ,除關(guān)系數(shù)據(jù)庫外,也可擴(kuò)展到面向?qū)ο髷?shù)據(jù)庫。 、決策樹方法 利用信息論中的互信息(信息增益) 尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹的分支。在每個(gè)分支子集中,重復(fù)建立樹的下層結(jié)點(diǎn)和分支的過程,即可建立決策樹。國際上最有影響和最早的決策 樹方法是由 Quiulan 研制的 ID3 方法,后人又發(fā)展了各種決策樹方法, 如 IBLE 方法使識別率提高了 10%。 、神經(jīng)網(wǎng)絡(luò)方法 模擬人腦神經(jīng)元方法,以 MP 模型和 HEBB 學(xué)習(xí)規(guī)則為基礎(chǔ),建立了三大類多種神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)。 、覆蓋正例排斥反例方法 利用覆蓋所有正例排斥所有反例的思想來尋找規(guī)則,比較典型的有 MICHALSKI 的 AQ11 方法、洪家榮改進(jìn)的 AQ15 方法和 AE5 方法。 、粗集(Rough Set)方法 在數(shù)據(jù)庫中將行元素看成對象,將列元素看成屬性(分為條件屬性和決策屬性)。等價(jià)關(guān)系 R 定義為不同對象在某個(gè)或幾個(gè)屬性上取值相同,滿足等價(jià)關(guān)系的對象組成的集合被稱為等價(jià)關(guān)系 R 的等價(jià)類。條件屬性上的等價(jià)類 E 與決策屬性上的等價(jià) 類 Y 之間的關(guān)系分三種情況 : (1)下近似:Y 包含 E。對下近似建立確定性規(guī)則。 (2)上近似:Y 和 E 的交非空。對上近似建立不確定性規(guī)則(含可信度)。 (3)無關(guān):Y 和 E 的交為空。無關(guān)情況不存在規(guī)則。 、 遺傳算法 模擬生物進(jìn)化過程的算法,由繁殖(選擇)、交叉(重組)、 變異 (突變)三個(gè)基本算子組成。 遺傳算法已在優(yōu)化計(jì)算、分類、機(jī)器學(xué)習(xí)等方面發(fā)揮了顯著作用。 、公式發(fā)現(xiàn) 在工程和科學(xué)數(shù)據(jù)庫中,對若干數(shù)據(jù)項(xiàng)進(jìn)行一定的數(shù)學(xué)運(yùn)算,求得相應(yīng)的數(shù)學(xué)公式。 BACON 發(fā)現(xiàn)系統(tǒng)完成了對物理學(xué)的大量定律的重新發(fā)現(xiàn)。 、統(tǒng)計(jì)分析方法 在數(shù)據(jù)庫字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示, 但仍是相關(guān)確定性關(guān)系),對它們的分析可采用回歸分析、相關(guān)分析、主成分分析等方法。 、模糊論方法 利用模糊集合理論,對實(shí)際問題進(jìn)行模糊判斷、模糊決策、模糊模式識別、模糊簇聚分析。系統(tǒng)的復(fù)雜性越高,精確能力就越低, 模糊性就越強(qiáng)。這是 Zadeh 總結(jié) 出的互克性原理。 、可視化技術(shù) 拓寬了傳統(tǒng)的圖表功能,使用戶對數(shù)據(jù)的剖析更清楚。 另外還有歸納邏輯程序(Inductive Logic Programming)、Bayesian 網(wǎng)絡(luò)等方法。 、歸納方法 基于歸納方法的空間數(shù)據(jù)采掘算法必須由用戶預(yù)先給定或系統(tǒng)自動生成概念層次樹 ,發(fā)現(xiàn)的知識依賴于層次樹結(jié)構(gòu),計(jì)算復(fù)雜性為 O(logN),N 為空間數(shù)據(jù)個(gè)數(shù)。 、聚集方法 基于聚集方法的空間數(shù)據(jù)挖掘算法包括 CLARANS、BIRCH、DBSCAN 等算法。 、統(tǒng)計(jì)信息網(wǎng)格算法(STING) 該方法是一個(gè)查詢無關(guān)算法,每個(gè)節(jié)點(diǎn)存儲數(shù)據(jù)的統(tǒng)計(jì)信息,可處理大量的查詢。算法采用增量修改,避免數(shù)據(jù)更新造成的所有單元重新計(jì)算,而且易于并行化。 、空間聚集和特征鄰近關(guān)系采掘 (1)發(fā)現(xiàn)集合鄰近關(guān)系:給定一個(gè)點(diǎn)的聚集,找到聚集的 K 個(gè)最鄰近特征。 CRH 算法尋找集合鄰近關(guān)系,它是 Circle、Isothetic Rectangle 和 Convex Hull 的首字母縮寫形式。CRH 用篩選器逐步減少特征個(gè)數(shù),直至找到 K 個(gè)最接近特征。在 SPARC10 工作站上的實(shí)驗(yàn)結(jié) 果表明,CRH 作為一種近似算法,得出的結(jié)果相當(dāng)精確,它能在 約 1 秒 CPU 時(shí)間內(nèi)從 5000 個(gè)特征中找到最近的 25 個(gè)。 (2)發(fā)現(xiàn)集合鄰近的共性:給定 N 個(gè)聚集,找到與全部或大多數(shù)聚集最接近的公共特征類,即出現(xiàn)在同一分類中的相似特征,例如發(fā)現(xiàn)所有居民區(qū)都與中學(xué)相近,而不一定是同一所中學(xué)。Gen 算法從 N 個(gè)聚集的 N 個(gè)最近 K 個(gè)特征的集合中抽取集合鄰近公共特征。第四章、 各種技 術(shù) 的 結(jié) 合以模型庫為主體的決策支持系統(tǒng)已經(jīng)發(fā)展了十幾年,它 對計(jì) 算機(jī)輔助決策起到了很大的推動作用。數(shù)據(jù)倉庫和 OLAP 新技術(shù)為決策支持系 統(tǒng)開辟了新途徑。數(shù)據(jù)倉庫與 OLAP 都是數(shù)據(jù)驅(qū)動的。這些新技術(shù)和傳統(tǒng)的模型庫對決策的支持是兩種不同的形式,它們 可以相互補(bǔ)充。在 OLAP 中加入模型庫,將會極大提高 OLAP 的分析能力。   90 年代中期從人工智能、機(jī)器學(xué)習(xí)中發(fā)展起來的數(shù)據(jù)開采,是從數(shù)據(jù) 庫、數(shù)據(jù)倉庫中挖掘有用的知識,其知識的形式有產(chǎn)生式規(guī)則 、決策 樹、數(shù)據(jù)集、公式等。對知識的推理即形成智能模型,它是以定性分析方式輔助決策的。   數(shù)據(jù)挖掘的方法和技術(shù)包括決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、覆蓋正例排斥反例方法、粗集方法、概念樹方法、遺傳算法、公式發(fā)現(xiàn)、統(tǒng)計(jì)分析方法、模糊論方法、可視化技術(shù)。 把數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘、模型 庫結(jié)合起來形成的綜 合決策支持系統(tǒng),是更高級形式的決策支持系統(tǒng)。其中數(shù)據(jù)倉庫能夠?qū)崿F(xiàn)對 決策主題數(shù)據(jù)的存儲和 綜合, OLAP 實(shí)現(xiàn)多維數(shù)據(jù)分析,數(shù)據(jù)挖掘用以挖掘數(shù)據(jù)庫和數(shù)據(jù)倉庫中的知識,模型 庫實(shí)現(xiàn)多個(gè)廣義 模型的組合輔助決策, 專家系統(tǒng)利用知識推理進(jìn)行定性分析。它們集成的綜 合決策支持系統(tǒng),將相互 補(bǔ)充、相互依賴,發(fā)揮各自的輔助決策優(yōu)勢,實(shí)現(xiàn)更有效的輔助決策。其結(jié)構(gòu)圖 如下:這種新形綜合決策支持系統(tǒng)具有如下主要特點(diǎn):1  數(shù)據(jù)倉庫對底層數(shù)據(jù)庫中的事務(wù)級數(shù)據(jù)進(jìn)行集成、 轉(zhuǎn)換 和綜合,重新 組織成面向全局的數(shù)據(jù)視圖,為 DSS 提供數(shù)據(jù)存儲和組織 的基礎(chǔ)。2  OLAP 從數(shù)據(jù)倉庫中的集成數(shù)據(jù)出 發(fā),構(gòu)建面向分析的多維數(shù)據(jù)模型,再使用多維分析方法從多個(gè)不同的視角對多維數(shù)據(jù)進(jìn)行分析、比 較。3  數(shù)據(jù)挖掘以數(shù)據(jù)倉庫和多維數(shù)據(jù)庫中的大量數(shù)據(jù)為基礎(chǔ),自動地發(fā)現(xiàn)數(shù)據(jù)中的潛在模式,并以這些模式為基礎(chǔ)自動做出預(yù)測。數(shù)據(jù)挖掘表明,知識就隱藏在日常積累下來的大量數(shù)據(jù)之中,僅靠復(fù)雜的算法和推理并不能發(fā)現(xiàn)知識,數(shù)據(jù)才是知 識的真正源泉。4  在傳統(tǒng)的 DSS 中,數(shù)據(jù)庫 、模型 庫和知識庫往往被獨(dú)立地設(shè)計(jì)和實(shí)現(xiàn),因而缺乏內(nèi)在的統(tǒng)一性。而數(shù)據(jù)倉庫、聯(lián)機(jī)分析和數(shù)據(jù)挖掘 組成的新的 DSS 構(gòu)架解決了 DSS 數(shù)據(jù)庫內(nèi)數(shù)據(jù)的不一致問題。5  由于內(nèi)存的統(tǒng)一性,這種新 結(jié)構(gòu)很好地解決了相互間的 銜接問題。數(shù)據(jù) 倉庫為 OLAP 提供了充分可靠的數(shù)據(jù)基礎(chǔ),數(shù)據(jù)挖掘可以從數(shù)據(jù) 倉庫和多維數(shù)據(jù) 庫中找到所需的數(shù)據(jù),數(shù)據(jù)挖掘中 發(fā)現(xiàn)的知識可以直接用于指導(dǎo) OLAP 的分析處理,而 OLAP 分析得出的新知識也可以立即補(bǔ)充到系統(tǒng)的知識庫中。這種新的 DSS 構(gòu)架真正重新展示了信息的本質(zhì),表明了信息系統(tǒng)的設(shè)計(jì)觀念從處理驅(qū)動到數(shù)據(jù)驅(qū)動的轉(zhuǎn)變。從而使信息的重點(diǎn)將逐步從支持面向操作層的 OLTP、中間管理控制層的 MIS 提高到數(shù)據(jù)模式分析,高層的決策支持和分析 預(yù)測上來 1
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1