freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用v-文庫(kù)吧資料

2025-05-22 08:48本頁面
  

【正文】 別標(biāo)記的樣本 ? 決策樹的輸出 一棵二叉或多叉樹。 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 ? 訓(xùn)練的終止條件 – 獲得一組權(quán)重值,使得訓(xùn)練集中幾乎所有樣本都分類正確 ? 訓(xùn)練步驟 – 利用隨機(jī)值對(duì)權(quán)值進(jìn)行初始化 – 將訓(xùn)練樣本逐一地輸入給神經(jīng)網(wǎng)絡(luò),進(jìn)行訓(xùn)練 – 對(duì)于每個(gè)神經(jīng)元 ? 將其所有的輸入值進(jìn)行線性求和計(jì)算得到總的輸入 ? 利用激勵(lì)函數(shù)計(jì)算其輸出值 ? 計(jì)算誤差 ? 修正網(wǎng)絡(luò)權(quán)值和閾值(偏差) 決策樹 決策樹分類是用屬性值對(duì)樣本集逐級(jí)劃分,直到一個(gè)節(jié)點(diǎn)僅含有同一類的樣本為止。 概述 神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)( Artificial Neural Network,ANN)是 20世紀(jì) 80年代后期迅速發(fā)展起來的人工智能技術(shù),它對(duì)噪聲數(shù)據(jù)具有很高的承受能力,對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)具有分類模擬的能力,因此在網(wǎng)站信息、生物信息和基因以及文本的數(shù)據(jù)挖掘等領(lǐng)域得到了越來越廣泛的應(yīng)用。 組合預(yù)測(cè)方法是建立在信息利用最大化的基礎(chǔ)上,它集結(jié)多種單一模型所包含的信息,進(jìn)行最優(yōu)組合。 概述 ? 優(yōu)選組合預(yù)測(cè)方法(兩種) 一是指將幾種預(yù)測(cè)方法所得預(yù)測(cè)結(jié)果,選取適當(dāng)權(quán)重進(jìn)行加權(quán)平均 。 概述 ? 小波分析預(yù)測(cè)方法 20世紀(jì)數(shù)學(xué)研究成果中最杰出的代表。 概述 ? 模糊預(yù)測(cè)方法 建立在模糊數(shù)學(xué)理論上的一種預(yù)測(cè)新技術(shù),模糊數(shù)學(xué)是用數(shù)學(xué)方法來研究和處理具有 “ 模糊性 ” 的現(xiàn)象。因此,需要專家系統(tǒng)的相關(guān)技術(shù)。 概述 ? 專家系統(tǒng)預(yù)測(cè)方法 基于知識(shí)建立起來的計(jì)算機(jī)系統(tǒng),它擁有某個(gè)領(lǐng)域內(nèi)專家們的知識(shí)和經(jīng)驗(yàn),能像專家們那樣運(yùn)用這些知識(shí),通過推理作出決策?,F(xiàn)在多采用誤差反向傳播 (BP)算法和徑向基函數(shù) (RBF)方法。它不依賴于輸入變量和預(yù)測(cè)目標(biāo)之間明確的表達(dá)式,輸入變量和預(yù)測(cè)目標(biāo)之間的關(guān)系通過訓(xùn)練過程來形成,避免了建模過程的困難 。 ? 人工神經(jīng)網(wǎng)絡(luò) (ANN)預(yù)測(cè)方法 目前應(yīng)用最廣泛的短期預(yù)測(cè)方法。當(dāng)文本被表示為空間向量模型的時(shí)候,文本的相似度就可以借助特征向量之間的內(nèi)積來表示。這是最早也是最著名的信息檢索方面的數(shù)學(xué)模型。 SVM法對(duì)小樣本情況下的自動(dòng)分類有著較好的分類結(jié)果。通過學(xué)習(xí), SVM可以自動(dòng)尋找出那些對(duì)分類有較好區(qū)分能力的支持向量,由此構(gòu)造出的分類器可以最大化類與類的間隔,因而有較好的適應(yīng)能力和較高的分準(zhǔn)率。 概述 ? SVM分類方法 即支持向量機(jī) ( Support Vector Machine) 法,由 Vapnik等人于 1995年提出,具有相對(duì)優(yōu)良的性能指標(biāo)。該方法在分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分類樣本所屬的類別。 概述 ? KNN分類 即 K最近鄰法,最初由 Cover和 Hart于 1968年提出的,是一個(gè)理論上比較成熟的方法。它采用自頂向下、遞歸的、各個(gè)擊破的方式構(gòu)造決策樹。 ? 分類可用于提取描述重要數(shù)據(jù)類的模型或預(yù)測(cè)未來的數(shù)據(jù)趨勢(shì)。 7 分類和預(yù)測(cè) 概述 神經(jīng)網(wǎng)絡(luò) 決策樹 實(shí)現(xiàn)過程 概述 ? 分類是數(shù)據(jù)挖掘中的一個(gè)重要課題。這與可視化密切相關(guān),同時(shí)也與實(shí)際應(yīng)用有關(guān)。這常常是高效率算法的弱點(diǎn)。如經(jīng)典的 k均值算法,需要預(yù)先給出簇的數(shù)目。有些算法不擅于處理孤立點(diǎn)數(shù)據(jù),因此還專門出現(xiàn)了發(fā)現(xiàn)孤立點(diǎn)數(shù)據(jù)的算法。在這方面,基于密度的聚類方法較好。在高維空間中聚類是一個(gè)挑戰(zhàn),特別是數(shù)據(jù)有可能非常稀疏和偏斜。 ? 高維性 即算法中模式屬性個(gè)數(shù)發(fā)生變化的情況。有些算法在模式數(shù)小的條件下,算法的性能很好,但是模式數(shù)增大后,算法性能下降。 ? 即便是采用同一種聚類方法,若選擇不同的初始參數(shù)(如聚類數(shù)、聚類中心等)也可能會(huì)得到不同的聚類結(jié)果。 ? 聚類有效性對(duì)聚類分析具有重要意義,被認(rèn)為是聚類分析的一個(gè)瓶頸。其本質(zhì)是不僅要考慮對(duì)象是否屬于該類,而且要考慮屬于該類的程度如何。 即使得在一個(gè)簇內(nèi)的對(duì)象具有高相似性,而不同簇間的對(duì)象具有低相似性的過程。 KDD過程可能需要多次的循環(huán)反復(fù) , 每一個(gè)步驟一旦與預(yù)期目標(biāo)不符 , 都要回到前面的步驟 ,重新調(diào)整 , 重新執(zhí)行 。 實(shí)現(xiàn) ? 知識(shí)運(yùn)用 發(fā)現(xiàn)知識(shí)是為了運(yùn)用 , 如何使知識(shí)能被運(yùn)用也是 KDD的步驟之一 。 實(shí)現(xiàn) ? 模式的評(píng)估、解釋 通過上面步驟所得到的模式,有可能是沒有意義或沒有實(shí)用價(jià)值的,因此需要評(píng)估,確定那些是有效的、有用的模式。 實(shí)現(xiàn) ? 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘是最為關(guān)鍵的步驟,它根據(jù)KDD的目標(biāo),選取相應(yīng)算法的參數(shù),分析數(shù)據(jù),得到可能形成知識(shí)的模式模型。 數(shù)據(jù)準(zhǔn)備是 KDD的第一個(gè)步驟,也是比較重要的一個(gè)步驟。 但往往不合適直接在這些數(shù)據(jù)上進(jìn)行知識(shí)挖掘 , 需要做一些準(zhǔn)備工作 , 也就數(shù)據(jù)的預(yù)處理 。 數(shù)據(jù)挖掘是近年來出現(xiàn)的客戶關(guān)系管理( Customer Relationship Management, CRM)、商業(yè)智能( Business Intelligence, BI)等熱點(diǎn)領(lǐng)域的核心技術(shù)之一。 KDD常常被稱為數(shù)據(jù)挖掘( Data Mining),實(shí)際兩者是有區(qū)別的。最初,數(shù)據(jù)挖掘是作為 KDD中利用算法處理數(shù)據(jù)的一個(gè)步驟,其后逐漸演變成 KDD的同義詞。 1989年 8月,在美國(guó)底特律召開的第 11屆國(guó)際人工智能聯(lián)合會(huì)議的專題討論會(huì)上首次出現(xiàn)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)( Knowledge Discovery in Database, KDD)這一術(shù)語。 概述 數(shù)據(jù)挖掘是八十年代投資 AI研究項(xiàng)目失敗后,AI轉(zhuǎn)入實(shí)際應(yīng)用時(shí)提出的。目前的數(shù)據(jù)庫(kù)系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。 OLAM 5 數(shù)據(jù)挖掘基礎(chǔ) 概述 實(shí)現(xiàn) 工具 二十世紀(jì)末以來,全球信息量以驚人的速度急劇增長(zhǎng) —據(jù)估計(jì),每二十個(gè)月將增加一倍。 OLAP 將 OLAP與數(shù)據(jù)挖掘結(jié)合起來 , 發(fā)展出一種為數(shù)據(jù)挖掘服務(wù)的具有新型 OLAP的數(shù)據(jù)倉(cāng)庫(kù) , 將更能適應(yīng)實(shí)際的需要 。因此,雖然在響應(yīng)速度、執(zhí)行效率上差一點(diǎn),仍然得到了廣泛應(yīng)用。 OLAP ? 根據(jù)對(duì)數(shù)據(jù)的組織方式的不同, OLAP分為兩種 : 基于多維數(shù)據(jù)庫(kù)的 OLAP(MDOLAP) 基于關(guān)系數(shù)據(jù)庫(kù)的 OLAP(ROLAP) 前者響應(yīng)速度快、執(zhí)行效率高,但源于結(jié)構(gòu)的局限 ,靈活性不高。 OLAP ? OLAP( OnLine Analysis Processing)定義 是數(shù)據(jù)倉(cāng)庫(kù)上的分析展示工具,它建立在數(shù)據(jù)多維視圖的基礎(chǔ)上??蛻舻臎Q策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行大量計(jì)算才能獲得結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn) 3 數(shù)據(jù)倉(cāng)庫(kù)實(shí)例 實(shí)例一 實(shí)例二 4 OLAP和 OLAM OLAP OLAM ? OLAP定義 ? 60年代,關(guān)系數(shù)據(jù)庫(kù)之父 ,促進(jìn)了聯(lián)機(jī)事務(wù)處理 (OLTP)的發(fā)展 (數(shù)據(jù)以表格的形式而非文件方式存儲(chǔ) )。 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn) 第一種方法類似于軟件工程中 “ 自底向上 ” 的方法,投資少、周期短且易于見到成果,但由于該設(shè)計(jì)開始時(shí)是以特定的部門級(jí)主題為框架的,向其他的主題和部門擴(kuò)充往往比較困難; 第二種方法與第一種相反,即 “ 自頂向下 ” 的方法,投資大、周期長(zhǎng)。 系統(tǒng),用以監(jiān)測(cè)和協(xié)調(diào)整個(gè)加載的過程。 ETL設(shè)計(jì) d. 加載事實(shí)表 這中間也涉及到鍵查找的問題,即從有關(guān)維表中找到相應(yīng)的主鍵,并以此作事實(shí)表的外鍵。 ETL設(shè)計(jì) ,所以要先完成對(duì)維表的加載,生成維表主鍵,并作為以后加載事實(shí)表所需要的外鍵。一般而言,總包括下面的處理過程: 正式開始作業(yè)之前的準(zhǔn)備工作,包括清空工作區(qū)、檢查過渡/準(zhǔn)備區(qū)。 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) ( 2)數(shù)據(jù)倉(cāng)庫(kù)模型的設(shè)計(jì) —— OLAP模型的設(shè)計(jì) 針對(duì)每一個(gè)主題確定其需要的維度和度量變量,然后為每一個(gè)主題定義關(guān)系模式,從而形成一個(gè)星型結(jié)構(gòu),在這個(gè)星型結(jié)構(gòu)的基礎(chǔ)上,可以生成多維數(shù)據(jù)表,建立多維數(shù)據(jù)庫(kù)。 ETL ? 提高數(shù)據(jù)
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1