freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[互聯(lián)網(wǎng)]數(shù)據(jù)挖掘偶然看到比較好的-預(yù)覽頁(yè)

 

【正文】 viationbased)的方法 ? 基于密度 (densitybased)的方法 ? 高維數(shù)據(jù)的異常探測(cè) 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 知識(shí)(模式)的特征 ?知識(shí)發(fā)現(xiàn)系統(tǒng)能夠發(fā)現(xiàn)什么知識(shí)? ?計(jì)算學(xué)習(xí)理論 COLT( Computational Learning Theory) ?以 FOL為基礎(chǔ)的以發(fā)現(xiàn)關(guān)系為目的的歸納邏輯程序設(shè)計(jì) ?現(xiàn)行的知識(shí)發(fā)現(xiàn)系統(tǒng)只能發(fā)現(xiàn)特定模式的知識(shí) ?規(guī)則 ?分類 ?關(guān)聯(lián) 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)據(jù)挖掘的主要方法 ?分類( Classification) ?聚類 (Clustering) ?相關(guān)規(guī)則 (Association Rule) ?回歸 (Regression) ?其他 169。 ? 第二代數(shù)據(jù)挖掘系統(tǒng) ? 目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。 169。 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 污染數(shù)據(jù)形成的原因 ? 濫用縮寫詞 ? 數(shù)據(jù)輸入錯(cuò)誤 ? 數(shù)據(jù)中的內(nèi)嵌控制信息 ? 不同的慣用語(yǔ) ? 重復(fù)記錄 ? 丟失值 ? 拼寫變化 ? 不同的計(jì)量單位 ? 過時(shí)的編碼 ? 含有各種噪聲 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)據(jù)規(guī)約 ? 數(shù)據(jù)集的壓縮表示,但是能和原始數(shù)據(jù)集達(dá)到相同或基本相同的分析結(jié)果 ? 主要策略 : ? 數(shù)據(jù)聚集 ? 維規(guī)約 ? 數(shù)據(jù)壓縮 ? 數(shù)值規(guī)約 169。 ? 箱的寬度:每個(gè)箱值的取值區(qū)間是個(gè)常數(shù)。 ? 人工再審查這些孤立點(diǎn) 169。 ? 實(shí)體識(shí)別 實(shí)體和模式的匹配 ? 冗余:某個(gè)屬性可以由別的屬性推出。 A隨 B的值得增大而減少 ? 重復(fù) 同一數(shù)據(jù)存儲(chǔ)多次 ? 數(shù)據(jù)值沖突的檢測(cè)和處理 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 維規(guī)約 ? 刪除不相關(guān)的屬性(維)來減少數(shù)據(jù)量。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)值規(guī)約 ? 回歸和對(duì)數(shù)線形模型 ? 線形回歸 ? 對(duì)數(shù)線形模型 ? 直方圖 ? 等寬 ? 等深 ? V最優(yōu) ? maxDiff 169。 ? 大量時(shí)間花在排序上。 7個(gè)不同值,按 233劃分為 3個(gè)區(qū)間 ?最高位包含 2, 4, 8個(gè)不同值,劃分為 4個(gè)等寬區(qū)間 ?最高位包含 1 , 5, 10個(gè)不同值,劃分為 5個(gè)等寬區(qū)間 ?最高分層一般在第 5個(gè)百分位到第 95個(gè)百分位上進(jìn)行 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 三、數(shù)據(jù)挖掘算法 -分類與預(yù)測(cè) 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 第二步:用模型進(jìn)行分類 分類規(guī)則 測(cè)試集 N A M E RANK Y E A R S T E N U R E DT o m A s s i s t a n t P r o f 2 noM e r l i s a A s s o c i a t e P r o f 7 noG e o r g e P r o f e s s o r 5 y e sJ o s e p h A s s i s t a n t P r o f 7 y e s未知數(shù)據(jù) (Jeff, Professor, 4) Tenured? 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 判定歸納樹算法 ? 判定歸納樹算法(一個(gè)貪心算法) ? 自頂向下的分治方式構(gòu)造判定樹 ? 樹以代表訓(xùn)練樣本的單個(gè)根節(jié)點(diǎn)開始 ? 使用分類屬性(如果是量化屬性,則需先進(jìn)行離散化) ? 遞歸的通過選擇相應(yīng)的 測(cè)試屬性 ,來劃分樣本,一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)的任何后代上出現(xiàn) ? 測(cè)試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計(jì)信息來進(jìn)行選擇(如:信息增益) ? 遞歸劃分步驟停止的條件 ? 給定節(jié)點(diǎn)的所有樣本屬于同一類 ? 沒有剩余屬性可以用來進(jìn)一步劃分樣本 —— 使用多數(shù)表決 ? 沒有剩余的樣本 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 后向傳播分類 ? 后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法;神經(jīng)網(wǎng)絡(luò)是一組連接的輸入 /輸出單元,每個(gè)連接都與一個(gè)權(quán)相連。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 什么是預(yù)測(cè)? ? 預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無樣本類,或評(píng)估給定樣本可能具有的屬性或值空間。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 提高分類法的準(zhǔn)確性 ? Bagging技術(shù)和 boosting技術(shù)都通過將 T個(gè)學(xué)習(xí)得到的分類法 C1,C2…C T組合起來,從而創(chuàng)造一個(gè)改進(jìn)的分類法 C* ? Bagging技術(shù) ?對(duì)訓(xùn)練集 S進(jìn)行 T次迭代,每次通過放回取樣選取樣本集 St,通過學(xué)習(xí) St得到分類法 Ct ?對(duì)于未知樣本 X,每個(gè)分類法返回其類預(yù)測(cè),作為一票 ? C*統(tǒng)計(jì)得票,并將得票最高的預(yù)測(cè)賦予 X ? Boosting技術(shù) ?每個(gè)訓(xùn)練樣本賦予一個(gè)權(quán)值 ? Ct的權(quán)值取決于其錯(cuò)誤率 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 應(yīng)用聚類分析的例子 ? 市場(chǎng)銷售 : 幫助市場(chǎng)人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識(shí)來開展一個(gè)目標(biāo)明確的市場(chǎng)計(jì)劃; ? 土地使用 : 在一個(gè)陸地觀察數(shù)據(jù)庫(kù)中標(biāo)識(shí)那些土地使用相似的地區(qū); ? 保險(xiǎn) : 對(duì)購(gòu)買了汽車保險(xiǎn)的客戶,標(biāo)識(shí)那些有較高平均賠償成本的客戶; ? 城市規(guī)劃 : 根據(jù)類型、價(jià)格、地理位置等來劃分不同類型的住宅; ? 地震研究 : 根據(jù)地質(zhì)斷層的特點(diǎn)把已觀察到的地震中心分成不同的類; 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 評(píng)價(jià)聚類質(zhì)量 ? 差異度 /相似度矩陣 : 相似度通常用距離函數(shù)來表示; ? 有一個(gè)單獨(dú)的質(zhì)量評(píng)估函數(shù)來評(píng)判一個(gè)簇的好壞; ? 對(duì)不同類型的變量,距離函數(shù)的定義通常是不同的,這在下面有詳細(xì)討論; ? 根據(jù)實(shí)際的應(yīng)用和數(shù)據(jù)的語(yǔ)義,在計(jì)算距離的時(shí)候,不同的變量有不同的權(quán)值相聯(lián)系; ? 很難定義 “ 足夠相似了 ” 或者 “ 足夠好了 ” ? 只能憑主觀確定; 169。 ? 常用的距離度量方法有 : 明考斯基距離 ( Minkowski distance) : 其中 i = (xi1, xi2, … , xip) 和 j = (xj1, xj2, … , xjp) 是兩個(gè) p維的數(shù)據(jù)對(duì)象 , q是一個(gè)正整數(shù)。 169。 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 五、數(shù)據(jù)挖掘算法-關(guān)聯(lián) 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 關(guān)聯(lián)規(guī)則:基本概念 ? 給定 : (1)交易數(shù)據(jù)庫(kù) (2)每筆交易是:一個(gè)項(xiàng)目列表 (消費(fèi)者一次購(gòu)買活動(dòng)中購(gòu)買的商品 ) ? 查找 : 所有 描述一個(gè)項(xiàng)目集合與其他項(xiàng)目集合相關(guān)性的規(guī)則 ? ., 98% of people who purchase tires and auto accessories also get automotive services done ? 應(yīng)用 ? * ? 護(hù)理用品 (商店應(yīng)該怎樣提高護(hù)理用品的銷售? ) ? 家用電器 ? * (其他商品的庫(kù)存有什么影響 ?) ? 在產(chǎn)品直銷中使用 附加郵寄 ? Detecting ―pingpong‖ing of patients, faulty ―collisions‖ 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 關(guān)聯(lián)規(guī)則挖掘 —一個(gè)例子 對(duì)于 A ? C: support = support({A 、 C}) = 50% confidence = support({A 、 C})/support({A}) = % Apriori的基本思想 : 頻繁項(xiàng)集的任何子集也一定是頻繁的 交易 ID 購(gòu)買商品2022 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F頻繁項(xiàng)集 支持度{ A } 75%{ B } 50%{ C} 50%{ A ,C} 50%最小值尺度 50% 最小可信度 50% 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 多層關(guān)聯(lián)規(guī)則 ? 支持度不變 : 在各層之間使用統(tǒng)一的支持度 ? + 一個(gè)最小支持度閾值 . 如果一個(gè)項(xiàng)集的父項(xiàng)集不具有最小支持度,那他本身也不可能滿足最小支持度。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 多層關(guān)聯(lián):冗余過濾 ? 由于 “ 祖先 ” 關(guān)系的原因,有些規(guī)則可能是多余的。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)據(jù)挖掘查詢的逐步精化 ?為什么要逐步精化 ?挖掘操作的代價(jià)可能高或低,結(jié)果可能細(xì)致或粗糙 ?在速度和質(zhì)量之間折衷:逐步精化 ?超集覆蓋特征: ?預(yù)存儲(chǔ)所有正面答案 —允許進(jìn)一步正確性驗(yàn)證,而不必驗(yàn)證已經(jīng)錯(cuò)誤的 ? 2或多步挖掘: ?先執(zhí)行粗糙的、容易的操作 (超集覆蓋 ) ?然后在減少后的候選集上進(jìn)行計(jì)算量大的算法 (Koperski amp。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 多維關(guān)聯(lián)規(guī)則:概念 ?單維規(guī)則: buys(X, ―milk‖) ? buys(X, ―bread‖) ?多維規(guī)則: 2個(gè)以上維 /謂詞 ?維間關(guān)聯(lián)規(guī)則 (維詞 不重復(fù) ) age(X,‖1925‖) ? occupation(X,―student‖) ? buys(X,―coke‖) ?混合維關(guān)聯(lián)規(guī)則 (維詞重復(fù) ) age(X,‖1925‖) ? buys(X, ―popcorn‖) ? buys(X, ―coke‖) ?類別屬性 ?有限個(gè)值 , 值之間無順序關(guān)系 ?數(shù)量屬性 ?數(shù)字的,值之間隱含了順序關(guān)系 169。 3. 基于距離的關(guān)聯(lián)規(guī)則 ? 用數(shù)據(jù)點(diǎn)之間的距離動(dòng)態(tài)的離散化 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 ARCS (關(guān)聯(lián)規(guī)則聚集系統(tǒng) ) ARCS 流程 1. 分箱 2. 查找頻繁維詞 集合 3. 聚集 4. 優(yōu)化 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 關(guān)聯(lián)規(guī)則可視化 Using Rule Graph 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 序列模式應(yīng)用領(lǐng)域 ? 應(yīng)用領(lǐng)域: ? 客戶購(gòu)買行為模式預(yù)測(cè) ? Web訪問模式預(yù)測(cè) ? 疾病診斷 ? 自然災(zāi)害預(yù)測(cè) ? DNA序列分析 ? 工業(yè)控制 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 序列模式表示 ? 例子:設(shè)序列數(shù)據(jù)庫(kù)如下圖所示,并設(shè)用戶指定的最小支持度 minsupport = 2。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 序列模式挖掘算法 ? 上述算法存在的主要問題: ? 缺少時(shí)間限制:用戶可能需要指定序列模式的相鄰元素之間的時(shí)間間隔。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 七、數(shù)據(jù)挖掘軟件 169。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)據(jù)挖掘軟件的發(fā)展 第一代數(shù)據(jù)挖掘軟件 CBA 新加坡國(guó)立大學(xué)。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)據(jù)挖掘軟件的發(fā)展 第二代軟件 SAS Enterprise Miner 169。 ? 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在( ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù) 第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo), PKDD2022上Kargupta發(fā)表了一篇在移動(dòng)環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)( University of Maryland Baltimore County)正在研制的 CAREER數(shù)據(jù)挖掘項(xiàng)目的負(fù)責(zé)人,該項(xiàng)目研究期限是 2022年 4月到 2022年 4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)( Ubiquitous設(shè)備)的第四代數(shù)據(jù)挖掘系統(tǒng)。 Copyright by Song Zhihuan 工業(yè)控制技術(shù)研究所 數(shù)據(jù)挖掘軟件的發(fā)展 數(shù)據(jù)挖掘軟件發(fā)展的三個(gè)階段 ? 獨(dú)立的數(shù)據(jù)挖掘軟件 ? 橫向的數(shù)據(jù)挖掘工具集 ? 縱向的數(shù)據(jù)挖掘解決方案 169。 169。 Copyr
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1