freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘4章挖掘原語語言和體系結(jié)構(gòu)-全文預(yù)覽

2025-09-26 09:04 上一頁面

下一頁面
  

【正文】 o g),I()s,I ( s ?????F o r m a jo r= ” S ci e n ce” : S11=8 4 S21=4 2 I ( s11,s21) =0 . 9 1 8 3F o r m a jo r= ” En g in eer in g ” : S12=3 6 S22=4 6 I ( s12,s22) =0 . 9 8 9 2F o r m a jo r= ” Bus in ess ” : S13=0 S23=4 2 I ( s13,s23) =0Number of grad students in “Science” Number of undergrad students in “Science” 例子:分析特征化 (4) ? 得出每個(gè)屬性的熵 ? 計(jì)算每個(gè)屬性的 Information Gain ? Information gain for all attributes 7 8 7 302504225082250126 231322122111 .)s,s(I)s,s(I)s,s(IE ( ma j o r ) ????2115021 .E ( m ajor ))s,I ( s)G ain( m ajor ???G a i n ( g e n d e r ) = 0 . 0 0 0 3G a i n ( b i r t h _ c o u n t r y ) = 0 . 0 4 0 7G a i n ( m a j o r ) = 0 . 2 1 1 5G a i n ( g p a ) = 0 . 4 4 9 0G a i n ( a g e _ r a n g e ) = 0 . 5 9 7 1例子:分析特征化 (5) ? 4. Initial working relation (W0) derivation ? R = ? 刪除不相關(guān)或者弱相關(guān)的屬性 = drop gender, birth_country ? 刪除比較類的關(guān)系 ? 5. 在 W0進(jìn)行 AOI分析 m a jor a g e_ ra ng e g pa co unt Scien ce 2 1 25 Ver y _ g o o d 16 Scien ce 2 6 30 Excellen t 47 Scien ce 2 1 25 Excellen t 21 Eng in eering 2 1 25 Excellen t 18 Eng in eering 2 6 30 Excellen t 18 Initial target class working relation W0: Graduate students 特征化和比較 ? 什么是概念描述 ? ? 數(shù)據(jù)概化和基于匯總的特征化 ? 分析特征化 : 分析屬性之間的關(guān)聯(lián)性 ? 挖掘類比較 :獲取不同類之間的不同處 ? 在大型數(shù)據(jù)庫中挖掘描述統(tǒng)計(jì)度量 ? 討論 ? 總結(jié) 挖掘類比較 ? 比較 :比較兩個(gè)或者更多類 . ? 方法 : ? 將相關(guān)的數(shù)據(jù)分成目標(biāo)類和比較類。 ? 延長線 : 從盒子延長到最大和最小值 A Boxplot A boxplot 數(shù)據(jù)分布的可視化:盒圖分析 在大型數(shù)據(jù)庫中挖掘統(tǒng)計(jì)信息 ? 方差 ? 標(biāo)準(zhǔn)差 : 方差的平方根 ? 衡量分散程度 ? 當(dāng)且僅當(dāng)所有值一樣的時(shí)候?yàn)?0。 ? 概化方法的不同 ? 機(jī)器學(xué)習(xí):按照元組概化 ? 概念描述:按照屬性概化 特征化和比較 ? 什么是概念描述 ? ? 數(shù)據(jù)概化和基于匯總的特征化 ? 分析特征化 : 分析屬性之間的關(guān)聯(lián)性 ? 挖掘類比較 :獲取不同類之間的不同處 ? 在大型數(shù)據(jù)庫中挖掘描述統(tǒng)計(jì)度量 ? 討論 ? 總結(jié) 。 ? 概念描述:只有正樣本。 ? 用相同層次的描述對元組進(jìn)行比較。 ? 結(jié)果的表示 :概化關(guān)系、交叉表、 3D立方體 示例 ? DMQL: use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone, gpa from student where status in “graduate” ? 相應(yīng)的 SQL: Select name, gender, major, birth_place, birth_date, residence, phone, gpa from student where status in {“Msc”, “MBA”, “PhD” } 類特征化:示例 N am e G en d er M ajo r B irt h P la ce B irt h _d ate R esid e n ce P h on e G P AJimW o od m an M C S V an cou ve r, B C ,C an ad a 81 2 76 35 1 1 M a in S t. ,R ich m on d68 7 45 9 8 3. 6 7S cot tL ach an ce M C S M on tr e al, Q u e,C an ad a28 7 7 5 34 5 1 st A v e. ,R ich m on d25 3 91 0 6 3. 7 0L au r a L ee… F…P h ys ics…Se a t t le , W A , U SA…25 8 7 0…1 2 5 A ust in A v e .,B ur na by…42 0 52 3 2…3. 8 3…R e m o v e d R e t a ine d Sc i,E ng ,B usC ou n tr y A ge ran ge C ity R em oved E xc l,V G , . .G e n d e r M a j o r B i r t h _ r e g i o n A g e _ r a n g e R e s i d e n c e G P A C o u n t M S c i e n c e C a n a d a 2 0 2 5 R i c h mo n d V e r y g o o d 1 6 F S c i e n c e F o r e i g n 2 5 3 0 B u r n a b y E x c e l l e n t 2 2 … … … … … … … B i r t h _ R e g i o nG e n d e rC a n a d a F o r e i g n To t a l M 1 6 1 4 3 0 F 1 0 2 2 3 2 T o t a l 2 6 3 6 6 2Prime Generalized Relation Initial Relation 概化結(jié)果的表示 ? 概化關(guān)系 : ? 一個(gè)表格,其中有屬性字段,后附匯總方法。 ? 屬性刪除 : 如果某個(gè)屬性包含大量不同值,但是 1)在該屬性上沒有概化操作, 或者 2)它的較高層概念用其它屬性表示。 ? CRISPDM (CRossIndustry Standard Process for Data Mining) ? 是一個(gè)國際性項(xiàng)目,包含數(shù)據(jù)庫公司,數(shù)據(jù)倉庫公司,用戶公司(user panies) ? 目的在于提供有效數(shù)據(jù)挖掘的平臺和過程結(jié)構(gòu) (process structure) ? 強(qiáng)調(diào)運(yùn)用數(shù)據(jù)挖掘技術(shù)來解決商業(yè)問題 挖掘原語,語言和體系結(jié)構(gòu) ? 數(shù)據(jù)挖掘原語 ? 數(shù)據(jù)挖掘語言 ? 數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu) ? 總結(jié) 數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu) ? 數(shù)據(jù)挖掘系統(tǒng)與 DB/DW 系統(tǒng)的耦合程度 ? 零耦合 —用文件作為數(shù)據(jù)源和存放結(jié)果數(shù)據(jù) ,不推薦 ? 松散耦合 ? 用 DB/DW作數(shù)據(jù)源,查詢結(jié)果寫入文件或 DB/DW;但不使用DB/DW的提供的數(shù)據(jù)結(jié)構(gòu)和查詢優(yōu)化方法。39。 ? 系統(tǒng)應(yīng)具備自動選取相關(guān)屬性的機(jī)制,比如通過評估各屬性與特定操作的相關(guān)程度。customer表的 ine,age屬性。挖掘相關(guān)數(shù)據(jù)可以寫成 : use database AllElectronics_db in relevance to , , , from customer C , item I , purchase P , item_sold S where
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1