freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘概念與技術(shù)課后題答案匯總-展示頁(yè)

2025-07-02 20:43本頁(yè)面
  

【正文】 的層次的差別如下。為了使 數(shù)據(jù)挖掘能有效地將知識(shí)傳給用戶,數(shù)據(jù)挖掘系統(tǒng)應(yīng)該能將發(fā)現(xiàn)的各種 形式的模式展示出來(lái),正如規(guī)則、表格、餅或條形圖、決策樹(shù)、立方體或其它視覺(jué)的表示。興趣度測(cè)量能被指定為簡(jiǎn)易性、確定性、 適用性、和新穎性的特征。? 模式興趣度度量:這種原語(yǔ)允許用戶指定功能,用于從知識(shí)中分割不感 興趣的模式,并且被用來(lái)指導(dǎo)挖掘過(guò)程,也可評(píng)估發(fā)現(xiàn)的模式。這樣的 知識(shí)能被用來(lái)指導(dǎo)知識(shí)發(fā)現(xiàn)過(guò)程,并且評(píng)估發(fā)現(xiàn)的模式。這些模版或超模式(也被稱為超規(guī)則)能被用來(lái)指導(dǎo)發(fā)現(xiàn)過(guò)程。? 挖掘的數(shù)據(jù)類型:這種原語(yǔ)指明了所要執(zhí)行的特定數(shù)據(jù)挖掘功能,如特 征化、區(qū)分、關(guān)聯(lián)、分類、聚類、或演化分析。 解答:用于指定數(shù)據(jù)挖掘任務(wù)的五種原語(yǔ)是:? 任務(wù)相關(guān)數(shù)據(jù):這種原語(yǔ)指明給定挖掘所處理的數(shù)據(jù)。聚類也便于分類法組織形式,將觀測(cè)組織成類分 層結(jié)構(gòu),把類似的事件組織在一起。對(duì)象根據(jù)最大花蕾內(nèi)部的相 似性、最小化類之間的相似性的原則進(jìn)行聚類或分組。它們的相似性是他們都是預(yù)測(cè)的工具: 分類被用作預(yù)測(cè)目標(biāo)數(shù)據(jù)的類的標(biāo)簽,而預(yù)測(cè)典型的應(yīng)用是預(yù)測(cè)缺失的 數(shù)字型數(shù)據(jù)的值。這個(gè)組一個(gè)學(xué)生 擁有一臺(tái)個(gè)人電腦的概率是 98%(置信度,或確定度)。 例 如, 一 個(gè)數(shù) 據(jù) 挖掘 系 統(tǒng)可 能 發(fā)現(xiàn) 的 關(guān)聯(lián) 規(guī) 則為 :major(X, “ puting science”) ? owns(X, “personal puter” ) [support=12%, confid ence=98%]其中,X 是一個(gè)表示學(xué)生的變量。最終的描述可能是學(xué)生的一個(gè)一般可比較的 輪廓,就像具有高 GPA 的學(xué)生的 75%是四年級(jí)計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生, 而具有低 GPA 的學(xué)生的 65%不是。? 區(qū)分是將目標(biāo)類數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般 特性進(jìn)行比較。解答:? 特征化是一個(gè)目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。數(shù)據(jù)挖掘——概念概念與技術(shù)Data MiningConcepts and Techniques習(xí)題解答Jiawei Han Micheline Kamber 著 范明 孟曉峰 譯目錄第 1 章 引言 什么是數(shù)據(jù)挖掘?在你的回答中,針對(duì)以下問(wèn)題: 定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預(yù)測(cè)聚 類和演變分析。使用你熟悉的現(xiàn)實(shí)生活的數(shù)據(jù)庫(kù),給出每種數(shù)據(jù)挖掘功 能的例子。例如,學(xué)生的特征 可被提出,形成所有大學(xué)的計(jì)算機(jī)科學(xué)專業(yè)一年級(jí)學(xué)生的輪廓,這些特 征包括作為一種高的年級(jí)平均成績(jī)(GPA:Grade point aversge) 的信息, 還有所修的課程的最大數(shù)量。例如,具有高 GPA 的學(xué)生的一般特性可被用來(lái)與具有 低 GPA 的一般特性比較。? 關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特 征 值的 條 件。這個(gè)規(guī)則指出正在學(xué)習(xí)的學(xué)生,12%(支持度)主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī)。? 分類與預(yù)測(cè)不同,因?yàn)榍罢叩淖饔檬菢?gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型 或概念的模型(或功能),而后者是建立一個(gè)模型去預(yù)測(cè)缺失的或無(wú)效 的、并且通常是數(shù)字的數(shù)據(jù)值。? 聚類分析的數(shù)據(jù)對(duì)象不考慮已知的類標(biāo)號(hào)。形成的每一簇可 以被看作一個(gè)對(duì)象類。? 數(shù)據(jù)延邊分析描述和模型化隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì),盡管這可 能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測(cè), 這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和 基于相似性的數(shù)據(jù)分析 列舉并描述說(shuō)明數(shù)據(jù)挖掘任務(wù)的五種原語(yǔ)。它包括指明數(shù)據(jù) 庫(kù)、數(shù)據(jù)庫(kù)表、或數(shù)據(jù)倉(cāng)庫(kù),其中包括包含關(guān)系數(shù)據(jù)、選擇關(guān)系數(shù)據(jù)的 條件、用于探索的關(guān)系數(shù)據(jù)的屬性或維、關(guān)于修復(fù)的數(shù)據(jù)排序和分組。同樣,用戶的要求可能 更特殊,并可能提供所發(fā)現(xiàn)的模式必須匹配的模版。? 背景知識(shí):這種原語(yǔ)允許用戶指定已有的關(guān)于挖掘領(lǐng)域的知識(shí)。關(guān)于數(shù)據(jù)中關(guān) 系的概念分層和用戶信念是背景知識(shí)的形式。這樣就 允許用戶限制在挖掘過(guò)程返回的不感興趣的模式的數(shù)量,因?yàn)橐环N數(shù)據(jù) 挖掘系統(tǒng)可能產(chǎn)生大量的模式。? 發(fā)現(xiàn)模式的可視化:這種原語(yǔ)述及發(fā)現(xiàn)的模式應(yīng)該被顯示出來(lái)。 描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)集成方法的差別:不耦 合、松散耦合、半緊耦合和緊密耦合。? 不耦合:數(shù)據(jù)挖掘系統(tǒng)用像平面文件這樣的原始資料獲得被挖掘的原始 數(shù)據(jù)集,因?yàn)闆](méi)有數(shù)據(jù)庫(kù)系統(tǒng)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的任何功能被作為處理過(guò) 程的一部分執(zhí)行。? 松散耦合:數(shù)據(jù)挖掘系統(tǒng)不與數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)集成,除了使用被挖掘 的初始數(shù)據(jù)集的源數(shù)據(jù)和存儲(chǔ)挖掘結(jié)果。但是,在大量的數(shù)據(jù)集 中,由松散耦合得到高可測(cè)性和良好的性能是非常困難的,因?yàn)樵S多這 種系統(tǒng)是基于內(nèi)存的。另外,一些經(jīng)常用到的中間挖掘結(jié)果能被預(yù)計(jì)算并存儲(chǔ)到 數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,從而增強(qiáng)了數(shù)據(jù)挖掘系統(tǒng)的性能。這樣的話,數(shù)據(jù)挖掘子系統(tǒng) 被視為一個(gè)信息系統(tǒng)的功能組件。從以上提供的體系結(jié)構(gòu)的描述看,緊密耦合是最優(yōu)的,沒(méi)有值得顧慮的技術(shù) 和執(zhí)行問(wèn)題。因此,目前最流行的體系結(jié)構(gòu)仍是半緊密耦合,因?yàn)樗撬缮Ⅰ詈虾?緊密耦合的折中。第 2 章 數(shù)據(jù)預(yù)處理 假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。年齡頻率1~52005~1545015~2030020~50150050~8070080~11044計(jì)算數(shù)據(jù)的近似中位數(shù)值。 我們有:L1=20,N=3197,(∑freq) l=950,freqmed ian=1500,width=30,使用公式():?? N / 2 ? (∑)freq ?l ?? 3197 / 2 ? 950 ?median = L1 + ??width = 20 + ?? 30 = ? freq median ?? 1500 ?∴ median= 歲。數(shù)據(jù)元組的 age 值(以遞增序) 是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。(c) 數(shù)據(jù)的中列數(shù)是什么?(d) 你能(粗略地)找出數(shù)據(jù)的第一個(gè)四分位數(shù)(Q1)和第三個(gè)四分位數(shù)(Q3)嗎?(e) 給出數(shù)據(jù)的五數(shù)概括。(g) 分位數(shù)—分位數(shù)圖與分位數(shù)圖的不同之處是什么? 解答:(a) 該數(shù)據(jù)的均值是什么?中位數(shù)是什么?N ∑1 N均值是: x = xii=1個(gè),即 x14=25=Q2。中位數(shù)應(yīng)是第 14(b) 該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等)。(c) 數(shù)據(jù)的中列數(shù)是什么? 數(shù)據(jù)的中列數(shù)是最大術(shù)和最小是的均值。(d) 你能(粗略地)找出數(shù)據(jù)的第一個(gè)四分位數(shù)(Q1)和第三個(gè)四分位數(shù)(Q3) 嗎?數(shù)據(jù)集的第一個(gè)四分位數(shù)應(yīng)發(fā)生在 25%處,即在(N+1)/4=7 處。 而第三個(gè)四分位數(shù)應(yīng)發(fā)生在 75%處,即在 3(N+1)/4=21 處。一個(gè)數(shù)據(jù)集的分
點(diǎn)擊復(fù)制文檔內(nèi)容
語(yǔ)文相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1