freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘概念與技術(shù)(第三版)部分習(xí)題答案-資料下載頁

2025-06-20 00:32本頁面
  

【正文】 =101,101,101,101 * 4 = 404,404,404,404 字節(jié)(C)指出空間需求量最小的立方體中的塊計算次序,并計算2D平面計算所需要的內(nèi)存空間總量。 答:順序計算,:計算二維平面需要的總主內(nèi)存空間是:總空間 = (1001,000) + (1,000,000 10) + (100 10,000) = 20,100,000 單元* 4字節(jié)/單元= 80,400,000 字節(jié) Apriori算法使用子集支持性質(zhì)的先驗知識。(a) 證明頻繁項集的所有非空的子集也必須是頻繁的。答:設(shè)s是一個頻繁項集,min_sup 是最小支持度閥值,任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,|D|是D 有事務(wù)量,則有Support_count(s) = min_sup|D|;再設(shè)s’是s的非空子集,則任何包含項集s的事務(wù)將同樣包含項集s’ , 即:support_ count(s39。) support count(s) = min_sup |D|.所以,s’也是一個頻繁項集。(b) 證明項集s的任意非空子集s’的支持至少和s的支持度一樣大。 答:設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,|D|是D 的事務(wù)量,由定義得: 設(shè)s’是s的非空子集,由定義得:由(a)可知:support(s’) support(s)由此證明,項集s的任意非空子集s’的支持至少和s的支持度一樣大。(c)給定頻繁項集 l 和 l 的子集 s ,證明規(guī)則的置信度不可能大于 答:設(shè) s 是 l 的子集, 則 設(shè)s’是s的非空子集,則 由(b)可知:support_count(s39。) support count(s), 此外,confidence(s’) (ls’)) confidence(s) (l s))所以,規(guī)則的置信度不可能大于。設(shè)min_sup =60%, min_conf=80%(a)分別使用Apriori和FP增長算法找出所有頻繁項集。比較兩種挖掘過程的效率。效率比較:Apriori需多次掃描數(shù)據(jù)庫而FP增長建立FP樹只需一次的掃描。在Apriori算法中產(chǎn)生候選是昂貴的(由于聯(lián)接),而FP增長不產(chǎn)生任何候選。 (b)列舉所有與下面的元規(guī)則匹配的強(qiáng)關(guān)聯(lián)規(guī)則(給出支持度S和置信度C),其中,X是代表顧客的變量,itemi是表示項的變量(如:“A”、“B”等):答: k,o e [,1]e,o k [,1],設(shè)min_sup =60%, min_conf=80%(a)在item_category粒度(例如,itemi 可以是“Milk”),對于下面的規(guī)則模板對最大的k,列出頻繁k項集包含最大的k的頻繁k項集的所有強(qiáng)關(guān)聯(lián)規(guī)則(包括它們的支持度S和置信度c).(b)在 粒度(例如:itemi 可以是“SunsetMilk”)對于下面的規(guī)則模板對最大的k,列出頻繁k項集(但不輸出任何規(guī)則)。 下面的相依表匯總了超級市場的事務(wù)數(shù)據(jù)。其中,hot dogs表示包含熱狗的事務(wù),hot dogs表示不包含熱狗的事務(wù),hamburgers表示包含漢堡包的事務(wù),hamburgers表示不包含漢堡包的事務(wù),(a)假定挖掘出了關(guān)聯(lián)規(guī)則 。給定最小支持度閥值25%,最小置信度閥值50%,該關(guān)聯(lián)規(guī)則是強(qiáng)規(guī)則嗎?答:根據(jù)規(guī)則, support = 2000/5000 = 40%, confidence = 2000/3000 = %. 該關(guān)聯(lián)規(guī)則是強(qiáng)規(guī)則.(b)根據(jù)給定的數(shù)據(jù),買 hot dogs獨立于買humburgers嗎?如果不是,二者之間存在何種相關(guān)聯(lián)系。答:corr{hotdog。hamburger} = P({hot dog, hamburger})/(P({hot dog}) P({hamburger})=( ) = 1. 所以,買 hot dogs不是獨立于買humburgers。兩者存在正相關(guān)關(guān)系 簡述決策樹分類的主要步驟。 給定一個具有50個屬性(每個屬性包含100個不同值)的5GB的數(shù)據(jù)集,而你的臺式機(jī)有512M內(nèi)存。簡述對這種大型數(shù)據(jù)集構(gòu)造決策樹的一種有效算法。通過粗略地計算機(jī)主存的使用說明你的答案是正確的。這個問題我們將使用雨林算法。假設(shè)有C類標(biāo)簽。最需要的內(nèi)存將是avcset為根的樹。計算avcset的根節(jié)點,我們掃描一次數(shù)據(jù)庫,構(gòu)建avclist每50個屬性。每一個avclist的尺寸是100C,avcset的總大小是100C50,對于合理的C將很容易適應(yīng)512 MB內(nèi)存,計算其他avcsets也是使用類似的方法,但他們將較小,因為很少屬性可用。在并行計算時,我們可以通過計算avcset節(jié)點來減少同一水平上的掃描次數(shù),使用這種每節(jié)點小avcsets的方法,我們或許可以適應(yīng)內(nèi)存的水平。數(shù)據(jù)已泛化。例如:age “31...35”表示年齡在3135之間。對于給定的行,count表示department,status,age和salary在該行具有給定值的元組數(shù)。設(shè)status 是類標(biāo)號屬性。(a)如何修改基本決策樹算法,以便考慮每個廣義數(shù)據(jù)元組(即每一行)的count?(b)使用修改的算法,構(gòu)造給定數(shù)據(jù)的決策樹。 (c)給定一個數(shù)據(jù)元組,它在屬性department,age和salary的值分別為“systems”,“26..30”,和“46K.. 50K”。該元組status的樸素貝葉斯分類是什么?(SVM)是一種具有高準(zhǔn)確率的分類方法。然而,在使用大型數(shù)據(jù)元組集進(jìn)行訓(xùn)練時,SVM的處理速度很慢。討論如何克服這一困難,并為大型數(shù)據(jù)集有效的SVM算法。
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1