freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘技術(shù)方法(p151)(參考版)

2025-02-24 14:36本頁(yè)面
  

【正文】 re out of luck.n It can be heavily influenced by just a few errors in the data. Not robust.150推薦資料( IBM紅皮書(shū))n IBM BI certification guiden Intelligent Miner for Data Enhance Your Business Intelligencen Mining Your Own Business in Banking Using DB2 Intelligent Miner for Datan Mining your own business in retail using DB2 Intelligent Miner for Data151。s only linear. If the data39。多元線性回歸分析( 3) ? 擬合優(yōu)度檢驗(yàn)和預(yù)測(cè)146多元線性回歸 ( multiple linear regression)用多個(gè)預(yù)測(cè)或獨(dú)立連續(xù)變量來(lái)預(yù)測(cè)一個(gè)連續(xù)變量為多元線性回歸 .147多元回歸分析案例( 1) ?下表所示我國(guó) 1988–1998年的城鎮(zhèn)居民人均全年耐用消費(fèi)品支出、人均全年可支配收入和耐用消費(fèi)品價(jià)格指數(shù)的統(tǒng)計(jì)資料,試建立城鎮(zhèn)居民人均全年耐用消費(fèi)品支出 y關(guān)于人均全年可支配收入x1和耐用消費(fèi)品價(jià)格指數(shù) x2的回歸模型。 X的每一列表示一個(gè)自變量的 n個(gè)觀測(cè)值向量, 為未知參數(shù)的 階列向量,u為隨機(jī)誤差項(xiàng)的 階列向量。n 設(shè) 是利用一組簡(jiǎn)單隨機(jī)樣本經(jīng)計(jì)算得到的樣本統(tǒng)計(jì)量,把它們作為未知參數(shù) 的估計(jì)值,得到估計(jì)的回歸方程 ,稱(chēng)為樣本回歸方程或經(jīng)驗(yàn)回歸方程, 稱(chēng)為 y的樣本估計(jì)值或樣本回歸值。上面的公式一般稱(chēng)為多元線性回歸模型。 地區(qū) 編 號(hào) 1 2 3 4 5 6 7 8月平均 銷(xiāo) 售收入(萬(wàn)元) y 31 40 30 34 25 20 35 40月平均廣告支出(萬(wàn)元) x 5 10 5 7 4 3 7 9線性回歸方程為的無(wú)偏估計(jì)為143多元線性回歸分析( 1) n 多元線性回歸分析是研究一個(gè)變量 y與多個(gè)其他變量 之間關(guān)系的統(tǒng)計(jì)分析方法。為了計(jì)算方便,以偏差的平方和最小為標(biāo)準(zhǔn)確定回歸模型:n 得到參數(shù)和的最小二乘估計(jì): ,式中 分別是變量 x, y的 n個(gè)樣本的平均值, , 。對(duì)應(yīng)于每一個(gè) xi,根據(jù)回歸方程可以求出一個(gè),它就是 yi的一個(gè)估計(jì)值。 140一元線性回歸( 2)n 確定參數(shù) a和 b (分別記作 和 )值的原則是使樣本的回歸直線同觀察值的擬合狀態(tài)最好,即使偏差 | |較小。在這個(gè)線性模型中,自變量 x是非隨機(jī)變量。在散點(diǎn)圖中兩個(gè)變量呈線性關(guān)系。136回歸分析應(yīng)用n Find patterns in a database that allow prediction of numeric fields given the other independent fields.n Given: n a large amount of data records with individual properties (field values)n one property to be predicted from the others.n training data for which that property is known.n Look for:n functional dependency of the predicted field from the other record properties.n a prediction model.137回歸模型n 線性回歸模型 :n Not appropriate for dichotomous response variable, . Y is either 1 or 0.n Logistic 回歸模型 :138線性回歸n Find the line whose prediction is as close as possible to every point .n 發(fā)現(xiàn)一條穿過(guò)數(shù)據(jù)的線,線上的點(diǎn)使對(duì)應(yīng)數(shù)據(jù)點(diǎn)的方差最小。連續(xù)值的預(yù)測(cè)可以使用統(tǒng)計(jì)學(xué)中的回歸( Regression) 統(tǒng)計(jì)技術(shù)建模,如線性回歸、多元回歸、非線性回歸、廣義線性回歸(對(duì)數(shù)回歸、泊松回歸等)。126時(shí)間序列應(yīng)用領(lǐng)域n Financen Hedging with asset mismatch. For example, hedging an exposure to an illiquid assetn Retailn Looking at daily/weekly sales of products/product groupsn See which groups had similar sales over a given periodn See if any group leads/lags anothern Fraudn Identify highrisk patterns in usagen Electricityn Classification of electricity load profiles 127相似時(shí)間序列n Find similarities between two sets of time dependent dataSequence 2TimeValueSequence 1TimeValueparecurvesandfindsimilarsubsequences128時(shí)間序列參數(shù)n Window sizen length of atomic subsequence for matching (no outliers).n Epsilonn tolerance range of deviation of two atomic subsequences.n Gapn number of consecutive time units for which outliers are ignored.n Matching Lengthn minimal length of subsequences to be considered.129相似時(shí)間序列分析( 1).!atomic subsequencesEpsilonpare subsequencesbind togethersimilar, neighboredsubsequencesin view of gaps (=subsequent outliers)gap. if gap = 3atomic part atomic part130相似時(shí)間序列分析( 2)SequenceTimeValue SlidingWindowScalingOffset translationLength of Sequence = n data valuesw131回歸分析Regression132統(tǒng)計(jì)與數(shù)據(jù)挖掘( 1)n Statistics is concerned with the presentation and interpretation of chance outes.n Statistical analysis methods and data mining algorithms are bined to form the most powerful business data analysis tools.n For example, we have observed that a number of our customers have left us. We want to find out why with help of statistics and data mining.133統(tǒng)計(jì)與數(shù)據(jù)挖掘( 2)n Statistics is useful in data miningn To explore the input data,n To preprocess the input data,n To build data mining models,n To assess data mining models,n To analyze data mining results.134統(tǒng)計(jì)與數(shù)據(jù)挖掘( 3)n Two sub areas of statisticsn Descriptive Statistics is concerned with summarizing and describing a given set of data so as to yield meaningful information.n Analytical Statistics consists of methods concerned with the analysis of a subset of data leading to predictions or inferences about the entire set of data (Statistical Inference).135回歸分析? 在數(shù)據(jù)挖掘中,統(tǒng)計(jì)學(xué)可應(yīng)用于預(yù)測(cè)、聚類(lèi)規(guī)則挖掘和時(shí)序數(shù)據(jù)的趨勢(shì)分析等。n 時(shí)間序列數(shù)據(jù)是包含時(shí)間屬性的序列數(shù)據(jù)的一種特殊形式,序列數(shù)據(jù)庫(kù)中既可以包含時(shí)間屬性,也可以不包含時(shí)間屬性。Sequential patternsWith length 3Candidate 4SequencesAfter Join After Pruning(1,2) 3 (1,2) (3,4) (1,2) (3,4)(1,2) 4 (1,2) 3 51 (3,4)(1,3) 52 (3,4)2 3 5123n 對(duì)于給定的候選序列模式集合 C, 掃描序列數(shù)據(jù)庫(kù),對(duì)于其中的每一條序列 d,找出集合 C中被 d所包含的所有候選序列模式,并增加其支持度計(jì)數(shù)。n 剪切階段: 若某候選序列模式的某個(gè)子序列不是序列模式,則此候選序列模式不可能是序列模式 ,將它從候選序列模式中刪除。n 根據(jù)長(zhǎng)度為 i 的種子集 Li 通過(guò)連接操作和剪切操作生成長(zhǎng)度為 i+1的候選序列模式 Ci+1; 然后掃描序列數(shù)據(jù)庫(kù),計(jì)算每個(gè)候選序列模式的支持?jǐn)?shù),產(chǎn)生長(zhǎng)度為 i+1的序列模式 Li+1, 并將 Li+1作為新的種子集。n 缺少分類(lèi)層次:只能在項(xiàng)目的原始級(jí)別上進(jìn)行挖掘。n 事務(wù)的定義過(guò)于嚴(yán)格:一個(gè)事務(wù)中包含在客戶(hù)的一次購(gòu)買(mǎi)行為中所購(gòu)買(mǎi)的所有物品。例如,一個(gè)序列模式可能會(huì)發(fā)現(xiàn)客戶(hù)在購(gòu)買(mǎi)了物品 A后的第三年購(gòu)買(mǎi)物品 B。n PrefixSpan(Prefixproject Sequential Pattern mining)算法:采用分治的思想,不斷產(chǎn)生序列數(shù)據(jù)庫(kù)的多個(gè)更小的投影數(shù)據(jù)庫(kù),然后在各個(gè)投影數(shù)據(jù)庫(kù)上進(jìn)行序列模式挖掘。n 系統(tǒng)規(guī)定:由于同一個(gè)元素中的項(xiàng)目之間排列沒(méi)有順序,為了表達(dá)的唯一性,將同一個(gè)元素內(nèi)部的不同項(xiàng)目按照字典順序排列。116序列模式n 例子:設(shè)序列數(shù)據(jù)庫(kù)如下表所示,并設(shè)用戶(hù)指定的最小支持度 minsupport = 2。167。167。167。115序列模式n 符號(hào)化表示:167。 一個(gè)序列包含的所有項(xiàng)目的個(gè)數(shù)稱(chēng)為序列的長(zhǎng)度。 序列的元素 (Element)可表示為 (x1, x2, … , xm), xk(1 = k = m)為不同的項(xiàng)目,如果一個(gè)序列只有一個(gè)項(xiàng)目,則括號(hào)可以省略。 序列 (Sequence)是不同項(xiàng)目集 (ItemSet)的有序排列,序列 s可以表示為 s = s1s2… sl, sj(1 = j = l)為項(xiàng)目集 (Itemset), 也稱(chēng)為序列 s的元素。 項(xiàng)目集 (Itemset)是各種項(xiàng)目組成的集合。 自然災(zāi)害預(yù)測(cè)167。 Web訪問(wèn)模式預(yù)測(cè)167。113序列模式應(yīng)用領(lǐng)域167。112序列模式應(yīng)用例子n 例子 1:在兩年前購(gòu)買(mǎi)了 Ford 牌轎車(chē)的顧客,很有可能在今年采取貼舊換新的購(gòu)車(chē)行動(dòng)。107序
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1