freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

市場(chǎng)營(yíng)銷(xiāo)中的數(shù)據(jù)分析方法(編輯修改稿)

2025-01-31 00:57 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 ? 數(shù)據(jù)類(lèi)型不同(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù))n從分析思想的角度看? 更關(guān)注實(shí)證性分析( Empirical Analysis)而非探索性分析( Exploratory Analysis)? 更關(guān)注模型( Model)而非算法( Algorithm)n但二者具有相當(dāng)密切的聯(lián)系? 從數(shù)據(jù)分析的角度,統(tǒng)計(jì)學(xué)現(xiàn)在是且仍將是數(shù)據(jù)挖掘最重要的技術(shù)支撐和思想源泉? 更加深入的滲透和交叉(如探索性數(shù)據(jù)分析, EDA)數(shù)據(jù)挖掘是數(shù)據(jù)驅(qū)動(dòng)的探索性分析 !37 *數(shù)據(jù)挖掘:多學(xué)科的匯合數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)技術(shù) 統(tǒng)計(jì)學(xué)其它學(xué)科信息科學(xué)機(jī)器學(xué)習(xí) 可視化人工智能科學(xué)計(jì)算38 *數(shù)據(jù)挖掘是一個(gè)過(guò)程 “from data mining to knowledge discovery in database”. U. fayyad, and (1996)39 *數(shù)據(jù)挖掘過(guò)程中的數(shù)據(jù)預(yù)處理n數(shù)據(jù)清洗? 填充缺失值 , 修均噪聲數(shù)據(jù) , 識(shí)別或刪除孤立點(diǎn) , 并解決數(shù)據(jù)不一致問(wèn)題? 主要分析方法:分箱( Binning)、聚類(lèi)、回歸n數(shù)據(jù)集成? 多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)方或文件的集成n數(shù)據(jù)變換? 規(guī)范化與匯總n數(shù)據(jù)簡(jiǎn)化? 減少數(shù)據(jù)量的同時(shí) , 還可以得到相同或相近的分析結(jié)果? 主要分析方法:抽樣、主成分分析n數(shù)據(jù)離散化? 數(shù)據(jù)簡(jiǎn)化的一部分 , 但非常重要 (尤其對(duì)于數(shù)值型數(shù)據(jù)來(lái)說(shuō) )40 *數(shù)據(jù)挖掘過(guò)程中的數(shù)據(jù)探索n探索性數(shù)據(jù)分析( Exploratory Data Analysis, EDA)? 探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系? 對(duì)數(shù)據(jù)集沒(méi)有各種嚴(yán)格假定? “ 玩 ” 數(shù)據(jù)n主要任務(wù)? 數(shù)據(jù)可視化( a picture is worth a thousand words)? 殘差分析(數(shù)據(jù)=擬合 + 殘差)? 數(shù)據(jù)的重新表達(dá)(什么樣的尺度-對(duì)數(shù)抑或平方跟-會(huì)簡(jiǎn)化分析?)? 方法的耐抗性(對(duì)數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值)n常見(jiàn)方法? 統(tǒng)計(jì)量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等? 統(tǒng)計(jì)圖,如餅圖、直方圖、散點(diǎn)圖、箱尾圖等? 模型,如聚類(lèi)41 *數(shù)據(jù)挖掘結(jié)果的評(píng)價(jià)n興趣度度量:一個(gè)模式是有意義的,如果它易于被人理解,在某種程度上,對(duì)于新數(shù)據(jù)或者測(cè)試數(shù)據(jù)是有效的、潛在有用或者驗(yàn)證了用戶(hù)渴望確認(rèn)的某些假設(shè)。? 目前仍無(wú)很好的解決辦法,很大程度上仍依靠人工? 不存在解決這個(gè)問(wèn)題的簡(jiǎn)單技術(shù),最終答案是不要把數(shù)據(jù)挖掘當(dāng)作脫離數(shù)據(jù)內(nèi)涵的簡(jiǎn)單技術(shù)來(lái)運(yùn)用? 客觀興趣度:基于統(tǒng)計(jì)或模式的結(jié)構(gòu),如統(tǒng)計(jì)量、支持度、 lift等? 主觀興趣度:基于用戶(hù)對(duì)數(shù)據(jù)的確信程度,如意外程度、新奇程度或者可行動(dòng)性等? 過(guò)度擬合( Overfitting)問(wèn)題42 *什么不是數(shù)據(jù)挖掘?n定量分析( Quantitative Analysis)的需要存在企業(yè)管理運(yùn)行的各個(gè)側(cè)面或環(huán)節(jié),但并非所有的定量分析問(wèn)題都可以歸結(jié)到數(shù)據(jù)挖掘范疇的問(wèn)題。? 簡(jiǎn)單的報(bào)表、圖表及多維分析仍是日常分析工作的主要內(nèi)容? 小樣本數(shù)據(jù)的分析傳統(tǒng)統(tǒng)計(jì)分析方法更成熟有效,如趨勢(shì)預(yù)測(cè)? 某些特定業(yè)務(wù)問(wèn)題無(wú)法用數(shù)據(jù)挖掘算法加以解決,例如?資源最優(yōu)配置問(wèn)題是個(gè)運(yùn)籌學(xué)問(wèn)題?某些物流管理問(wèn)題或者供應(yīng)鏈管理問(wèn)題是個(gè)隨機(jī)規(guī)劃問(wèn)題?營(yíng)銷(xiāo)預(yù)演本質(zhì)是個(gè)系統(tǒng)仿真問(wèn)題43 *幾個(gè)基本概念n模型( Model) vs 模式( Pattern)? 數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化( Generalize)到總體(Population)上去? 模型:對(duì)數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的所有點(diǎn),例如聚類(lèi)分析? 模式:對(duì)數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個(gè)子集,例如關(guān)聯(lián)分析n算法( Algorithm):一個(gè)定義完備( welldefined)的過(guò)程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出n描述型挖掘( Descriptive) vs 預(yù)測(cè)型挖掘( Predictive)? 描述型挖掘:對(duì)數(shù)據(jù)進(jìn)行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征? 預(yù)測(cè)型挖掘:根據(jù)觀察到的對(duì)象特征值來(lái)預(yù)測(cè)它的其他特征值? 描述型挖掘可以是目的,也可以是手段44 *幾類(lèi)基本的挖掘算法n關(guān)聯(lián)規(guī)則(模式、描述型)? 發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式? 例如: buy(x,”diapers”) ? buy(x,”beers”) [%, 60%]n分類(lèi)與預(yù)測(cè)(模型、預(yù)測(cè)型)? 發(fā)現(xiàn)能夠區(qū)分或預(yù)測(cè)目標(biāo)變量(唯一的)的規(guī)則或者函數(shù)? 分類(lèi)的目標(biāo)變量一般是范疇型的,而預(yù)測(cè)則是數(shù)量型的,并不必然帶有任何時(shí)間延續(xù)型的暗示? 例如:股票市值的預(yù)測(cè),病人病情的判斷n聚類(lèi)(模型、描述型)? 對(duì)數(shù)據(jù)分組以形成新類(lèi),類(lèi)標(biāo)記是未知的? 例如:市場(chǎng)細(xì)分n孤立點(diǎn)探測(cè)( Outlier Detection)(模式、預(yù)測(cè)型)? 分析異?;蛟肼晹?shù)據(jù)的行為模式? 例如:欺詐檢測(cè)45 *關(guān)聯(lián)規(guī)則的基本概念n基本定義? 給定( 1)事務(wù)數(shù)據(jù)集( 2)每個(gè)事務(wù)是數(shù)據(jù)項(xiàng)的集合,試圖發(fā)現(xiàn)項(xiàng)集中的頻繁模式或關(guān)聯(lián)關(guān)系? 所謂頻繁模式或者關(guān)聯(lián)規(guī)則就是一個(gè)具有 “A ? B”形式的邏輯蘊(yùn)涵式? 頻繁模式并不必然蘊(yùn)涵著因果關(guān)系或相關(guān)關(guān)系!? 算法實(shí)現(xiàn)基本上基于 APRIORI法則:頻繁項(xiàng)集的所有非空子集一定也是頻繁(Frequent)的n基本分類(lèi)? 布爾關(guān)聯(lián)規(guī)則 vs 定量關(guān)聯(lián)規(guī)則?buy(x,”diapers”) ? buy(x,”beers”)?Age(x,”30..39”) ^ ine(x,”42k..48k”) ? buy(x,”P(pán)C”)? 單維關(guān)聯(lián)規(guī)則 vs 多維關(guān)聯(lián)規(guī)則? 單層關(guān)聯(lián)規(guī)則 vs 多層關(guān)聯(lián)規(guī)則?Age(x,”30..39”) ^ ine(x,”42k..48k”) ? buy(x,”IBM PC”)? 序列模式( Sequence Pattern)?數(shù)據(jù)項(xiàng)是一個(gè)包含時(shí)間標(biāo)簽的序偶 [item(i),t]46 *關(guān)聯(lián)規(guī)則的度量n發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則 X ^ Y ? Z ? 支持度 (support), s, 事務(wù)中包含 {X Y Z}的概率? 置信度 (confidence), c, 事務(wù)中包含 {X Y}的條件下 , 包含 Z的條件概率n令最小支持度為 50%, 最小置信度為50%, 則有216。 A ? C (50%, %)216。 C ? A (50%, 100%)顧客購(gòu)買(mǎi)尿布顧客購(gòu)買(mǎi)兩者顧客購(gòu)買(mǎi)啤酒47 *對(duì)支持度與置信度的批判n示例? 總共 5000名學(xué)生 , 其中252。3000人玩籃球252。3750人吃谷類(lèi)食品252。2023人既玩籃球又吃谷類(lèi)食品216。 play basketball ? eat cereal [40%, %] 是一個(gè)誤導(dǎo)規(guī)則 , 因?yàn)槌怨阮?lèi)食品的學(xué)生占學(xué)生總數(shù)的 75%, 比 %更高216。 play basketball ? not eat cereal [20%, %] 其實(shí)是一個(gè)更精確的規(guī)則 , 盡管它的支持度和置信度都比較低48 *關(guān)聯(lián)規(guī)則的應(yīng)用n市場(chǎng)購(gòu)物籃分析( Market Basket Analysis)? 例如一個(gè)事務(wù)是客戶(hù)的一個(gè)購(gòu)物清單,同一客戶(hù)的兩份清單被認(rèn)為是兩個(gè)不同的事務(wù)? 數(shù)據(jù)項(xiàng)是所有可能陳列貨物的全集? 目標(biāo)是發(fā)現(xiàn)同時(shí)出現(xiàn)的貨品組合間的關(guān)聯(lián)模式? 應(yīng)用:商品貨價(jià)設(shè)計(jì)、倉(cāng)儲(chǔ)規(guī)劃、網(wǎng)頁(yè)布局、產(chǎn)品目錄設(shè)計(jì)等等n交叉銷(xiāo)售( Cross Selling)? 客戶(hù)依次購(gòu)買(mǎi)不同產(chǎn)品的序列? 目標(biāo)是發(fā)現(xiàn)在購(gòu)買(mǎi)某一產(chǎn)品組合之后客戶(hù)可能購(gòu)買(mǎi)的另一產(chǎn)品或服務(wù)? 應(yīng)用:網(wǎng)絡(luò)故障分析、網(wǎng)站門(mén)戶(hù)設(shè)計(jì)等49 *分類(lèi)問(wèn)題的基本定義n給定一數(shù)據(jù)集合(訓(xùn)練集)? 數(shù)據(jù)記錄由一系列變量組成? 其中有一個(gè)變量是目標(biāo)分類(lèi)標(biāo)簽n尋找一模型,使目標(biāo)分類(lèi)變量值是其他變量值的一個(gè)函數(shù)n利用上述函數(shù),一未知分類(lèi)變量值的數(shù)據(jù)記錄能夠盡可能準(zhǔn)確地被判定到某一類(lèi)別中去? 一般會(huì)有另一獨(dú)立地?cái)?shù)據(jù)集(測(cè)試集)用以驗(yàn)證所構(gòu)建分類(lèi)函數(shù)的準(zhǔn)確性,避免過(guò)度擬合50 *分類(lèi)過(guò)程示意訓(xùn)練集 分類(lèi)學(xué)習(xí)訓(xùn)練集分類(lèi)器IF rank = ‘professor’OR years 6THEN tenured = ‘yes’Jef is YES!51 *分類(lèi)中的決策樹(shù)( Decision Tree)歸納n決策樹(shù) ? 類(lèi)似于流程圖的樹(shù)型結(jié)構(gòu)? 內(nèi)部節(jié)點(diǎn)代表對(duì)某個(gè)屬性的一次測(cè)試? 分支代表測(cè)試的輸出結(jié)果? 葉節(jié)點(diǎn)代表分類(lèi)標(biāo)簽或分布n決策樹(shù)的生成包括兩個(gè)階段? 樹(shù)的創(chuàng)建252。首先 , 所有訓(xùn)練樣本都位于根節(jié)點(diǎn)252。遞歸地基于選擇屬性來(lái)劃分樣本集? 樹(shù)的修剪252。識(shí)別并刪除那些反映噪聲或孤立點(diǎn)的分
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1