freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)應(yīng)用基礎(chǔ)-數(shù)據(jù)挖掘流程77-資料下載頁

2025-03-11 10:38本頁面
  

【正文】 正 例且預(yù)測 成正例的個數(shù) ? 橫軸是假陽性率(假正率),即 FPR( False Positive Rate)或 1Specificity(即 1真負(fù)率),即實際為負(fù)例預(yù)測為正例的概率,即: – FP/(FP+TN),即 實際為負(fù)例預(yù)測為正 例的個數(shù)除以實際為負(fù)例的個數(shù)。 ? 縱軸是真陽性率(真正 率 ),即 TPR( True Positive Rate)或 Sensitivity,即實際為正例預(yù)測也是正例的概率,即: – TP/(TP+FN),即 實際 為 正例 預(yù)測也為 正例的個數(shù)除以實際 為正例的 個數(shù)。 分類算法評估 —— ROC曲線 ? 我們希望分類器的TPR盡量高, FPR盡量小。 ? 即,用盡量低的假陽性率為代價來換取盡量高的真陽性率。 ? 所以,我們希望 ROC曲線離縱軸近。 分類算法評估 —— ROC曲線 ? 曲線 下方的面積(也叫 AUC)越大越好。一般超過 類器有一定效果。 ? 我們經(jīng)常用 AUC來比較各種分類器的效果。 ? 優(yōu)先 采用 AUC面積比較大的模型。 分類算法 評估 ——Lift曲線 ? Lift曲線顯示了采用模型后與沒采用模型相比的改進(jìn)。 ? 含義是:分類器獲得的正類數(shù)量和不使用分類器隨機(jī)獲取正類數(shù)量的比例。后者是指不使用模型時,正例在樣本中的占比,也叫 random rate。 ? 換言之, lift值是指,如果使用分類器分類,會使得正類產(chǎn)生的比例增加多少。 – 例如,與直接隨機(jī)抽取一些用戶發(fā)放促銷郵件相比,采用分類器會給公司帶來多少響應(yīng)客戶。 ? Lift值在實踐中可能是用得最多的。它直觀易懂。 ? 它的重要的好處是直接顯示對應(yīng)于不同的促銷目標(biāo)群體規(guī)模的模型效果,便于挑選適當(dāng)?shù)哪繕?biāo)群體規(guī)模。 分類算法評估 ——Lift曲線 ? 橫軸是樣本大小在所有潛在用戶中的占比;縱軸是所得到的回應(yīng)數(shù)量。對角線表示的是不同大小的隨機(jī)樣本的結(jié)果。 ? 我們用的不是隨機(jī)樣本,而是通過數(shù)據(jù)挖掘模型選擇出來的那些最可能做出回應(yīng)的客戶的樣本。我們希望得到的曲線在對角線上方,而且越靠近左上角越好,也就是用很少的樣本就能得到很多回應(yīng)。 ? 從圖中可見,綠色線條代表的那個模型的表現(xiàn)比較好。 分類算法評估 ——成本收益分析 ? 我們可以假定通過郵件推薦新產(chǎn)品時,發(fā)郵件的費(fèi)用是 ,而一旦用戶相應(yīng)則會得到 10元的收益。那么,發(fā)送多少封郵件比較合適呢? ? 如果給全部用戶都發(fā)送,會賠錢。 ? 我們可以設(shè)置費(fèi)用和收益的參數(shù)。 分類算法評估 ——其他 ? 其他有代表性的模型評估的方法還有 10折交叉驗證 : ? 3折交叉驗證( crossvalidation):在交叉驗證中,先要確定一個固定的折數(shù)( number of folds),比如3折。那么數(shù)據(jù)將被大致均分成 3部分,每部分輪流用于測試而其余部分則用于訓(xùn)練。重復(fù)此過程 3次,從而每個實例恰好有一次是用于測試的。 ? 10折交叉驗證 :它是衡量將某學(xué)習(xí)方法應(yīng)用在某數(shù)據(jù)集上的誤差率的標(biāo)準(zhǔn)方法。數(shù)據(jù)被分成 10部分。每部分依次用于測試,而其余部分用于訓(xùn)練。測試集用來計算誤差率。之后,把 10個誤差率估計值平均,從而得到一個最終的誤差估計值。 分類算法評估 的 目的 ? 我們可以對不同的分類算法,設(shè)置不同的參數(shù),進(jìn)行反復(fù)比較,根據(jù)在多個效果指標(biāo)(比如 Lift)上是否有 穩(wěn)定 的好的表現(xiàn),選擇一個 最終落地應(yīng)用的模型。 ? 注意,我們不只是關(guān)注模型的準(zhǔn)確度和效果,還要關(guān)注模型的表現(xiàn)是否 穩(wěn)定 ,因此,我們需要抽取不同的時間段的數(shù)據(jù),進(jìn)行比較,看模型是否穩(wěn)定。 知識表示 ? 知識表示 :將數(shù)據(jù)挖掘所得到 的 知識 信息用 可視化 或知識表達(dá) 呈現(xiàn) 給用戶 。 ? 這些知識可能是:哪些客戶可能會流失、哪些客戶可能會響應(yīng)促銷短信等。也可能是哪些屬性比較重要、有哪些規(guī)則。 數(shù)據(jù)挖掘結(jié)果的應(yīng)用和效果評估 ? 比如,我們通過數(shù)據(jù)挖掘識別出一些潛在顧客,然后我們對這些顧客進(jìn)行促銷。在促銷兩周后,我們發(fā)現(xiàn)成交顧客數(shù)量顯著提升。 ? 在互聯(lián)網(wǎng)行業(yè)的運(yùn)營效果評估中,常用的方法是 AB Test,即對相似群體(可以分為運(yùn)營組和對照組)在不同運(yùn)營方案實施后的實際效果進(jìn)行對比。 數(shù)據(jù) 挖掘是一個反復(fù)循環(huán)的過程 ? 數(shù)據(jù)挖掘是一個反復(fù)循環(huán)的過程。經(jīng)常會回到前面的步驟。 分類的一個常見問題 ——過度擬合 ? 對于有監(jiān)督學(xué)習(xí)的算法,要非常重視過度擬合( overfitting、過擬合)的風(fēng)險。含義是:模型對訓(xùn)練集擬合得很好,但對新的數(shù)據(jù)擬合得并不好。 對訓(xùn)練集數(shù)據(jù)學(xué)習(xí)太過亦步亦趨, 造成 不能反映真實的輸入和輸出之間的關(guān)系,不利于預(yù)測未來數(shù)據(jù)。 如何避免過度擬合? ? 交叉驗證 可能是業(yè)界防止過擬合的最常用手段 。它可看作一種變通的方法,它 不使用 全部的歷史數(shù)據(jù),而是把過去的數(shù)據(jù)分成兩份,其中一份當(dāng)做訓(xùn)練集,另一份當(dāng)做測試集(用來模擬“未來的”數(shù)據(jù))。通常,我們會將大多數(shù)數(shù)據(jù)作為訓(xùn)練集(比如 80%),而少數(shù)數(shù)據(jù)作為測試集。 ? 在交叉驗證時,我們可以準(zhǔn)備幾個不同時間窗口、不同范圍的測試集和驗證集,在不同的數(shù)據(jù)集里面對模型進(jìn)行交叉檢驗。 ? 要 注意建模所用的歷史數(shù)據(jù)和未來數(shù)據(jù)是否存在明顯差異。例如,業(yè)務(wù)是否發(fā)生了顯著變化。 如何避免過度擬合? ? 樣本要足夠大。 –特別是神經(jīng)網(wǎng)絡(luò) ,如果數(shù)據(jù)少就不宜使用。 ? 注意選擇合適的抽樣方法。 ? 減少 樣本中的噪聲數(shù)據(jù)。 –模型過分記住了噪聲的特征,以至于忽略了真實的輸入輸出間的關(guān)系。 ? 輸入變量不要太多。 –新手往往 不篩選輸入變量,而是一股腦把所有變量交給軟件去撞大運(yùn)。 演講完畢,謝謝觀看!
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1