freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

機器學習簡明原理-展示頁

2025-06-26 07:13本頁面
  

【正文】 ha 有 N 個,為了便與求解,每次選出一對自變量 alpha,然后求目標函數(shù)關于其中一個 alpha 的偏導,這樣就可以得到這一對 alpha 的新值。較常用的核函數(shù)是高斯核,高斯核可以將低維空間映射到無窮維。為什么說不用一一映射到高維空間很有用呢?原因就在于首先我們無法針對每種情況提供精確的映射函數(shù),再者對于需要映射到無窮維的情況顯然無法一一映射完成。得映射后新坐標下的內積:有一核函數(shù)如下:可知 何為核函數(shù)?核函數(shù)在低維空間中完成了映射到高維空間后的內積運算。倘若能將超平面換成超曲面,則可以將正負樣本正確分類,如圖 5所示。首先求解關于拉格朗日函數(shù)的極小化問題。那么,對每個不等式約束引入拉格朗日乘子,得到拉格朗日函數(shù)如下:分析可知:則原最優(yōu)化問題轉換成: 由于原最優(yōu)化問題直接求解很困難,利用拉格朗日對偶性,可通過求解原最優(yōu)化問題的對偶問題得到原問題的最優(yōu)解。加入松弛變量的目標函數(shù)就是軟間隔最大化。圖 4 Outlier特異點為了解決這種問題,對每個樣本點引進一個松弛變量,使得約束條件變?yōu)椋哼@樣給 outlier 的約束條件加上一個變量,使其可以滿足大于等于 1 的條件。圖 3 樣本數(shù)關于w*x + b的取值符號定義幾何間隔中最小的為:由此,可以得到間隔最大化問題的目標函數(shù):并遵循如下約束條件: 做如下變換:則目標函數(shù)轉換為:相應的約束條件變?yōu)椋? 做如下變換:可得目標函數(shù)和約束條件變?yōu)椋? 由于 w, b 成倍數(shù)變化并不會影響超平面的公式,所以:此時得到最終的間隔最大化的目標函數(shù)和約束條件如下:但是,到這里并沒有真正得結束。既然要最大化間隔,那么回顧下點x到超平面(w,b)的距離公式:其中超平面的公式為:由此可推出點 x 到超平面(w,b)的幾何間隔為: 其中 xi代表第i條數(shù)據(jù),yi代表第i條數(shù)據(jù)對應的目標變量的取值,取值有+1 和1 兩種。一般的機器學習問題都是先得到模型的目標函數(shù)和約束條件,然后在約束條件下對目標函數(shù)求得最優(yōu)解。. 軟間隔最大化SVM的核心思路是最大化支持向量到分隔超平面的間隔。圖 2 線性不可分問題3. SVM 基本原理SVM原理分為軟間隔最大化、拉格朗日對偶、最優(yōu)化問題求解、核函數(shù)、序列最小優(yōu)化SMO等部分。2. 不支持類別型數(shù)據(jù),需在預處理階段將類別型數(shù)據(jù)轉換成離散型數(shù)據(jù)。2. 計算復雜度僅取決于少量支持向量,對于數(shù)據(jù)量大的數(shù)據(jù)集計算復雜度低。SVM的優(yōu)點是:1. 可以解決線性不可分的情況。這其中有很多原因,比如數(shù)據(jù)預處理的效果、訓練集的大小、特征值的選擇、參數(shù)設置以及核函數(shù)的選擇等因素。支持向量到分類超平面的間隔最大化的思路很完美,按這種思路得到的模型理論上是準確度最高的一種模型。如 oneversusrest 法,這種方法每次選擇一個類別作為正樣本,剩下其他類別作為負樣本,假設一共有3個類別,這樣相當于訓練出了3個不同的SVM。如圖 1所示,支持向量到超平面1的間隔大于支持向量到超平面2的間隔,因此超平面1優(yōu)于超平面2。2. 關于 SVM 的簡介支持向量是距離分類超平面近的那些點,SVM的思想就是使得支持向量到分類超平面的間隔最大化。分類算法主要包括K近鄰、決策樹、樸素貝葉斯、邏輯回歸、支持向量機、AdaBoost等;回歸主要包括線性回歸、嶺回歸、lasso、樹回歸等;聚類主要包括 KMeans 以及它的各種變形算法;關聯(lián)分析主要包括 Apriori、FPgrowth 等算法。關聯(lián)分析是計算出大量數(shù)據(jù)之間的頻繁項集合?;貧w是根據(jù)特征值、目標變量擬合出特征值與目標變量之間的函數(shù)關系,可用來估計特征值對應的目標變量的可能取值。聚類是將大量不帶標簽的數(shù)據(jù)根據(jù)距離聚集成不同的簇,每一簇數(shù)據(jù)有共同的特征。分類就是給定大量帶標簽的數(shù)據(jù),計算出未知標簽樣本的標簽取值。機器學習簡明原理說明:本文整理自IBM大數(shù)據(jù)學習文檔,原文作者:韓笑琳1. 關于機器學習的簡介機器學習是從大量數(shù)據(jù)中學習出特定規(guī)律的算法。其中提到的規(guī)律有很多種,比如分類、聚類、回歸、關聯(lián)分析等。如年齡 40 歲以上、工科、研究生以上學歷,這類人薪資水平是高收入;年齡 2030 歲、文科、大專學歷,這類人的薪資水平是低收入;現(xiàn)有一位 23 歲大專文科人士,求該人的薪資水平是哪類?根據(jù)分類建模,就可以知道這個人的薪資水平很可能是低收入。如電信行業(yè)可以根據(jù)用戶的月長途電話分鐘數(shù)、上網時長、短信使用數(shù)、地理位置、月消費數(shù),將所有用戶聚集成有典型特征的簇,聚集出的某簇特征可能是月長途電話分鐘數(shù)長、上網時間長、地理位置變化不大、月消費數(shù)目低,分析可得這類人極有可能是在校大學生,那么電信公司就可以針對這類特定人群制定有針對性的營銷策略。舉個簡單的例子,某市今年某 100 平米的房子價格是 80 萬,某 150 平米房子價格是 120 萬,那么某 200 平米的房子價格的取值就可能是 200*=160 萬左右。如超市訂單中有大量訂單同時包含啤酒與尿布,這其中的頻繁項就是啤酒和尿布,那么超市就可以針對這個規(guī)律對啤酒和尿布進行組合促銷活動。支持向量機即 support vector machine(簡稱 SVM),是機器學習領域經典的分類算法。出發(fā)點很容易理解,距離分類超平面近的那些點到該超平面的間隔最大化代表了該超平面對兩類數(shù)據(jù)的區(qū)分度強,不容易出現(xiàn)錯分的情況。圖 1 兩個超平面示例SVM 可以很好得解決二分類問題,對于多分類情況,就需要對模型進行改動。然后將測試數(shù)據(jù)分別帶入3個SVM模型中,得到的3個結果中的最大值則為最終的分類結果。但是使用過SVM的朋友都知道,調用SVM算法的測試準確度并不一定都很高。任何模型都是優(yōu)點與缺點并存的。如圖 2所示,兩類數(shù)據(jù)點根本無法用超平面分隔開。SVM 的缺點是:1. 經典的 SVM 算法僅支持二分類,對于多分類問題需要改動模型。類別型數(shù)據(jù)即男、 女這類由字符串表示某類信息的數(shù)據(jù),需將這類數(shù)據(jù)轉換成離散型數(shù)據(jù)如 2。雖然這些名詞看起來很晦澀,但是深入探索后就會發(fā)現(xiàn)其中的思想并沒有那么復雜。后面所有的推導都是以最大化此間隔為核心思想展開。因此,我們下面首先需要推導出SVM模型的目標函數(shù)和約束條件。所以當?shù)?i條數(shù)據(jù)被正確分類時,y 取值和 w*x+b 取值的正負一致,幾何間隔為正;當被錯誤分類時,y 取值和 w*x+b 取值的正負相反,幾何間隔為負。考慮到現(xiàn)實生活中的真實數(shù)據(jù),存在一些特異點即 outliers,這些數(shù)據(jù)點并不滿足上面推導出的約束條件,如圖 4所示,圖中點 A 就是 outlier 特異點。則相應的目標變量變?yōu)椋浩渲?C 為懲罰參數(shù),它的目的是使得目標變量最小即幾何間隔最大,且使得松弛變量最小化。. 拉格朗日對偶對于凸二次優(yōu)化問題,通過引入拉格朗日乘子,將目標函數(shù)和約束條件整合到拉格朗日函數(shù)中,這樣能方便求解最值問題。原最優(yōu)化問題的對偶問題為:. 最優(yōu)化問題求解到此為止,已經將目標函數(shù)和約束條件轉換成了極大極小化拉格朗日函數(shù)的問題了。對三個變量分別求偏導得: 將以上三式帶入拉格朗日函數(shù)中得:那么極大極小化拉格朗日函數(shù)轉換成:為求解方便,將極大轉換成極小得: . 核函數(shù)對于線性不可分問題,如圖 2所示,這類問題是無法用超平面劃分正負樣本數(shù)據(jù)的。圖 5 超曲面分離正負樣本我們知道曲面的公式是:映射到新坐標如下:可將超曲面在新坐標下表示成超平面:也就是將在二維空間(x1,x2)下線性不可分的問題轉換成了在五維空間(z1,z2,z3,z4,z5)下線性可分的問題。這點非常有用,利用核函數(shù),無需先將變量一一映射到高維空間再計算內積,而是簡單得在低維空間中利用核函數(shù)完成這一操作。那么為什么是映射到高維后的內積運算呢?這是因為在上節(jié)中我們得到了如下目標函數(shù): 正是因為該目標函數(shù)中包含自變量的內積運算,而映射到高維空間后的內積運算又恰好可以通過核函數(shù)在低維空間中直接求得,故而有了核函數(shù)的由來。運用核函數(shù)后,最優(yōu)化問題的目標函數(shù)和約束條件變?yōu)椋? . 序列最小優(yōu)化 (Sequential minimal optimization)到目前為止,優(yōu)化問題已經轉化成了一個包含 N 個 alpha 自變量的目標變量和兩個約束條件。給這一對 alpha 賦上新值,然后不斷重復選出下一對 alpha 并執(zhí)行上述操作,直到達到最大迭代數(shù)或沒有任何自變量 alpha 再發(fā)生變化為止,這就是 SMO 的基本思想。為何不能每次只選一個自變量進行優(yōu)化?那是因為只選一個自變量 alpha 的話,會違反第一個約束條件,即所有 alpha 和 y 值乘積的和等于 0。假設選出了兩個自變量分別是 alpha1 和 alpha2,除了這兩個自變量之外的其他自變量保持固定,則目標變量和約束條件轉化為: 將約束條件中的 alpha1 用 alpha2 表示,并代入目標函數(shù)中,則將目標函數(shù)轉化成只包含 alpha2 的目標函數(shù),讓該目標函數(shù)對 alpha2 的偏導等于 0: 可求得 alpha2 未經修剪的值: 之所以說 alpha2 是未經修剪的值是因為所有 alpha 都必須滿足大于等于 0 且小于等于 C 的約束條件,用此約束條件將 alpha2 進行修剪,修剪過程如下: 由此得: 分兩種情況討論:情況 y1 等于 y2 時,有: 情況 y1 不等于 y2 時,有:修剪后,可得 alpha2 的取值如下:由 alpha2 和 alpha1 的關系,可得:在完成 alpha1 和 alpha2 的一輪更新后,需要同時更新 b 的值,當 alpha1 更新后的值滿足 0alpha1C 時,由 KKT 條件得:由于篇幅有限,在此就不把推導過程一一列舉,可得:同樣的道理,當 alpha2 更新后的值滿足 0alpha1C 時可得:若更新后的 alpha1 和 alpha2 同時滿足大于 0 且小于 C 的條件,那么 b 就等于 b1 等于 b2;否則,b 取 b1 和 b2 的中點。按上述方法不斷選擇一對 alpha 并更新,直到達到最大迭代次數(shù)或所有 alpha 都不再變化,則停止迭代??梢砸姷?,求出 alpha 后,所有問題都迎刃而解了。在文章一開始,筆者提到機器學習主要分為四大類,分別是分類,聚類,回歸和關聯(lián)分析。那么下面筆者開始介紹關聯(lián)分析。生活中的數(shù)據(jù)本身包含著各種規(guī)律,機器學習模型可以從數(shù)據(jù)中挖掘出這些規(guī)律,啤酒與尿布就是一個典型的例子。換句話說,買尿布的人,往往會順手買啤酒。頻繁項集是在數(shù)據(jù)庫中大量頻繁出現(xiàn)的數(shù)據(jù)集合。如同啤酒與尿布的例子,超市如果將啤酒和尿布放在相鄰的位置,會增加兩者的銷量。2. 用于發(fā)現(xiàn)共現(xiàn)詞。當我們在瀏覽器中輸入頻繁項集時,瀏覽器自動彈出如頻繁項集 置信度,頻繁項集 關聯(lián)規(guī)則等備選記錄,我們每每都會感嘆瀏覽器的智能,其實這里的秘訣就是頻繁項集。同理,頻繁項集和關聯(lián)規(guī)則也頻繁得共同出現(xiàn)在搜索記錄中。從新聞報道和微博中獲取關于某事物的相關文檔,然后應用頻繁項集挖掘算法可以得到該事物的熱點新聞。其中 Apriori 算法需要
點擊復制文檔內容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1