freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

支持向量機(jī)入門(編輯修改稿)

2025-07-25 03:42 本頁面
 

【文章內(nèi)容簡介】 束的問題可以轉(zhuǎn)化為無約束的問題而得以求解,那么可不可以把帶不等式約束的問題向只帶等式約束的問題轉(zhuǎn)化一下而得以求解呢?聰明,可以,實際上我們也正是這么做的。下一節(jié)就來說說如何做這個轉(zhuǎn)化,一旦轉(zhuǎn)化完成,求解對任何學(xué)過高等數(shù)學(xué)的人來說,都是小菜一碟啦。SVM入門(六)線性分類器的求解——問題的轉(zhuǎn)化,直觀角度讓我再一次比較完整的重復(fù)一下我們要解決的問題:我們有屬于兩個類別的樣本點(并不限定這些點在二維空間中)若干,如圖, 圓形的樣本點定為正樣本(連帶著,我們可以把正樣本所屬的類叫做正類),方形的點定為負(fù)例。我們想求得這樣一個線性函數(shù)(在n維空間中的線性函數(shù)): g(x)=wx+b 使得所有屬于正類的點x+代入以后有g(shù)(x+)≥1,而所有屬于負(fù)類的點x代入后有g(shù)(x)≤1(之所以總跟1比較,無論正一還是負(fù)一,都是因為我們固定了間隔為1,注意間隔和幾何間隔的區(qū)別)。代入g(x)后的值如果在1和1之間,我們就拒絕判斷。 求這樣的g(x)的過程就是求w(一個n維向量)和b(一個實數(shù))兩個參數(shù)的過程(但實際上只需要求w,求得以后找某些樣本點代入就可以求得b)。因此在求g(x)的時候,w才是變量。 你肯定能看出來,一旦求出了w(也就求出了b),那么中間的直線H就知道了(因為它就是wx+b=0嘛,哈哈),那么H1和H2也就知道了(因為三者是平行的,而且相隔的距離還是||w||決定的)。那么w是誰決定的?顯然是你給的樣本決定的,一旦你在空間中給出了那些個樣本點,三條直線的位置實際上就唯一確定了(因為我們求的是最優(yōu)的那三條,當(dāng)然是唯一的),我們解優(yōu)化問題的過程也只不過是把這個確定了的東西算出來而已。 樣本確定了w,用數(shù)學(xué)的語言描述,就是w可以表示為樣本的某種組合: w=α1x1+α2x2+…+αnxn 式子中的αi是一個一個的數(shù)(在嚴(yán)格的證明過程中,這些α被稱為拉格朗日乘子),而xi是樣本點,因而是向量,n就是總樣本點的個數(shù)。為了方便描述,以下開始嚴(yán)格區(qū)別數(shù)字與向量的乘積和向量間的乘積,我會用α1x1表示數(shù)字和向量的乘積,而用x1,x2表示向量x1,x2的內(nèi)積(也叫點積,注意與向量叉積的區(qū)別)。因此g(x)的表達(dá)式嚴(yán)格的形式應(yīng)該是: g(x)=w,x+b 但是上面的式子還不夠好,你回頭看看圖中正樣本和負(fù)樣本的位置,想像一下,我不動所有點的位置,而只是把其中一個正樣本點定為負(fù)樣本點(也就是把一個點的形狀從圓形變?yōu)榉叫危?,結(jié)果怎么樣?三條直線都必須移動(因為對這三條直線的要求是必須把方形和圓形的點正確分開)!這說明w不僅跟樣本點的位置有關(guān),還跟樣本的類別有關(guān)(也就是和樣本的“標(biāo)簽”有關(guān))。因此用下面這個式子表示才算完整: w=α1y1x1+α2y2x2+…+αnynxn (式1) 其中的yi就是第i個樣本的標(biāo)簽,它等于1或者1。其實以上式子的那一堆拉格朗日乘子中,只有很少的一部分不等于0(不等于0才對w起決定作用),這部分不等于0的拉格朗日乘子后面所乘的樣本點,其實都落在H1和H2上,也正是這部分樣本(而不需要全部樣本)唯一的確定了分類函數(shù),當(dāng)然,更嚴(yán)格的說,這些樣本的一部分就可以確定,因為例如確定一條直線,只需要兩個點就可以,即便有三五個都落在上面,我們也不是全都需要。這部分我們真正需要的樣本點,就叫做支持(撐)向量?。诌€挺形象吧,他們“撐”起了分界線) 式子也可以用求和符號簡寫一下: w=i=1nαiyixi因此原來的g(x)表達(dá)式可以寫為: 注意式子中x才是變量,也就是你要分類哪篇文檔,就把該文檔的向量表示代入到 x的位置,而所有的xi統(tǒng)統(tǒng)都是已知的樣本。還注意到式子中只有xi和x是向量,因此一部分可以從內(nèi)積符號中拿出來,得到g(x)的式子為:發(fā)現(xiàn)了什么?w不見啦!從求w變成了求α。 但肯定有人會說,這并沒有把原問題簡化呀。嘿嘿,其實簡化了,只不過在你看不見的地方,以這樣的形式描述問題以后,我們的優(yōu)化問題少了很大一部分不等式約束(記得這是我們解不了極值問題的萬惡之源)。但是接下來先跳過線性分類器求解的部分,來看看 SVM在線性分類器上所做的重大改進(jìn)——核函數(shù)。 SVM入門(七)為何需要核函數(shù)生存?還是毀滅?——哈姆雷特 可分?還是不可分?——支持向量機(jī) 之前一直在討論的線性分類器,器如其名(汗,這是什么說法?。?,只能對線性可分的樣本做處理。如果提供的樣本線性不可分,結(jié)果很簡單,線性分類器的 求解程序會無限循環(huán),永遠(yuǎn)也解不出來。這必然使得它的適用范圍大大縮小,而它的很多優(yōu)點我們實在不原意放棄,怎么辦呢?是否有某種方法,讓線性不可分的數(shù) 據(jù)變得線性可分呢? 有!其思想說來也簡單,來用一個二維平面中的分類問題作例子,你一看就會明白。事先聲明,下面這個例子是網(wǎng)絡(luò)早就有的,我一時找不到原作者的正確信 息,在此借用,并加進(jìn)了我自己的解說而已。 例子是下面這張圖: 我們把橫軸上端點a和b之間紅色部分里的所有點定為正類,兩邊的黑色部分里的點定為負(fù)類。試問能找到一個線性函數(shù)把兩類正確分開么?不能,因為二維 空間里的線性函數(shù)就是指直線,顯然找不到符合條件的直線。 但我們可以找到一條曲線,例如下面這一條: 顯然通過點在這條曲線的上方還是下方就可以判斷點所屬的類別(你在橫軸上隨便找一點,算算這一點的函數(shù)值,會發(fā)現(xiàn)負(fù)類的點函數(shù)值一定比0大,而正類 的一定比0?。?。這條曲線就是我們熟知的二次曲線,它的函數(shù)表達(dá)式可以寫為: 問題只是它不是一個線性函數(shù),但是,下面要注意看了,新建一個向量y和a: 這樣g(x)就可以轉(zhuǎn)化為f(y)=a,y,你可以把y和a分別回帶一下,看看等不等于原來的g(x)。用內(nèi)積的形式寫你可能看不太清楚,實際上f(y)的形式就是: g(x)=f(y)=ay 在任意維度的空間中,這種形式的函數(shù)都是一個線性函數(shù)(只不過其中的a和y都是多維向量罷了),因為自變量y的次數(shù)不大于1。 看出妙在哪了么?原來在二維空間中一個線性不可分的問題,映射到四維空間后,變成了線性可分的!因此這也形成了我們最初想解決線性不可分問題的基本 思路——向高維空間轉(zhuǎn)化,使其變得線性可分。 而轉(zhuǎn)化最關(guān)鍵的部分就在于找到x到y(tǒng)的映射方法。遺憾的是,如何找到這個映射,沒有系統(tǒng)性的方法(也就是說,純靠猜和湊)。具體到我們的文本分類問 題,文本被表示為上千維的向量,即使維數(shù)已經(jīng)如此之高,也常常是線性不可分的,還要向更高的空間轉(zhuǎn)化。其中的難度可想而知。小Tips:為什么說f(y)=ay 是四維空間里的函數(shù)?大家可能一時沒看明白?;叵胍幌挛覀兌S空間里的函數(shù) 定義 g(x)=ax+b變量x是一維的,為什么說它是二維空間里的函數(shù)呢?因為還有一個變量我們沒寫出來,它的完 整形式其實是 y=g(x)=ax+b即 y=ax+b看看,有幾個變量?兩個。那是幾維空間的 函數(shù)?(作者五歲的弟弟答:五維的。作者:……)再看看f(y)=ay里面的y是三維的變量,那f(y)是幾維空 間里的函數(shù)?(作者五歲的弟弟答:還是五維的。作者:……)用一個具體文本分類的例子來看看這種向高維空間映射從而分類的方法如何運(yùn)作,想象一下,我們文本分類問題的原始空間是1000維的(即每個要被分類 的文檔被表示為一個1000維的向量),在這個維度上問題是線性不可分的?,F(xiàn)在我們有一個2000維空間里的線性函數(shù) f(x’)=w’,x’+b注意向量的右上角有個 ’哦。它能夠?qū)⒃瓎栴}變得可分。式中的 w’和x’都是2000維的向量,只 不過w’是定值,而x’是變量(好吧,嚴(yán)格說來這個函數(shù)是2001維的,哈哈),現(xiàn)在我們的輸入呢,是一個 1000維的向量x,分類的過程是先把x變換為2000維的向量x’,然后求這個變換后的向量x’與向量w’的 內(nèi)積,再把這個內(nèi)積的值和b相加,就得到了結(jié)果,看結(jié)果大于閾值還是小于閾值就得到了分類結(jié)果。 你發(fā)現(xiàn)了什么?我們其實只關(guān)心那個高維空間里內(nèi)積的值,那個值算出來了,分類結(jié)果就算出來了。而從理論上說, x’是經(jīng)由x變換來的,因此廣義上可以把它叫做x的函數(shù)(有一個x,就 確定了一個x’,對吧,確定不出第二個),而w’是常量,它是一個低維空間里的常量w經(jīng)過變換得到的,所以 給了一個w 和x的值,就有一個確定的f(x’)值與其對應(yīng)。這讓我們幻想,是否能有這樣一種函數(shù)K(w,x),他接受低維空間的 輸入值,卻能算出高維空間的內(nèi)積值w’,x’? 如果有這樣的函數(shù),那么當(dāng)給了一個低維空間的輸入x以后, g(x)=K(w,x)+bf(x’)=w’,x’+b這兩個函數(shù)的計算結(jié)果就完全一樣,我們也就用不著費力找那個映射關(guān)系,直接拿低維的輸入往g(x)里面代就可以了(再次提醒,這回的g(x)就不是 線性函數(shù)啦,因為你不能保證K(w,x)這個表達(dá)式里的x次數(shù)不高于1哦)。 萬幸的是,這樣的K(w,x)確實存在(發(fā)現(xiàn)凡是我們?nèi)祟惸芙鉀Q的問題,大都是巧得不能再巧,特殊得不能再特殊的問題,總是恰好有些能投機(jī)取巧的地 方才能解決,由此感到人類的渺?。环Q作核函數(shù)(核,kernel), 而且還不止一個,事實上,只要是滿足了Mercer條件的 函數(shù),都可以作為核函數(shù)。核函數(shù)的基本作用就是接受兩個低維空間里的向量,能夠計算出經(jīng)過某個變換后在高維空間里的向量內(nèi)積值。幾個比較常用的核函數(shù), 俄,教課書里都列過,我就不敲了(懶?。?回想我們上節(jié)說的求一個線性分類器,它的形式應(yīng)該是: 現(xiàn)在這個就是高維空間里的線性函數(shù)(為了區(qū)別低維
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1