freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與處理論-文庫吧

2024-12-22 06:19 本頁面


【正文】 高,例如文本的向量表示,如果沒有經(jīng)過另一系列文章(《文本分類入門》)中提到過的降維處理,出現(xiàn)幾萬維的情況很正常,其他算法基本就沒有能力應(yīng)付了, SVM卻可以,主要是因為 SVM 產(chǎn)生的分類器很簡潔,用到的樣本信息很少(僅僅用到那些稱之為“支持向量”的樣本,此為后話),使得即 使樣本維數(shù)很高,也不會給存儲和計算帶來大麻煩。 三、支持向量機 : 支持向量機定義: SVM是一種準確度高的分類器,具有良好的容錯和歸納能力,是一種建立在統(tǒng)計學(xué)理論的 VC理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的 , 支持向量機技術(shù)是從線性可分情況下的最優(yōu)分類面發(fā)展而來的 。 線性分類器 線性分類器 (一定意義上 ,也可以叫做感知機 ) 是最簡單也很有效的分類器形式 .在一個線性分類器中 ,可以看到 SVM 形成的思路 ,并接觸很多 SVM 的核心概念 . 用一個二維空間里僅有兩類樣本的分類問題來舉個小例子。如圖所示 C1和 C2是要區(qū)分的兩個類別,在二維平面中它們的樣本如上圖所示。中間的直線就是一個分類函數(shù),它可以將兩類樣本完全分開。一般的,如果一個線性函數(shù)能夠?qū)颖就耆_的分開,就稱這些數(shù)據(jù)是線性可分的,否則稱為非線性可分的。 什么叫線性函數(shù)呢?在一維空間里就是一 個點,在二維空間里就是一條直線,三維空間里就是一個平面,可以如此想象下去,如果不關(guān)注空間的維數(shù),這種線性函數(shù)還有一個統(tǒng)一的名稱 ——超平面( Hyper Plane)! 實際上,一個線性函數(shù)是一個實值函數(shù)(即函數(shù)的值是連續(xù)的實數(shù)),而我們的分類問題(例如這里的二元分類問題 ——回答一個樣本屬于還是不屬于一個類別的問題)需要離散的輸出值,例如用 1 表示某個樣本屬于類別 C1,而用 0表示不屬于(不屬于 C1也就意味著屬于 C2),這時候只需要簡單的在實值函數(shù)的基礎(chǔ)上附加一個閾值即可,通過分類函數(shù)執(zhí)行時得到的值大于還是小于這個 閾值來確定類別歸屬。 例如我們有一個線性函數(shù) g(x)=wx+b 我們可以取閾值為 0,這樣當(dāng)有一個樣本 xi需要判別的時候,我們就看 g(xi)的值。若 g(xi)0,就判別為類別 C1,若 g(xi)0,則判別為類別 C2(等于的時候我們就拒絕判斷,呵呵)。此時也等價于給函數(shù) g(x)附加一個符號函數(shù) sgn(),即 f(x)=sgn [g(x)]是我們真正的判別函數(shù)。 關(guān)于 g(x)=wx+b 這個表達式要注意三點:一,式中的 x 不是二維坐標系中的橫軸,而是樣本的向量表示,例如一個樣本點的坐標是 (3,8),則 xT=(3,8) ,而不是 x=3(一般說向量都是說列向量,因此以行向量形式來表示時,就加上轉(zhuǎn)置)。二,這個形式并不局限于二維的情況,在 n 維空間中仍然可以使用這個表達式,只是式中的 w 成為了 n 維向量(在二維的這個例子中, w 是二維向量,為了表示起來方便簡潔,以下均不區(qū)別列向量和它的轉(zhuǎn)置,聰明的讀者一看便知);三, g(x)不是中間那條直線的表達式,中間那條直線的表達式是 g(x)=0,即 wx+b=0,我們也把這個函數(shù)叫做分類面。 實際上很容易看出來,中間那條分界線并不是唯一的,我們把它稍微旋轉(zhuǎn)一下,只要不把兩類數(shù)據(jù)分錯,仍然可以達 到上面說的效果,稍微平移一下,也可以。此時就牽涉到一個問題,對同一個問題存在多個分類函數(shù)的時候,哪一個函數(shù)更好呢?顯然必須要先找一個指標來量化 “好 ”的程度,通常使用的都是叫做 “分類間隔 ”的指標。下一節(jié)我們就仔細說說分類間隔,也補一補相關(guān)的數(shù)學(xué)知識。 線性分類器 —— 分類間隔 上回說到對于文本分類這樣的不適定問題(有一個以上解的問題稱為不適定問題),需要有一個指標來衡量解決方案(即我們通過訓(xùn)練建立的分類模型)的好壞,而分類間隔是一個比較好的指標。 在進行文本分類的時候,我們可以讓計算機這樣來看待我們提供 給它的訓(xùn)練樣本,每一個樣本由一個向量(就是那些文本特征所組成的向量)和一個標記(標示出這個樣本屬于哪個類別)組成。如下: Di=(xi,yi) xi就是文本向量(維數(shù)很高), yi就是分類標記。 在二元的線性分類中,這個表示分類的標記只有兩個值, 1 和 1(用來表示屬于還是不屬于這個類)。有了這種表示法,我們就可以定義一個樣本點到某個超平面的間隔: δi=yi(wxi+b) 這個公式乍一看沒什么神秘的,也說不出什么道理,只是個定義而已,但我們做做變換,就能看出一些有意思的東西。 首先注意到如果某個樣本屬于該類別 的話,那么 wxi+b0(記得么?這是因為我們所選的 g(x)=wx+b 就通過大于 0 還是小于 0 來判斷分類),而 yi也大于 0;若不屬于該類別的話,那么 wxi+b0,而 yi 也小于 0,這意味著 yi(wxi+b)總是大于 0 的,而且它的值就等于 |wxi+b|?。ㄒ簿褪?|g(xi)|) 現(xiàn)在把 w和 b進行一下歸一化,即用 w/||w||和 b/||w||分別代替原來的 w和 b,就是解析幾何中點 xi到直線 g(x)=0 的距離公式 。 當(dāng)用歸一化的 w 和 b 代替原值之后的間隔有一個專門的名稱,叫做幾何間隔,幾何間隔所表示的正是點到超平面的 歐氏距離,我們下面就簡稱幾何間隔為“距離 ”。以上是單個點到某個超平面的距離(就是間隔,后面不再區(qū)別這兩個詞)定義,同樣可以定義一個點的集合(就是一組樣本)到某個超平面的距離為此集合中離超平面最近的點的距離。下面這張圖更加直觀的展示出了幾何間隔的現(xiàn)實含義: H 是分類面,而 H1和 H2是平行于 H,且過離 H 最近的兩類樣本的直線,H1與 H, H2與 H 之間的距離就是幾何間隔。 之所以如此關(guān)心幾何間隔這個東西,是因為幾何間隔與樣本的誤分次數(shù)間存在關(guān)系:誤分次數(shù)
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1