freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與處理論-wenkub

2023-01-21 06:19:03 本頁面
 

【正文】 線性分類器 線性分類器 (一定意義上 ,也可以叫做感知機(jī) ) 是最簡單也很有效的分類器形式 .在一個(gè)線性分類器中 ,可以看到 SVM 形成的思路 ,并接觸很多 SVM 的核心概念 . 用一個(gè)二維空間里僅有兩類樣本的分類問題來舉個(gè)小例子。 非線性,是指 SVM 擅長應(yīng)付樣本數(shù)據(jù)線性不可分的情況,主要通過松弛變量(也有人叫懲罰變量)和核函數(shù)技術(shù)來實(shí)現(xiàn),這一部分是 SVM的精髓,以后會(huì)詳細(xì)討論。統(tǒng)計(jì)學(xué)習(xí)的目標(biāo)從經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化變?yōu)榱藢で蠼?jīng)驗(yàn)風(fēng)險(xiǎn)與置信風(fēng)險(xiǎn)的和最小,即結(jié)構(gòu)風(fēng)險(xiǎn)最小。 統(tǒng)計(jì)學(xué)習(xí)因此而引入了泛化誤差界的概念,就是指真實(shí)風(fēng)險(xiǎn)應(yīng)該由兩部分內(nèi)容刻畫,一是經(jīng)驗(yàn)風(fēng)險(xiǎn),代表了分類器在給定樣本上的誤差;二是置信風(fēng)險(xiǎn),代表了我們?cè)诙啻蟪潭壬峡梢孕湃畏诸惼髟谖粗谋旧戏诸惖慕Y(jié)果。這個(gè)差值叫做經(jīng)驗(yàn)風(fēng)險(xiǎn) Remp(w)。比如說我們認(rèn)為宇宙誕生于 150億年前的一場大爆炸,這個(gè)假設(shè)能夠描述很多我們觀察到的現(xiàn)象,但它與真實(shí)的宇宙模型之間還相差多少?誰也說不清,因?yàn)槲覀儔焊筒恢勒鎸?shí)的宇宙模型到底是什么。 所謂 VC維是對(duì)函數(shù)類的一種度量,可以簡單的理解為問題的復(fù)雜程度, VC維越高,一個(gè)問題就越復(fù)雜。任課教師評(píng)語: 簽名: 年 月 日 南京理工大學(xué) 課程考核課題 課程名稱: 數(shù)據(jù)挖掘與處理 課題題目: 支持向量機(jī) 組 長: 組 員: 陳志巖( 912113850117) 成 績: 支持向量機(jī) 一、概述: 支持向量機(jī)是數(shù)據(jù)挖掘中的一項(xiàng)新技術(shù),是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來的一種新的數(shù)據(jù)挖掘方法,借助于最優(yōu)化方法解決機(jī)器學(xué)習(xí)問題的新工具。正是因?yàn)?SVM 關(guān)注的是 VC維,我們可以 了解 到,SVM解決問題的時(shí)候,和樣本的維數(shù)是無關(guān)的(甚至樣本是上萬維的都可以,這使得 SVM很適合用來解決文本分類的問題,當(dāng)然, 有這樣的能力也因?yàn)橐肓撕撕瘮?shù))。 這個(gè)與問題真實(shí)解之間的誤差,就叫做風(fēng)險(xiǎn)(更嚴(yán)格的說,誤差的 累積叫做風(fēng)險(xiǎn))。以前的機(jī)器學(xué)習(xí)方法都把經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化作為努力的目標(biāo),但后來發(fā)現(xiàn)很多分類函數(shù)能夠在樣本集上輕易達(dá)到 100%的正確率,在真實(shí)分類時(shí)卻一塌糊涂(即所謂的推廣能力差,或泛化能力差)。很顯然,第二部分是沒有辦法精確計(jì)算的,因此只能給出一個(gè)估計(jì)的區(qū)間,也使得整個(gè)誤差只能計(jì)算上界,而無法計(jì)算準(zhǔn)確的值(所以叫做泛化誤差界,而不叫泛化誤差)。 SVM正是這樣一種努力最小化結(jié)構(gòu)風(fēng)險(xiǎn)的算法。多說一句,關(guān) 于文本分類這個(gè)問題究竟是不是線性可分的,尚沒有定論,因此不能簡單的認(rèn)為它是線性可分的而作簡化處理,在水落石出之前,只好先當(dāng)它是線性不可分的(反正線性可分也不過是線性不可分的一種特例而已,我們向來不怕方法過于通用)。如圖所示 C1和 C2是要區(qū)分的兩個(gè)類別,在二維平面中它們的樣本如上圖所示。 例如我們有一個(gè)線性函數(shù) g(x)=wx+b 我們可以取閾值為 0,這樣當(dāng)有一個(gè)樣本 xi需要判別的時(shí)候,我們就看 g(xi)的值。二,這個(gè)形式并不局限于二維的情況,在 n 維空間中仍然可以使用這個(gè)表達(dá)式,只是式中的 w 成為了 n 維向量(在二維的這個(gè)例子中, w 是二維向量,為了表示起來方便簡潔,以下均不區(qū)別列向量和它的轉(zhuǎn)置,聰明的讀者一看便知);三, g(x)不是中間那條直線的表達(dá)式,中間那條直線的表達(dá)式是 g(x)=0,即 wx+b=0,我們也把這個(gè)函數(shù)叫做分類面。 線性分類器 —— 分類間隔 上回說到對(duì)于文本分類這樣的不適定問題(有一個(gè)以上解的問題稱為不適定問題),需要有一個(gè)指標(biāo)來衡量解決方案(即我們通過訓(xùn)練建立的分類模型)的好壞,而分類間隔是一個(gè)比較好的指標(biāo)。有了這種表示法,我們就可以定義一個(gè)樣本點(diǎn)到某個(gè)超平面的間隔: δi=yi(wxi+b) 這個(gè)公式乍一看沒什么神秘的,也說不出什么道理,只是個(gè)定義而已,但我們做做變換,就能看出一些有意思的東西。下面這張圖更加直觀的展示出了幾何間隔的現(xiàn)實(shí)含義: H 是分類面,而 H1和 H2是平行于 H,且過離 H 最近的兩類樣本的直線,H1與 H, H2與 H 之間的距離就是幾何間隔。 尋優(yōu)問題 上節(jié)說到我們有了一個(gè)線性分類函數(shù),也有了判斷解優(yōu)劣的標(biāo)準(zhǔn) —— 即有了優(yōu)化的目標(biāo),這個(gè)目標(biāo)就是最大化幾何間隔,但是看過一些關(guān)于 SVM 的論文的人一定記得什么優(yōu)化的目標(biāo)是要最小化 ||w||這樣的說法,這是怎么回事呢?回頭再看看我們對(duì)間隔和幾何間隔的定義: 間隔:δ =y(wx+b)=|g(x)| 注 意到幾何間隔與 ||w||是成反比的,因此最大化幾何間隔與最小化 ||w||完全是一回事。不難看出當(dāng) ||w||2達(dá)到最小時(shí), ||w||也達(dá)到最 小,反之亦然(前提當(dāng)然是 ||w||描述的是向量的長度,因而是非負(fù)的)。這下可好,所有樣本點(diǎn)都進(jìn)入了無法分類的灰色地帶。 xi)+b]1≥ 0 (i=1,2,? ,l) ( l是總的樣本數(shù)) 因此我們的兩類分類問題也被我們轉(zhuǎn)化成了它的數(shù)學(xué)形式,一個(gè)帶約束的最小值的問題 , 從最一般的定義上說,一個(gè)求最小值的問題就是一個(gè)優(yōu)化問題(也叫尋優(yōu)問題),它同樣由兩部分組成,目標(biāo)函數(shù)和約束條件 。注意可行域中的每一個(gè)點(diǎn)都要求滿
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1