freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數(shù)據(jù)挖掘與處理論-wenkub

2023-01-21 06:19:03 本頁面
 

【正文】 線性分類器 線性分類器 (一定意義上 ,也可以叫做感知機 ) 是最簡單也很有效的分類器形式 .在一個線性分類器中 ,可以看到 SVM 形成的思路 ,并接觸很多 SVM 的核心概念 . 用一個二維空間里僅有兩類樣本的分類問題來舉個小例子。 非線性,是指 SVM 擅長應付樣本數(shù)據(jù)線性不可分的情況,主要通過松弛變量(也有人叫懲罰變量)和核函數(shù)技術來實現(xiàn),這一部分是 SVM的精髓,以后會詳細討論。統(tǒng)計學習的目標從經(jīng)驗風險最小化變?yōu)榱藢で蠼?jīng)驗風險與置信風險的和最小,即結構風險最小。 統(tǒng)計學習因此而引入了泛化誤差界的概念,就是指真實風險應該由兩部分內容刻畫,一是經(jīng)驗風險,代表了分類器在給定樣本上的誤差;二是置信風險,代表了我們在多大程度上可以信任分類器在未知文本上分類的結果。這個差值叫做經(jīng)驗風險 Remp(w)。比如說我們認為宇宙誕生于 150億年前的一場大爆炸,這個假設能夠描述很多我們觀察到的現(xiàn)象,但它與真實的宇宙模型之間還相差多少?誰也說不清,因為我們壓根就不知道真實的宇宙模型到底是什么。 所謂 VC維是對函數(shù)類的一種度量,可以簡單的理解為問題的復雜程度, VC維越高,一個問題就越復雜。任課教師評語: 簽名: 年 月 日 南京理工大學 課程考核課題 課程名稱: 數(shù)據(jù)挖掘與處理 課題題目: 支持向量機 組 長: 組 員: 陳志巖( 912113850117) 成 績: 支持向量機 一、概述: 支持向量機是數(shù)據(jù)挖掘中的一項新技術,是在統(tǒng)計學習理論基礎上發(fā)展起來的一種新的數(shù)據(jù)挖掘方法,借助于最優(yōu)化方法解決機器學習問題的新工具。正是因為 SVM 關注的是 VC維,我們可以 了解 到,SVM解決問題的時候,和樣本的維數(shù)是無關的(甚至樣本是上萬維的都可以,這使得 SVM很適合用來解決文本分類的問題,當然, 有這樣的能力也因為引入了核函數(shù))。 這個與問題真實解之間的誤差,就叫做風險(更嚴格的說,誤差的 累積叫做風險)。以前的機器學習方法都把經(jīng)驗風險最小化作為努力的目標,但后來發(fā)現(xiàn)很多分類函數(shù)能夠在樣本集上輕易達到 100%的正確率,在真實分類時卻一塌糊涂(即所謂的推廣能力差,或泛化能力差)。很顯然,第二部分是沒有辦法精確計算的,因此只能給出一個估計的區(qū)間,也使得整個誤差只能計算上界,而無法計算準確的值(所以叫做泛化誤差界,而不叫泛化誤差)。 SVM正是這樣一種努力最小化結構風險的算法。多說一句,關 于文本分類這個問題究竟是不是線性可分的,尚沒有定論,因此不能簡單的認為它是線性可分的而作簡化處理,在水落石出之前,只好先當它是線性不可分的(反正線性可分也不過是線性不可分的一種特例而已,我們向來不怕方法過于通用)。如圖所示 C1和 C2是要區(qū)分的兩個類別,在二維平面中它們的樣本如上圖所示。 例如我們有一個線性函數(shù) g(x)=wx+b 我們可以取閾值為 0,這樣當有一個樣本 xi需要判別的時候,我們就看 g(xi)的值。二,這個形式并不局限于二維的情況,在 n 維空間中仍然可以使用這個表達式,只是式中的 w 成為了 n 維向量(在二維的這個例子中, w 是二維向量,為了表示起來方便簡潔,以下均不區(qū)別列向量和它的轉置,聰明的讀者一看便知);三, g(x)不是中間那條直線的表達式,中間那條直線的表達式是 g(x)=0,即 wx+b=0,我們也把這個函數(shù)叫做分類面。 線性分類器 —— 分類間隔 上回說到對于文本分類這樣的不適定問題(有一個以上解的問題稱為不適定問題),需要有一個指標來衡量解決方案(即我們通過訓練建立的分類模型)的好壞,而分類間隔是一個比較好的指標。有了這種表示法,我們就可以定義一個樣本點到某個超平面的間隔: δi=yi(wxi+b) 這個公式乍一看沒什么神秘的,也說不出什么道理,只是個定義而已,但我們做做變換,就能看出一些有意思的東西。下面這張圖更加直觀的展示出了幾何間隔的現(xiàn)實含義: H 是分類面,而 H1和 H2是平行于 H,且過離 H 最近的兩類樣本的直線,H1與 H, H2與 H 之間的距離就是幾何間隔。 尋優(yōu)問題 上節(jié)說到我們有了一個線性分類函數(shù),也有了判斷解優(yōu)劣的標準 —— 即有了優(yōu)化的目標,這個目標就是最大化幾何間隔,但是看過一些關于 SVM 的論文的人一定記得什么優(yōu)化的目標是要最小化 ||w||這樣的說法,這是怎么回事呢?回頭再看看我們對間隔和幾何間隔的定義: 間隔:δ =y(wx+b)=|g(x)| 注 意到幾何間隔與 ||w||是成反比的,因此最大化幾何間隔與最小化 ||w||完全是一回事。不難看出當 ||w||2達到最小時, ||w||也達到最 小,反之亦然(前提當然是 ||w||描述的是向量的長度,因而是非負的)。這下可好,所有樣本點都進入了無法分類的灰色地帶。 xi)+b]1≥ 0 (i=1,2,? ,l) ( l是總的樣本數(shù)) 因此我們的兩類分類問題也被我們轉化成了它的數(shù)學形式,一個帶約束的最小值的問題 , 從最一般的定義上說,一個求最小值的問題就是一個優(yōu)化問題(也叫尋優(yōu)問題),它同樣由兩部分組成,目標函數(shù)和約束條件 。注意可行域中的每一個點都要求滿
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1