freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與處理論-展示頁

2025-01-15 06:19本頁面
  

【正文】 本的絕對數(shù)量少(實(shí)際上,對任何算法來說,更多的樣本幾乎總是能帶來更好的效果),而是說與問題的復(fù)雜度比起來, SVM 算法要求的樣本數(shù)是相對比較少的。 SVM正是這樣一種努力最小化結(jié)構(gòu)風(fēng)險(xiǎn)的算法。 泛化誤差界的公式為: R(w)≤ Remp(w)+Ф (n/h) 公式中 R(w)就是真實(shí)風(fēng)險(xiǎn), Remp(w)就是經(jīng)驗(yàn)風(fēng)險(xiǎn),Ф (n/h)就是置信風(fēng)險(xiǎn)。很顯然,第二部分是沒有辦法精確計(jì)算的,因此只能給出一個(gè)估計(jì)的區(qū)間,也使得整個(gè)誤差只能計(jì)算上界,而無法計(jì)算準(zhǔn)確的值(所以叫做泛化誤差界,而不叫泛化誤差)?;仡^看看經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則我們就會發(fā)現(xiàn),此原則適用的大前提是經(jīng)驗(yàn)風(fēng)險(xiǎn)要確實(shí)能夠逼近真實(shí)風(fēng)險(xiǎn)才行(行話叫一致),但實(shí)際上能逼近么?答案是不能,因?yàn)闃颖緮?shù)相對于現(xiàn)實(shí)世界要分類的文本數(shù)來說簡直九牛一毛,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則只在這占很小比例的樣本上做到?jīng)]有誤差,當(dāng)然不能保證在更大比例的真實(shí)文本上也沒有誤差。以前的機(jī)器學(xué)習(xí)方法都把經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化作為努力的目標(biāo),但后來發(fā)現(xiàn)很多分類函數(shù)能夠在樣本集上輕易達(dá)到 100%的正確率,在真實(shí)分類時(shí)卻一塌糊涂(即所謂的推廣能力差,或泛化能力差)。最直觀的想法就是使用分類器在樣本數(shù)據(jù)上的分類的結(jié)果與真實(shí)結(jié)果(因?yàn)闃颖臼且呀?jīng)標(biāo)注過的數(shù)據(jù),是準(zhǔn)確的數(shù)據(jù))之間的差值來表示。 這個(gè)與問題真實(shí)解之間的誤差,就叫做風(fēng)險(xiǎn)(更嚴(yán)格的說,誤差的 累積叫做風(fēng)險(xiǎn))。 既然真實(shí)模型不知道,那么我們選擇的假設(shè)與問題真實(shí)解之間究竟有多大差距,我們就沒法得知。正是因?yàn)?SVM 關(guān)注的是 VC維,我們可以 了解 到,SVM解決問題的時(shí)候,和樣本的維數(shù)是無關(guān)的(甚至樣本是上萬維的都可以,這使得 SVM很適合用來解決文本分類的問題,當(dāng)然, 有這樣的能力也因?yàn)橐肓撕撕瘮?shù))。 支持 向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的 VC 維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度,Accuracy)和學(xué)習(xí)能力(即無錯(cuò)誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(或稱泛化能力)。任課教師評語: 簽名: 年 月 日 南京理工大學(xué) 課程考核課題 課程名稱: 數(shù)據(jù)挖掘與處理 課題題目: 支持向量機(jī) 組 長: 組 員: 陳志巖( 912113850117) 成 績: 支持向量機(jī) 一、概述: 支持向量機(jī)是數(shù)據(jù)挖掘中的一項(xiàng)新技術(shù),是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來的一種新的數(shù)據(jù)挖掘方法,借助于最優(yōu)化方法解決機(jī)器學(xué)習(xí)問題的新工具。 統(tǒng)計(jì)學(xué)習(xí)理論是一種專門研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論,其主要內(nèi)容包括以下四個(gè)方面: 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則下統(tǒng)計(jì)學(xué)習(xí)一致性的條件 在這些條件下關(guān)于統(tǒng)計(jì)學(xué)習(xí)方法推廣性的界的結(jié)論 在這些界的基礎(chǔ)上建立的小樣本歸納推理準(zhǔn)則 實(shí)現(xiàn)新的準(zhǔn)則的實(shí)際方法 二、 前期知識 : SVM的背景簡介 支持向量機(jī) (Support Vector Machine)是 Cortes和 Vapnik于 1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。 所謂 VC維是對函數(shù)類的一種度量,可以簡單的理解為問題的復(fù)雜程度, VC維越高,一個(gè)問題就越復(fù)雜。 機(jī)器學(xué)習(xí)本質(zhì)上就是一種對問題真實(shí)模型的逼近(我們選擇一個(gè)我們認(rèn)為比較好的近似模型,這個(gè)近似模型就叫做一個(gè)假設(shè)),但毫無疑問,真實(shí)模型一定是不知道的 。比如說我們認(rèn)為宇宙誕生于 150億年前的一場大爆炸,這個(gè)假設(shè)能夠描述很多我們觀察到的現(xiàn)象,但它與真實(shí)的宇宙模型之間還相差多少?誰也說不清,因?yàn)槲覀儔焊筒恢勒鎸?shí)的宇宙模型到底是什么。我們選擇了一個(gè)假設(shè)之后(更直觀點(diǎn)說,我們得到了一個(gè)分類器以后),真實(shí)誤差無從得知,但我們可以用某些可以掌握的量來逼近它。這個(gè)差值叫做經(jīng)驗(yàn)風(fēng)險(xiǎn) Remp(w)。此時(shí)的情況便是選擇了一個(gè)足夠復(fù)雜的分類函數(shù)( 它的 VC維很高),能夠精確的記住每一個(gè)樣本,但對樣本之外的數(shù)據(jù)一律分類錯(cuò)誤。 統(tǒng)計(jì)學(xué)習(xí)因此而引入了泛化誤差界的概念,就是指真實(shí)風(fēng)險(xiǎn)應(yīng)該由兩部分內(nèi)容刻畫,一是經(jīng)驗(yàn)風(fēng)險(xiǎn),代表了分類器在給定樣本上的誤差;二是置信風(fēng)險(xiǎn),代表了我們在多大程度上可以信任分類器在未知文本上分類的結(jié)果。 置信風(fēng)險(xiǎn)與兩個(gè)量有關(guān),一是樣本數(shù)量,顯然給定的樣本數(shù)量越大,我們的學(xué)習(xí)結(jié)果越有可能正確,此時(shí)置信風(fēng)險(xiǎn)越??;二是分類函數(shù)的 VC維,顯然 VC維越大,推廣能力越差,置信風(fēng)險(xiǎn)會變大。統(tǒng)計(jì)學(xué)習(xí)的目標(biāo)從經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化變?yōu)榱藢で蠼?jīng)驗(yàn)風(fēng)險(xiǎn)與置信風(fēng)險(xiǎn)的和最小,即結(jié)構(gòu)風(fēng)險(xiǎn)最小。 SVM其他的特點(diǎn)就比較容易理解了。 非線性,是指 SVM 擅長應(yīng)付樣本數(shù)據(jù)線性不可分的情況,主要通過松弛變量(也有人叫懲罰變量)和核函數(shù)技術(shù)來實(shí)現(xiàn),這一部分是 SVM的精髓,以后會詳細(xì)討論。 高維模式識別是指樣本維數(shù)很高,例如文本的向量表示,如果沒有經(jīng)過另一系列文章(《文本分類入門》)中提到過的降維處理,出現(xiàn)幾萬維的情況很正常,其他算法基本就沒有能力應(yīng)付了, SVM卻可以,主要是因?yàn)?SVM 產(chǎn)生的分類器很簡潔,用到的樣本信息很少(僅僅用到那些稱之為“支持向量”的樣本,此為
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1