freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數(shù)據(jù)挖掘與處理論(完整版)

2025-02-11 06:19上一頁面

下一頁面
  

【正文】 在多大程度上可以信任分類器在未知文本上分類的結果。比如說我們認為宇宙誕生于 150億年前的一場大爆炸,這個假設能夠描述很多我們觀察到的現(xiàn)象,但它與真實的宇宙模型之間還相差多少?誰也說不清,因為我們壓根就不知道真實的宇宙模型到底是什么。任課教師評語: 簽名: 年 月 日 南京理工大學 課程考核課題 課程名稱: 數(shù)據(jù)挖掘與處理 課題題目: 支持向量機 組 長: 組 員: 陳志巖( 912113850117) 成 績: 支持向量機 一、概述: 支持向量機是數(shù)據(jù)挖掘中的一項新技術,是在統(tǒng)計學習理論基礎上發(fā)展起來的一種新的數(shù)據(jù)挖掘方法,借助于最優(yōu)化方法解決機器學習問題的新工具。 這個與問題真實解之間的誤差,就叫做風險(更嚴格的說,誤差的 累積叫做風險)。很顯然,第二部分是沒有辦法精確計算的,因此只能給出一個估計的區(qū)間,也使得整個誤差只能計算上界,而無法計算準確的值(所以叫做泛化誤差界,而不叫泛化誤差)。多說一句,關 于文本分類這個問題究竟是不是線性可分的,尚沒有定論,因此不能簡單的認為它是線性可分的而作簡化處理,在水落石出之前,只好先當它是線性不可分的(反正線性可分也不過是線性不可分的一種特例而已,我們向來不怕方法過于通用)。 例如我們有一個線性函數(shù) g(x)=wx+b 我們可以取閾值為 0,這樣當有一個樣本 xi需要判別的時候,我們就看 g(xi)的值。 線性分類器 —— 分類間隔 上回說到對于文本分類這樣的不適定問題(有一個以上解的問題稱為不適定問題),需要有一個指標來衡量解決方案(即我們通過訓練建立的分類模型)的好壞,而分類間隔是一個比較好的指標。下面這張圖更加直觀的展示出了幾何間隔的現(xiàn)實含義: H 是分類面,而 H1和 H2是平行于 H,且過離 H 最近的兩類樣本的直線,H1與 H, H2與 H 之間的距離就是幾何間隔。不難看出當 ||w||2達到最小時, ||w||也達到最 小,反之亦然(前提當然是 ||w||描述的是向量的長度,因而是非負的)。 xi)+b]1≥ 0 (i=1,2,? ,l) ( l是總的樣本數(shù)) 因此我們的兩類分類問題也被我們轉化成了它的數(shù)學形式,一個帶約束的最小值的問題 , 從最一般的定義上說,一個求最小值的問題就是一個優(yōu)化問題(也叫尋優(yōu)問題),它同樣由兩部分組成,目標函數(shù)和約束條件 。 一下子提了這么多術語,實在不是為了讓大家以后能向別人炫耀學識的淵博,這其實是我們繼續(xù)下去的一個重要前提,因為在動手求一個問題的解之前(好吧,我承認,是動計算機求??),我們必須先問自己:這個問題是不是有解?如果有解,是否能找到? 對于一般意義上的規(guī)劃問題,兩個問題的答案都是不一定,但凸二次規(guī)劃讓人喜歡的地方就在于,它有解(教科書里面為了嚴謹,常常加限定成分,說它有全局最優(yōu)解,由于我們想找的本來就是全局最優(yōu)的解,所以不加也罷),而且可以找到?。ó斎?,依據(jù)你使用的算法不同,找到這個解的速度,行話叫 收斂速度,會有所不同) 還可以發(fā)現(xiàn),我們的線性分類器問題只有不等式約束,因此形式上看似乎比一般意義上的規(guī)劃問題要簡單,但解起來卻并非如此。 你肯定能看出來,一旦求出了 w(也就求出了 b),那么中間的直線 H就知道了(因為它就是 wx+b=0嘛,哈哈),那么 H1和 H2也就知道了(因為三者是平行的,而且相隔的距離還是 ||w||決定的)。其實簡化了,只不過在你看不見的地方,以這樣的形式描述問題以后,我們的優(yōu)化問題少了很大一部分不等式約束(記得這是我們解不了極值問題的萬惡之源)。 多項式核函數(shù): 選用下列核函數(shù) 2( , ) [( , ) 1]iiK x x x x??,構造的支持向量機的判別函數(shù)為: 2*1( ) s g n { [ ( , ) 1 ] }ni i iif x a y x x b?? ? ?? 其中, s 為支持矢量的個數(shù)。這樣,在高維特征空間的線性回歸就對應于低維輸入空間的非線性回歸。這樣就避免了在高維空間計算復雜的點積運算。徑向基函數(shù)所對應的特征空間可以是無窮維數(shù),因此理論上講,一切有限的數(shù)據(jù)樣本在該特征空間中肯定是線性可分的。 核函數(shù): 之前一直在討論的線性分 類器 ,器如其名,只能對線性可分的樣本做處理。 樣本確定了 w,用數(shù)學的語言描述,就是 w可以表示為樣本的某種組合: w=α 1x1+α 2x2+? +α nxn 式子中的α i是一個一個的數(shù)(在嚴格的證明過程中,這些α被稱為拉格朗日乘子),而 xi是樣本點,因而是向量, n就是總樣本點的個數(shù)。如果你仔細回憶一下高等數(shù)學的知識,會記得我們可以輕松的解一個不帶任何約束的優(yōu)化問題(實際上就是當年背得爛熟的函數(shù)求極值嘛,求導再找 0點),我們甚至還會解一個只帶等式約束的優(yōu)化問題,也是背得爛熟的,求條件極值,記得么,通過添加拉格朗日乘子,構造拉格朗日函數(shù),來把這個問題轉化為無約束的優(yōu)化問題云云(如果你一時沒想通,我提醒 一下,構造出的拉格朗日函數(shù)就是轉化之后的問題形式,它顯然沒有帶任何條件)。 關于這個式子可以這樣來理解:式中的 x是自變量,但不限定它的維數(shù)必須為 1(視乎你解決的問題空
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1