freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用畢業(yè)論文-閱讀頁

2025-04-22 03:36本頁面
  

【正文】 方法。強分類器對數(shù)據(jù)進行分類,是通過弱分類器的多數(shù)投票機制進行的。該算法其實是一個簡單的弱分類算法提升過程,這個過程通過不斷的訓(xùn)練,可以提高對數(shù)據(jù)的分類能力。n 將h1分錯的數(shù)據(jù)和其它的新數(shù)據(jù)一起構(gòu)成一個新的有N個訓(xùn)練數(shù)據(jù)的樣本,通過對這個樣本的學(xué)習(xí)得到第二個弱分類器h2。n 最終經(jīng)過提升的強分類器。 Adaboost算法描述對于Boosting算法,存在兩個問題:1. 如何調(diào)整訓(xùn)練集,使得在訓(xùn)練集上訓(xùn)練弱分類器得以進行。針對以上兩個問題,Adbaoost算法進行了調(diào)整:1. 使用加權(quán)后選取的訓(xùn)練數(shù)據(jù)代替隨機選取的訓(xùn)練數(shù)據(jù),這樣將訓(xùn)練的焦點集中在比較難分的訓(xùn)練數(shù)據(jù)上。讓分類效果好的弱分類器具有較大的權(quán)重,而分類效果差的分類器具有較小的權(quán)重。與Boosting算法[49]不同的是,Adaboost算法不需要預(yù)先知道弱學(xué)習(xí)算法學(xué)習(xí)正確率的下限即弱分類器的誤差,并且最后得到的強分類器的分類精度依賴于所有弱分類器的分類精度,這樣可以深入挖掘弱分類器算法的潛力。開始時,每個樣本對應(yīng)的權(quán)重是相同的,即,其中n為樣本個數(shù),在此樣本分布下訓(xùn)練出一弱分類器h1。而對于分類正確的樣本,降低其權(quán)重,這樣分錯的樣本就被突出出來,從而得到一個新的樣本分布U2。依次類推,經(jīng)過了T次循環(huán),得到了T個弱分類器,把這T個弱分類器按一定的權(quán)重疊加(boost)起來,得到最終想要的強分類器。訓(xùn)練的目標(biāo)是尋找一個優(yōu)化分類器ht,使之成為一個強分類器。每一輪中,分類器ht都專注于那些難分類的實例,并據(jù)此對每一個訓(xùn)練實例的權(quán)重進行修改。所以,最終的分類器H可以通過用帶權(quán)重的投票組合多個基本分類器來得到,H可以通過下式來描敘: ()AdaBoost算法的流程如下:1.給定訓(xùn)練樣本集;2.用公式()來初始化和標(biāo)準(zhǔn)化權(quán)重系數(shù);3.循環(huán)t=1,...T,在循環(huán)中的每一次:1)根據(jù)訓(xùn)練集的概率分布Dt來訓(xùn)練樣本,并得到基本分類器ht;2)根據(jù)公式()來更新權(quán)重系數(shù);3)得到預(yù)報誤差最小的基本分類器hi;4.輸出最終的強分類器H。弱分類器的選擇應(yīng)該遵循如下兩個標(biāo)準(zhǔn):(1)弱分類器有處理數(shù)據(jù)重分配的能力;(2)弱分類器必須不會導(dǎo)致過擬合。Bagging的基礎(chǔ)是重復(fù)取樣,它通過產(chǎn)生樣本的重復(fù)Bootstrap實例作為訓(xùn)練集,每回運行Bagging都隨機地從大小為n的原始訓(xùn)練集中抽取m個樣本作為此回訓(xùn)練的集合。平均來說,%,原始訓(xùn)練集中的某些樣本可能在新的訓(xùn)練集中出現(xiàn)多次,而另外一些樣本則可能一次也不出現(xiàn)。Breiman指出,穩(wěn)定性是Bagging能否提高預(yù)測準(zhǔn)確率的關(guān)鍵因素。學(xué)習(xí)算法的不穩(wěn)定性是指如果訓(xùn)練集有較小的變化,學(xué)習(xí)算法產(chǎn)生的預(yù)測函數(shù)將發(fā)生較大的變化。 Bagging的各個預(yù)測函數(shù)沒有權(quán)重,而Boosting是有權(quán)重的。對于像神經(jīng)網(wǎng)絡(luò)這樣極為耗時的學(xué)習(xí)方法,Bagging可通過并行訓(xùn)練節(jié)省大量的時間開銷。如果輸入為x,就通過來預(yù)測y。任務(wù)是使用來得到一個更好的學(xué)習(xí)器,它比單個數(shù)據(jù)集學(xué)習(xí)器要強。如果,y是數(shù)值的,一個明顯的過程是用在k上的平均取代,即通過,其中EL表示L上的數(shù)學(xué)期望,h的下標(biāo)A表示綜合。設(shè),使。2.對樣本集進行初始化;3.循環(huán)t=1,...T,在循環(huán)中的每一次:a. 從初始訓(xùn)練樣本集S中用bootstrap方法抽取m個樣本,組成新的訓(xùn)練集;b. 在訓(xùn)練集S’上用基本分類器進行訓(xùn)練,得到t輪學(xué)習(xí)器ht,c. 保存結(jié)果模型ht;4.通過投票法,將各個弱學(xué)習(xí)器通過投票法集合成最終的強學(xué)習(xí)器。 SVM算法早在上世紀(jì)60年代,以數(shù)學(xué)家Vladimir N. Vapnik等為代表的學(xué)派就注意到了經(jīng)典統(tǒng)計數(shù)學(xué)的這一弱點,并開始努力建立一套能保證從有限樣本得出預(yù)報能力最強的數(shù)學(xué)模型。在SLT理論研究的基礎(chǔ)上,又于1992年和1995年先后提出支持向量機(Support Vector Machine,簡稱SVM)算法支持向量分類(Support Vector Classification,簡稱SVC)算法和支持向量回歸(Support Vector Regression,簡稱SVR)算法?,F(xiàn)今,SVM算法已經(jīng)得到了國際數(shù)據(jù)挖掘?qū)W術(shù)界的重視,并在語音識別、文字識別、藥物設(shè)計、組合化學(xué)、時間序列預(yù)測、蛋白質(zhì)研究等多個研究領(lǐng)域取得了成功的應(yīng)用,該方法從嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)理論出發(fā),論證和實現(xiàn)了在小樣本情況下能最大限度地提高預(yù)報可靠性的方法,其研究成果令人鼓舞。近十年來,有限樣本情況下的機器學(xué)習(xí)理論逐漸成熟起來,形成了一個較完善的統(tǒng)計學(xué)習(xí)理論體系。在這種情況下,試圖從更本質(zhì)上研究機器學(xué)習(xí)的統(tǒng)計學(xué)習(xí)理論體系逐步得到重視。 統(tǒng)計學(xué)習(xí)理論系統(tǒng)地研究了對于各種類型的函數(shù)集,經(jīng)驗風(fēng)險和實際風(fēng)險之間的關(guān)系,即推廣性的界。這一結(jié)論從理論上說明了學(xué)習(xí)機器的實際風(fēng)險由兩部分組成:一部分是經(jīng)驗風(fēng)險。機器學(xué)習(xí)過程不但要使經(jīng)驗風(fēng)險最小,還要使VC維盡量小以縮小置信范圍,才能取得較小的實際風(fēng)險,從而對未來樣本有較好的推廣性。事實上,在傳統(tǒng)方法中,選擇學(xué)習(xí)模型和算法的過程就是調(diào)整置信范圍的過程,如果模型比較適合現(xiàn)有的訓(xùn)練樣本,則可以取得比較好的效果。統(tǒng)計學(xué)習(xí)理論提出了一種新的策略,即結(jié)構(gòu)風(fēng)險最小化((Structural Risk Mininimation, SRM)原則,把函數(shù)集構(gòu)造為一個函數(shù)子集序列,使各個子集按照VC維的大小排列,在每個子集中尋找最小經(jīng)驗風(fēng)險,在子集間折衷考慮經(jīng)驗風(fēng)險和置信范圍,以取得實際風(fēng)險的最小。顯然這種方法比較費時,當(dāng)子集數(shù)目很大甚至無窮時不可行。支持向量機方法實際上就是這種思想的具體實現(xiàn)。圖中空心圓點和實心圓點分別表示兩類訓(xùn)練樣本,H為把兩類沒有錯誤地分開的分類線,H1和H2分別表示兩類樣本中距離分類線最近的點且平行于分類線的直線,H1和H2之間的距離叫作兩類的分類空隙或分類間隔。前者是保證經(jīng)驗風(fēng)險最小,而后者是使真實風(fēng)險最小。HH1H2首先從最為簡單的線性可分的情況入手。兩類樣本的分類空隙(Margin)的間隔大小為: ()因此,最優(yōu)分類面問題可以表示成如下的約束優(yōu)化問題,即在條件()的約束下,求函數(shù) ()的最小值。把式()分別對w、b、求偏微分并令它們等于0,得:  以上三式加上原約束條件可以把原問題轉(zhuǎn)化為如下凸二次規(guī)劃的對偶問題: ()這是一個不等式約束下二次函數(shù)機制問題,存在唯一最優(yōu)解??捎杉s束條件求解,由此求得的最優(yōu)分類函數(shù)是 : ()為符號函數(shù)。為此,引入以下目標(biāo)函數(shù): ()其中C是一個大于零的常數(shù),稱為可調(diào)參數(shù),此時SVM仍可以通過二次規(guī)劃(對偶規(guī)劃)來實現(xiàn): () 支持向量回歸算法 ε不敏感損失函數(shù) 進行建模的訓(xùn)練樣本數(shù)據(jù)中,必然攜帶有誤差,只是其大小不同而已。這是以往回歸方法的一個缺點也是一個難點。若將擬合的數(shù)學(xué)模型表達為多維空間的某一曲線,則根據(jù)不敏感損失函數(shù)所得的結(jié)果就是包絡(luò)該曲線和訓(xùn)練點的“ 管道”。這一部分訓(xùn)練樣本稱為“支持向量”。此法誠然有效,但由此增加的可調(diào)參數(shù)未免增加了過擬合的風(fēng)險。用核函數(shù)代替線性方程中的線性項可以使原來的線性算法“非線性化”,即能作非線性回歸。支持向量 支持向量超曲面回歸超平面支持向量 支持向量回歸示意圖不敏感損失函數(shù)可以表示如下: () 線性回歸情況設(shè)樣本集為:,回歸函數(shù)用下列線性方程來表示: ()最佳回歸函數(shù)通過求下列函數(shù)的最小極值得出: ()其中C是設(shè)定的可調(diào)參數(shù)值,為松弛變量的上限與下限。運用核函數(shù)可以避免模式升維可能產(chǎn)生的“維數(shù)災(zāi)難”,即通過運用一個非敏感性損耗函數(shù),非線性SVR的解即可通過下面方程求出: ()其約束條件為: ()由此可得拉格朗日待定系數(shù)和,回歸函數(shù) 則為: ()從以上方程的形式上可以看出,數(shù)學(xué)上它還是一個解決二次規(guī)劃的問題。 支持向量機核函數(shù)在推導(dǎo)分類算法之前,其實是假設(shè)了分類超平面存在于原始特征空間中。分類函數(shù)形式上類似于一個神經(jīng)網(wǎng)絡(luò),輸出的是若干中間層節(jié)點的線性組合,而每一個中間層節(jié)點對應(yīng)于輸入樣本與一個支持向量的內(nèi)積,因此也被叫做支持向量網(wǎng)絡(luò)。由于最終判別函數(shù)中只包含未知向量與支持向量內(nèi)積的線性組合,因此識別時的計算復(fù)雜度取決于支持向量個數(shù)。(3)S形核函數(shù)(Sigmoid Kernel Function, SKF),即。 本章小結(jié) 本章主要介紹了本文工作中用到的常見的幾種機器學(xué)習(xí)算法的原理和實現(xiàn)算法:、隨機決策樹算法以及隨機森林算法;最有影響力的兩種集成算法,即AdaBoost與Bagging算法;應(yīng)用極為廣泛的支持向量機算法。有時候,把若干算法結(jié)合起來應(yīng)用往往會取得意想不到的好效果。生物信息學(xué)的一個主要內(nèi)容就是給這些序列進行注釋[53,54],描述每一個蛋白質(zhì)的功能成為了后基因組時代重大挑戰(zhàn)之一。而這其中重要的一環(huán)就是確定每個蛋白質(zhì)的亞細(xì)胞定位。為了行使它們的功能,這些蛋白質(zhì)將被分別輸送到細(xì)胞的某些指定區(qū)域或細(xì)胞器,該過程就稱之為亞細(xì)胞定位。但基于實驗的方法所獲得的定位結(jié)果具有主觀性和多變性,且實驗確定蛋白質(zhì)亞細(xì)胞定位是一個費時且耗費巨資的工作。例如,2007年3月發(fā)布的Swiss–(),總共包含260175條蛋白質(zhì)序列。但是,對于這133653條蛋白質(zhì)序列,只有49367條是通過實驗手段明確注釋,而84285條為用不明確字段如“可能的”、“潛在的”、“也許的”所注釋。[56]在所有的蛋白質(zhì)序列中,只有大約20%擁有可靠的亞細(xì)胞定位注釋。為了及時的利用這些新發(fā)現(xiàn)的蛋白質(zhì)序列進行基礎(chǔ)研究或藥物設(shè)計,急需一種高效的預(yù)報方法來填平這道溝壑。細(xì)胞不僅是有機體的基本結(jié)構(gòu)單位,而且是有機體生長、發(fā)育、繁殖與進化的基礎(chǔ)。細(xì)胞既是構(gòu)成統(tǒng)一機體的成員,受到機體整體活動的制約,又是生命活動的獨立單位。根據(jù)進化程度與結(jié)構(gòu)的復(fù)雜程度,可將細(xì)胞劃為原核細(xì)胞(prokaryotic)和真核細(xì)胞(eukaryotic)兩大類。原核細(xì)胞的增殖是以直接分裂為主,沒有真核細(xì)胞那樣明顯的細(xì)胞周期各階段;同時原核細(xì)胞的DNA復(fù)制、RNA轉(zhuǎn)錄及蛋白質(zhì)合成是同時連續(xù)進行的,而真核細(xì)胞則具有嚴(yán)格的階段性、區(qū)域性的特點。除了細(xì)胞質(zhì)中各種由膜系統(tǒng)分隔的重要細(xì)胞器外,由于真核細(xì)胞的結(jié)構(gòu)與功能的復(fù)雜化,真核細(xì)胞的遺傳信息量較原核細(xì)胞大大增多。真核細(xì)胞最主要的特點是,細(xì)胞內(nèi)由膜間隔成了許多功能區(qū),最明顯的是細(xì)胞含有由膜圍成的細(xì)胞核,另外還有由膜圍成的細(xì)胞器,如線粒體、葉綠體、內(nèi)質(zhì)網(wǎng)、高爾基體、溶酶體等。內(nèi)膜系統(tǒng)將細(xì)胞質(zhì)分割成了一些區(qū)間,即所謂的分區(qū)化。線粒體則承擔(dān)了一些特殊功能,例如,氧化磷酸化作用主要集中在線粒體中進行。 亞細(xì)胞定位示意圖圖中給出了12類蛋白質(zhì)亞細(xì)胞定位:(1) 葉綠體(chloroplast), (2) 細(xì)胞質(zhì)(cytoplasm), (3) 細(xì)胞骨架(cytoskeleton), (4) 內(nèi)質(zhì)網(wǎng)(endoplasmic raticulum), (5) 細(xì)胞外(extracell), (6) 高爾基體(Golgi apparatus), (7) 溶酶體(lysosomal), (8) 線粒體(mitochondrial), (9) 細(xì)胞核(nuclear), (10) 過氧化物酶體(peroxisomal), (11) 原生質(zhì)膜(plasma membrane), (12) 液泡(vacuole)。葉綠體也含有自身的DNA,也是細(xì)胞內(nèi)的一種半自主性細(xì)胞器。對于一個真核細(xì)胞來說,其細(xì)胞質(zhì)又包括液態(tài)的細(xì)胞質(zhì)基質(zhì),各種細(xì)胞器和各種內(nèi)含物。它不僅在維持細(xì)胞形態(tài)、承受外力、保持細(xì)胞內(nèi)部結(jié)構(gòu)的有序性方面起重要作用,而且還參與細(xì)胞運動、物質(zhì)運輸、能量轉(zhuǎn)換、信息傳遞、細(xì)胞分裂、基因表達、細(xì)胞分化等重要的生命活動。在肌肉細(xì)胞中,細(xì)胞骨架和它的結(jié)合蛋白組成動力系統(tǒng)。4. 內(nèi)質(zhì)網(wǎng)(endoplasmic raticulum):絕大多數(shù)植物和動物的細(xì)胞內(nèi)都有內(nèi)質(zhì)網(wǎng),它是由膜結(jié)構(gòu)連接而成的網(wǎng)狀物,廣泛地分布在細(xì)胞質(zhì)基質(zhì)內(nèi)。它在細(xì)胞中具有多種重要功能,對細(xì)胞的多種重要蛋白的合成和修飾加工,轉(zhuǎn)運或輸出細(xì)胞以及對幾乎全部脂類的合成都起著重要作用。5. 細(xì)胞外(extracell):是指分布于細(xì)胞外空間,由細(xì)胞分泌的蛋白和多糖所構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)。6. 高爾基體(Golgi apparatus):它主要功能是將內(nèi)質(zhì)網(wǎng)合成的多種蛋白質(zhì)進行加工、分類與包裝,然后分門別類地運送到細(xì)胞特定的部位或分泌到細(xì)胞外。此外高爾基體還是細(xì)胞內(nèi)糖類合成的工廠在細(xì)胞生命活動中起多種重要的作用。在酸性條件下,溶酶體對蛋白質(zhì)、膚、糖、中性脂質(zhì)、糖脂、糖蛋白、核酸等多種物質(zhì)起水解作用,這對于維持細(xì)胞的正常代謝活動及防御微生物侵染都有重要意義。在線粒體中,通過氧化磷酸化作用進行能量轉(zhuǎn)換,為細(xì)胞的各項活動提供了能量。此外,在人類細(xì)胞的死亡過程中,無論凋亡還是壞死都與線粒體有關(guān),因此它是新藥的一個主要靶體。它是基因復(fù)制、RNA轉(zhuǎn)錄以及合成蛋白質(zhì)的場所,是細(xì)胞生命活動的控制中心。它是一種異質(zhì)性的細(xì)胞器,不同生物的細(xì)胞中,甚至單細(xì)胞生物的不同個體中所含酶的種類及其行使的功能都有所不同。此外,細(xì)胞所必需的養(yǎng)分的吸收和代謝產(chǎn)物的排出,都要通過細(xì)胞膜。這是細(xì)胞膜最基本的功能之一。植物液泡里含有多種礦物質(zhì)、糖、有機酸以及其它水溶性化合物?;?、葉、果實的顏色,除綠色以外,其它如藍(lán)色、紅色和黃色等都由于液泡中各種高濃度色素所引起的。研究表明,蛋白質(zhì)的功能與其亞細(xì)胞位置密切相關(guān),新合成的蛋白質(zhì)必須處于合適的亞細(xì)胞定位才能正確行使其功能[60]。研究表明[6163],蛋白質(zhì)輸送失敗是幾種人類疾病產(chǎn)生的重要因素,如癌癥和老年癡呆癥(Alzheimer’s disease)
點擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1