freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

機器學習算法在生物信息學中的應用 畢業(yè)論文(文件)

2025-04-25 03:36 上一頁面

下一頁面
 

【正文】 類精度即樹的強度S,和這些樹之間的相互依賴程度。 集成學習算法概述 在機器學習領域,最早的集成學習方法是Bayesian Averaging。正是這一超乎人們直覺的結果,使得集成學習引起了很多學者的重視。在1995年,F(xiàn)reund和Schapire[46]做了進一步工作,提出了AdBaoost算法,該算法不再要求事先知道泛化下界,可以非常容易的應用到實際的問題中去。在集成學習的早期研究中,狹義定義采用得比較多,而隨著該領域的發(fā)展,越來越多的學者傾向于接受廣義定義。這種方法比較適用于輸入變量集高度冗余的時候,否則的話,選取一個屬性子集,會影響單個算法的性能,最終影響集成的結果。在這種構成方法中,用于集成的每個算法所對應的訓練數(shù)據(jù)都是原來訓練數(shù)據(jù)的一個子集。如神經(jīng)網(wǎng)絡、決策樹。而且,由于這些算法操作過程的解釋性很差,對于算法參數(shù)的選擇沒有確定的規(guī)則可依。機器學習的一個重要目標就是對新的測試樣本盡可能給出最精確的估計。有些學習算法單一的預測結果時好時壞,不具有穩(wěn)定性,不能一直保持高精度的預測。也許我們選擇的模型能夠很好的解釋訓練數(shù)據(jù)集合,但是卻不能很好的解釋測試數(shù)據(jù)或者其它數(shù)據(jù),也就是說這個模型過于精細的刻畫了訓練數(shù)據(jù),對于測試數(shù)據(jù)或者其它新的數(shù)據(jù)泛化能力不強,這種現(xiàn)象就稱為過擬合。但是這些操作參數(shù)的選取沒有確定性的規(guī)則可以依據(jù),只能憑借經(jīng)驗來選取,對于非專業(yè)的一般操作人員會有一定的難度。這兩種算法也是被研究得最多的,它們都是通過改造訓練樣本集來構造集成學習算法。如果兩者等價,那么在學習概念時,只要找到一個比隨機猜測略好的弱學習算法,就可以將其提升為強學習算法,而不必直接去找通常情況下很難獲得的強學習算法。這樣,新網(wǎng)絡將能夠很好地處理對己有網(wǎng)絡來說很困難的示例。 Boosting算法介紹 Boosting[49]方法總的思想是學習一系列分類器,在這個系列中每一個分類器對它前一個分類器導致的錯誤分類例子給予更大的重視。在這個過程中,每個訓練示例被賦予一個相應的權值,如果一個訓練示例被分類器錯誤分類,那么就相應增加該例子的權值,使得在下一次學習中,分類器對該樣本示例代表的情況更加重視。已經(jīng)有理論證明任何弱分類算法都能夠被有效地轉變或者提升為強學習分類算法。n 將h1和h2都分錯了的數(shù)據(jù)加上其它的新數(shù)據(jù)構成另一個新的有N個訓練數(shù)據(jù)的樣本,通過對這個樣本的學習得到第三個弱分類器h3。2. 如何將訓練得到的各個弱分類器聯(lián)合起來形成強分類器。AdaBoost算法是Freund和schapire[46]根據(jù)在線分配算法提出的,他們詳細分析了Adbaoost算法錯誤率的上界ε,以及為了使強分類器達到錯誤率ε,算法所需要的最多迭代次數(shù)等相關問題。對于h1分類錯誤的樣本,加大其對應的權重。 給定訓練樣本集, AdaBoost 用一個弱分類器或基本學習分類器循環(huán)T次,每一個訓練樣本用一個統(tǒng)一的初始化權重來標注, ()在公式()中 , L 為正確分類樣本數(shù), M為錯誤分類樣本數(shù). 訓練的目標是尋找一個優(yōu)化分類器ht,使之成為一個強分類器。具體的權重修改規(guī)則描敘如下: (..) 其中,Zt是標準化因子,ht是基本分類器,而是顯性地降低ht重要性地一個參數(shù),是數(shù)據(jù)點在如下函數(shù)中的函數(shù)邊界: () 其中,是在t次循環(huán)中訓練實例i地貢獻權重[51,52], 等價于公式()中的初始權重。 Bagging算法 Bagging 算法的提出 Breiman在1996年提出了與Boosting相似的技術—Bagging[46]。Bagging通過重新選取訓練集增加了分量學習器集成的差異度,從而提高了泛化能力。Bagging與Boosting的區(qū)別在于Bagging對訓練集的選擇是隨機的,各輪訓練集之間相互獨立,而Boosting對訓練集的選擇不是獨立的,各輪訓練集的選擇與前面各輪的學習結果有關。 Bagging算法描述 給定一個數(shù)據(jù)集,基本學習器為。這就要使用學習器序列。Bagging的算法流程如下:1.給定訓練樣本集。通過三十余年的嚴謹數(shù)學理論研究,提出了“統(tǒng)計學習理論”(Statistical Learning Theory,簡稱SLT)。 統(tǒng)計學習理論 Vapnik等人早在20世紀60年代就開始研究有限樣本情況下的機器學習問題,但這些研究長期沒有得到充分的重視。1992—1995年,Vapnik等在統(tǒng)計學習理論的基礎上發(fā)展了SVM算法,在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應用到函數(shù)擬合等其它機器學習問題。另一部分稱為置信范圍,它和學習機器的VC維h及訓練樣本數(shù)n有關。但因為缺乏理論指導,這種選擇主要依賴先驗知識和經(jīng)驗,造成了如神經(jīng)網(wǎng)絡等方法對使用者“技巧”的過分依賴。第二種思路是設計函數(shù)集的某種結構使每個子集中都能取得最小的經(jīng)驗風險,然后只需選擇適當?shù)淖蛹怪眯欧秶钚?,則這個子集中使經(jīng)驗風險最小的函數(shù)就是最優(yōu)函數(shù)。所謂最優(yōu)分類線就是要求分類線不僅能將兩類無錯誤地分開,而且要使兩類空隙最大。d維空間中線性判別函數(shù)的一般形式為,分類面方程是,將判別函數(shù)進行歸一化,使兩類所有樣本都滿足,此時離分類面最近的樣本,而要求分類面對所有樣本都能正確分類,就是要求它滿足 ()式(47)中使等號成立的那些樣本叫做支持向量(Support Vectors)。若為最優(yōu)解,則: ()不為零的樣本即為支持向量,因此,最優(yōu)分類面的權系數(shù)向量是支持向量的線性組合。在回歸建模過程中,許多傳統(tǒng)的化學計量學算法往往將有限樣本數(shù)據(jù)中的誤差也擬合進數(shù)學模型。在所有樣本點中,只有分布在“管壁”上的那一部分樣本點決定管道的位置。SVR采用核函數(shù)解決這一矛盾。Vapnik提出運用下列不敏感損失函數(shù): ()通過下面的優(yōu)化方程: ()在下列約束條件:下求解: ()由此可得拉格朗日方程的待定系數(shù)和,從而得回歸系數(shù)和常數(shù)項:         () 非線性回歸情況 類似于分類問題,一個非線性模型通常需要足夠的模型數(shù)據(jù),與非線性SVC方法相同,一個非線性映射可將數(shù)據(jù)映射到高維的特征空間中,在其中就可以進行線性回歸。若在原始空間中的簡單超平面不能得到滿意的分類效果(這當然是很可能的,普遍的非線性情況往往如此),則必須從原始特征空間升維至更高維的空間,以更復雜的超曲面作為分界面,那么SVM算法是如何求得這一復雜超曲面的呢?首先通過非線性變換將輸入空間變換到一個高維空間(保證在此空間樣本已經(jīng)線性可分),然后在這個新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當?shù)暮撕瘮?shù)(內積函數(shù))實現(xiàn)的,令: ()用核函數(shù)代替最優(yōu)分類平面中的點積,就相當于把原特征空間變換到了某一新的特征空間,此時優(yōu)化函數(shù)變?yōu)椋? ()而相應的判別函數(shù)式則為: ()其中為支持向量,為未知向量,()式就是SVM分類器。目前常用的核函數(shù)形式主要有以下三類,它們都與已有的算法有對應關系:(1)多項式形式的核函數(shù)(Polynomial Kernel Function,PKF),即,對應SVM是一個q階多項式分類器;(2)徑向基形式的核函數(shù)(RadialBasis Kernel Function, RKF),即,對應SVM是一種徑向基函數(shù)分類器。每個算法都有各自的優(yōu)點和缺點,都有各自具有優(yōu)勢的應用領域。蛋白質組學試圖尋找蛋白質在細胞中可能扮演的角色,如代謝途徑和交互網(wǎng)絡,并為細胞環(huán)境中蛋白質之間的相互作用及其行使的功能提供可靠的注釋。傳統(tǒng)利用實驗對其進行定位的方法大致有以下三種:1)細胞分餾法;2)電子顯微法;3)熒光顯微法等[55]。除去那些被注釋為“碎片”或氨基酸數(shù)目少于50的殘渣,剩余247263條,其中133652條有亞細胞定位注釋。隨著后基因時代基因產品的泛濫,可以預期新發(fā)現(xiàn)的蛋白質序列與它們的亞細胞定位知識之間的溝壑會繼續(xù)擴大。在每一個細胞中,都包含著全套的遺傳信息,即包含著遺傳的全能性。它們在形態(tài)結構上存在著明顯的差異,同時在一些生命活動上也存在本質性差異。遺傳信息重復序列與染色體多倍性,也是真核細胞區(qū)別于原核細胞的另一重大標志[59]。分區(qū)化是細胞進化高等的特征,它使細胞的代謝活動比原核細胞大為提高。它們的功能如下:1. 葉綠體(chloroplast):在植物細胞和光合真菌中的另一種能量轉換細胞器。3. 細胞骨架(cytoskeleton):指真核細胞中的蛋白纖維網(wǎng)絡體系。另外,在植物細胞中細胞骨架指導細胞壁的合成。內質網(wǎng)膜是大部分細胞器以及質膜的所有跨膜蛋白及脂類合成的場所,也是蛋白質的運輸通道。內質網(wǎng)上合成的脂類一部分也要通過高爾基體向細胞質膜和溶酶體膜等部位運輸,因此可以說,高爾基體是細胞內大分子運輸?shù)囊粋€主要的交通樞紐。8. 線粒體(mitochondrial):線粒體是細胞中重要和獨特的細胞器,它普遍存在于真核細胞中,是進行呼吸作用的主要細胞器。9. 細胞核(nuclear):它是細胞內最大的細胞器,載有全部基因的染色體,含有完整的遺傳物質,從根本上控制著細胞的生命。11. 原生質膜(plasma membrane):又稱細胞外膜,是細胞的重要組成部分,它最基本的作用是維持細胞內微環(huán)境的相對穩(wěn)定,并與外界環(huán)境不斷地進行物質交換,能量和信息的傳遞,對細胞的生存、生長、分裂、分化都至關重要,維持了正常的生命活動。12. 液泡(vacuole):液泡是細胞質中一種泡狀結構的細胞器,外有液泡膜與細胞質分開,內含水樣的細胞液。植物中的液泡是細胞的代謝庫,起調節(jié)細胞內環(huán)境的作用,還具有壓力滲透計的作用,使細胞保持膨脹狀態(tài)??梢哉f,蛋白質的亞細胞定位是研究蛋白質功能。因此,一個蛋白質能否正確地被輸送到相應的亞細胞定位對其行使功能是至關重要的。同時還包含一些色素,如花青素。所以,原生質膜的這種選擇性地讓某些分子進入或排出細胞的特性,叫做選擇滲透性。10. 過氧化物酶體(peroxisomal):它是由單層膜圍繞的、內含一種或幾種氧化酶類的細胞器,是合成膽固醇和髓鞘的地方。因而可以說,線粒體是細胞能量代謝的中心,是細胞內的“動力工廠”。7. 溶酶體(lysosomal):它的基本功能是對生物大分子的強烈消化作用,是細胞內重要的消化器官。細胞外基質對細胞存活和死亡起決定性作用,細胞外基質還有決定細胞形狀,控制細胞增殖和細胞分化,參與細胞遷移和促進創(chuàng)傷修復的作用。內質網(wǎng)增大了細胞內的膜面積,膜上附著很多種酶,為細胞內各種化學反應的正常進行提供了有利條件。例如,在細胞分裂中細胞骨架牽引染色體分離,在細胞物質運輸中,各類小泡和細胞器可沿著細胞骨架定向轉運。2. 細胞質(cytoplasm):指細胞膜內除細胞核以外的成份。植物細胞的光合作用則集中在葉綠體中進行。其中核膜、內質網(wǎng)、高爾基體、溶酶體等在結構上形成了一個連續(xù)的體系,稱為內膜系統(tǒng)。從進化的角度看,真核細胞是以膜系統(tǒng)分化為基礎,具有核質的分化。細胞作為一個形態(tài)整體,結構精密,而且在生長、發(fā)育、分化和生理活動中細胞的結構不斷發(fā)生變化,因而要把細胞看作是一個動態(tài)的結構體系[57,58]。[56] 蛋白質亞細胞定位的生物學基礎自從17世紀發(fā)現(xiàn)細胞以后,經(jīng)過170余年才認識到細胞是一切生物體進行生命活動的基本結構和功能單位。實際上,這種不明確注釋數(shù)據(jù)并不能作為一個嚴謹?shù)挠柧殧?shù)據(jù)集來訓練可靠的預報器,對這些數(shù)據(jù)進行明確注釋也是新的預報器或實驗檢測工作的新目標。隨著基因組學的發(fā)展,生物數(shù)據(jù)庫中蛋白質序列數(shù)據(jù)信息急劇膨脹[56]。生命的中心法則指出,遺傳信息傳遞的主要途徑是由位于細胞核內的脫氧核糖核酸(DNA)經(jīng)過轉錄調控和加工調控傳遞信使核糖核酸(mRNA);再由信使核糖核酸經(jīng)過轉運調控從細胞核進入到細胞質中;最后在細胞質中經(jīng)過翻譯控制合成具有特定功能的蛋白質。 第三章 用集成學習算法預測亞細胞定位大規(guī)?;蚪M和蛋白質組的研究導致不斷增長的海量序列數(shù)據(jù)的出現(xiàn)。則SVM實現(xiàn)的就是一個兩層的感知器神經(jīng)網(wǎng)絡,只是在這里,與一般人工神經(jīng)網(wǎng)絡不同的是,不但網(wǎng)絡的權值,而且網(wǎng)絡的隱層節(jié)點數(shù)目也是由算法自動確定的。 支持向量網(wǎng)絡示意圖事實上,:,訓練后產生了s個支持向量(以下標標識),于是形成了s個網(wǎng)絡節(jié)點(與人工神經(jīng)網(wǎng)絡類似,輸入層節(jié)點與“支持向量節(jié)點”之間,“支持向量節(jié)點”與輸出層節(jié)點之間都有“權重”),綜合起來就組成支持向量網(wǎng)絡。只不過,較分類時更復雜,變量更多,運算量也更大而已。與此同時,引進核函數(shù)達到了“升維”的目的,而增加的可調參數(shù)卻很少,于是過擬合仍能控制。為適應訓練樣本集的非線性,傳統(tǒng)的擬合方法通常是在線性方程后面加上高階項。SVR算法()的基礎主要是 不敏感損失函數(shù)( insensitive function)和核函數(shù)算法。當用一個超平面不能把兩類點完全分開時(只有少數(shù)點被錯分),可以引入松弛變量(≥0, ),使超平面滿足:      ()當01時樣本點仍被正確分類,而當≥1時樣本點被錯分。為此,可以定義如下的Lagrange函數(shù): ()其中,為Lagrange系數(shù),我們的問題是對w和b求Lagrange函數(shù)的最小值。推廣到高維空間,最優(yōu)分類線就成為最優(yōu)分類面。 支持向量分類算法 最優(yōu)分類面 支持向量機方法是從線性可分情況下的最優(yōu)分類面提出的。實現(xiàn)SRM原則有兩種思路,一種是在每個子集中求最小經(jīng)驗風險,然后選擇使最小經(jīng)驗風險和置信范圍之和最小的子集。由此可見,經(jīng)驗風險最小化(Empirical Risk Minimization, ERM)原則在樣本有限時是不合理的。關于兩類分類問題,指出了對指示函數(shù)集中的所有函數(shù),經(jīng)驗風險和實際風險之間以至少的概率滿足如下關系: ()其中h是函數(shù)集的VC維,n是樣本數(shù)。而同時,神經(jīng)網(wǎng)絡等較新興的機器學習方法的研究則遇到一些重要的困難,比如如何
點擊復制文檔內容
化學相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1