freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用 畢業(yè)論文(文件)

 

【正文】 類精度即樹的強(qiáng)度S,和這些樹之間的相互依賴程度。 集成學(xué)習(xí)算法概述 在機(jī)器學(xué)習(xí)領(lǐng)域,最早的集成學(xué)習(xí)方法是Bayesian Averaging。正是這一超乎人們直覺的結(jié)果,使得集成學(xué)習(xí)引起了很多學(xué)者的重視。在1995年,F(xiàn)reund和Schapire[46]做了進(jìn)一步工作,提出了AdBaoost算法,該算法不再要求事先知道泛化下界,可以非常容易的應(yīng)用到實(shí)際的問題中去。在集成學(xué)習(xí)的早期研究中,狹義定義采用得比較多,而隨著該領(lǐng)域的發(fā)展,越來越多的學(xué)者傾向于接受廣義定義。這種方法比較適用于輸入變量集高度冗余的時(shí)候,否則的話,選取一個(gè)屬性子集,會(huì)影響單個(gè)算法的性能,最終影響集成的結(jié)果。在這種構(gòu)成方法中,用于集成的每個(gè)算法所對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)都是原來訓(xùn)練數(shù)據(jù)的一個(gè)子集。如神經(jīng)網(wǎng)絡(luò)、決策樹。而且,由于這些算法操作過程的解釋性很差,對(duì)于算法參數(shù)的選擇沒有確定的規(guī)則可依。機(jī)器學(xué)習(xí)的一個(gè)重要目標(biāo)就是對(duì)新的測(cè)試樣本盡可能給出最精確的估計(jì)。有些學(xué)習(xí)算法單一的預(yù)測(cè)結(jié)果時(shí)好時(shí)壞,不具有穩(wěn)定性,不能一直保持高精度的預(yù)測(cè)。也許我們選擇的模型能夠很好的解釋訓(xùn)練數(shù)據(jù)集合,但是卻不能很好的解釋測(cè)試數(shù)據(jù)或者其它數(shù)據(jù),也就是說這個(gè)模型過于精細(xì)的刻畫了訓(xùn)練數(shù)據(jù),對(duì)于測(cè)試數(shù)據(jù)或者其它新的數(shù)據(jù)泛化能力不強(qiáng),這種現(xiàn)象就稱為過擬合。但是這些操作參數(shù)的選取沒有確定性的規(guī)則可以依據(jù),只能憑借經(jīng)驗(yàn)來選取,對(duì)于非專業(yè)的一般操作人員會(huì)有一定的難度。這兩種算法也是被研究得最多的,它們都是通過改造訓(xùn)練樣本集來構(gòu)造集成學(xué)習(xí)算法。如果兩者等價(jià),那么在學(xué)習(xí)概念時(shí),只要找到一個(gè)比隨機(jī)猜測(cè)略好的弱學(xué)習(xí)算法,就可以將其提升為強(qiáng)學(xué)習(xí)算法,而不必直接去找通常情況下很難獲得的強(qiáng)學(xué)習(xí)算法。這樣,新網(wǎng)絡(luò)將能夠很好地處理對(duì)己有網(wǎng)絡(luò)來說很困難的示例。 Boosting算法介紹 Boosting[49]方法總的思想是學(xué)習(xí)一系列分類器,在這個(gè)系列中每一個(gè)分類器對(duì)它前一個(gè)分類器導(dǎo)致的錯(cuò)誤分類例子給予更大的重視。在這個(gè)過程中,每個(gè)訓(xùn)練示例被賦予一個(gè)相應(yīng)的權(quán)值,如果一個(gè)訓(xùn)練示例被分類器錯(cuò)誤分類,那么就相應(yīng)增加該例子的權(quán)值,使得在下一次學(xué)習(xí)中,分類器對(duì)該樣本示例代表的情況更加重視。已經(jīng)有理論證明任何弱分類算法都能夠被有效地轉(zhuǎn)變或者提升為強(qiáng)學(xué)習(xí)分類算法。n 將h1和h2都分錯(cuò)了的數(shù)據(jù)加上其它的新數(shù)據(jù)構(gòu)成另一個(gè)新的有N個(gè)訓(xùn)練數(shù)據(jù)的樣本,通過對(duì)這個(gè)樣本的學(xué)習(xí)得到第三個(gè)弱分類器h3。2. 如何將訓(xùn)練得到的各個(gè)弱分類器聯(lián)合起來形成強(qiáng)分類器。AdaBoost算法是Freund和schapire[46]根據(jù)在線分配算法提出的,他們?cè)敿?xì)分析了Adbaoost算法錯(cuò)誤率的上界ε,以及為了使強(qiáng)分類器達(dá)到錯(cuò)誤率ε,算法所需要的最多迭代次數(shù)等相關(guān)問題。對(duì)于h1分類錯(cuò)誤的樣本,加大其對(duì)應(yīng)的權(quán)重。 給定訓(xùn)練樣本集, AdaBoost 用一個(gè)弱分類器或基本學(xué)習(xí)分類器循環(huán)T次,每一個(gè)訓(xùn)練樣本用一個(gè)統(tǒng)一的初始化權(quán)重來標(biāo)注, ()在公式()中 , L 為正確分類樣本數(shù), M為錯(cuò)誤分類樣本數(shù). 訓(xùn)練的目標(biāo)是尋找一個(gè)優(yōu)化分類器ht,使之成為一個(gè)強(qiáng)分類器。具體的權(quán)重修改規(guī)則描敘如下: (..) 其中,Zt是標(biāo)準(zhǔn)化因子,ht是基本分類器,而是顯性地降低ht重要性地一個(gè)參數(shù),是數(shù)據(jù)點(diǎn)在如下函數(shù)中的函數(shù)邊界: () 其中,是在t次循環(huán)中訓(xùn)練實(shí)例i地貢獻(xiàn)權(quán)重[51,52], 等價(jià)于公式()中的初始權(quán)重。 Bagging算法 Bagging 算法的提出 Breiman在1996年提出了與Boosting相似的技術(shù)—Bagging[46]。Bagging通過重新選取訓(xùn)練集增加了分量學(xué)習(xí)器集成的差異度,從而提高了泛化能力。Bagging與Boosting的區(qū)別在于Bagging對(duì)訓(xùn)練集的選擇是隨機(jī)的,各輪訓(xùn)練集之間相互獨(dú)立,而Boosting對(duì)訓(xùn)練集的選擇不是獨(dú)立的,各輪訓(xùn)練集的選擇與前面各輪的學(xué)習(xí)結(jié)果有關(guān)。 Bagging算法描述 給定一個(gè)數(shù)據(jù)集,基本學(xué)習(xí)器為。這就要使用學(xué)習(xí)器序列。Bagging的算法流程如下:1.給定訓(xùn)練樣本集。通過三十余年的嚴(yán)謹(jǐn)數(shù)學(xué)理論研究,提出了“統(tǒng)計(jì)學(xué)習(xí)理論”(Statistical Learning Theory,簡(jiǎn)稱SLT)。 統(tǒng)計(jì)學(xué)習(xí)理論 Vapnik等人早在20世紀(jì)60年代就開始研究有限樣本情況下的機(jī)器學(xué)習(xí)問題,但這些研究長(zhǎng)期沒有得到充分的重視。1992—1995年,Vapnik等在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展了SVM算法,在解決小樣本、非線性及高維模式識(shí)別問題中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其它機(jī)器學(xué)習(xí)問題。另一部分稱為置信范圍,它和學(xué)習(xí)機(jī)器的VC維h及訓(xùn)練樣本數(shù)n有關(guān)。但因?yàn)槿狈碚撝笇?dǎo),這種選擇主要依賴先驗(yàn)知識(shí)和經(jīng)驗(yàn),造成了如神經(jīng)網(wǎng)絡(luò)等方法對(duì)使用者“技巧”的過分依賴。第二種思路是設(shè)計(jì)函數(shù)集的某種結(jié)構(gòu)使每個(gè)子集中都能取得最小的經(jīng)驗(yàn)風(fēng)險(xiǎn),然后只需選擇適當(dāng)?shù)淖蛹怪眯欧秶钚?,則這個(gè)子集中使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的函數(shù)就是最優(yōu)函數(shù)。所謂最優(yōu)分類線就是要求分類線不僅能將兩類無錯(cuò)誤地分開,而且要使兩類空隙最大。d維空間中線性判別函數(shù)的一般形式為,分類面方程是,將判別函數(shù)進(jìn)行歸一化,使兩類所有樣本都滿足,此時(shí)離分類面最近的樣本,而要求分類面對(duì)所有樣本都能正確分類,就是要求它滿足 ()式(47)中使等號(hào)成立的那些樣本叫做支持向量(Support Vectors)。若為最優(yōu)解,則: ()不為零的樣本即為支持向量,因此,最優(yōu)分類面的權(quán)系數(shù)向量是支持向量的線性組合。在回歸建模過程中,許多傳統(tǒng)的化學(xué)計(jì)量學(xué)算法往往將有限樣本數(shù)據(jù)中的誤差也擬合進(jìn)數(shù)學(xué)模型。在所有樣本點(diǎn)中,只有分布在“管壁”上的那一部分樣本點(diǎn)決定管道的位置。SVR采用核函數(shù)解決這一矛盾。Vapnik提出運(yùn)用下列不敏感損失函數(shù): ()通過下面的優(yōu)化方程: ()在下列約束條件:下求解: ()由此可得拉格朗日方程的待定系數(shù)和,從而得回歸系數(shù)和常數(shù)項(xiàng):         () 非線性回歸情況 類似于分類問題,一個(gè)非線性模型通常需要足夠的模型數(shù)據(jù),與非線性SVC方法相同,一個(gè)非線性映射可將數(shù)據(jù)映射到高維的特征空間中,在其中就可以進(jìn)行線性回歸。若在原始空間中的簡(jiǎn)單超平面不能得到滿意的分類效果(這當(dāng)然是很可能的,普遍的非線性情況往往如此),則必須從原始特征空間升維至更高維的空間,以更復(fù)雜的超曲面作為分界面,那么SVM算法是如何求得這一復(fù)雜超曲面的呢?首先通過非線性變換將輸入空間變換到一個(gè)高維空間(保證在此空間樣本已經(jīng)線性可分),然后在這個(gè)新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當(dāng)?shù)暮撕瘮?shù)(內(nèi)積函數(shù))實(shí)現(xiàn)的,令: ()用核函數(shù)代替最優(yōu)分類平面中的點(diǎn)積,就相當(dāng)于把原特征空間變換到了某一新的特征空間,此時(shí)優(yōu)化函數(shù)變?yōu)椋? ()而相應(yīng)的判別函數(shù)式則為: ()其中為支持向量,為未知向量,()式就是SVM分類器。目前常用的核函數(shù)形式主要有以下三類,它們都與已有的算法有對(duì)應(yīng)關(guān)系:(1)多項(xiàng)式形式的核函數(shù)(Polynomial Kernel Function,PKF),即,對(duì)應(yīng)SVM是一個(gè)q階多項(xiàng)式分類器;(2)徑向基形式的核函數(shù)(RadialBasis Kernel Function, RKF),即,對(duì)應(yīng)SVM是一種徑向基函數(shù)分類器。每個(gè)算法都有各自的優(yōu)點(diǎn)和缺點(diǎn),都有各自具有優(yōu)勢(shì)的應(yīng)用領(lǐng)域。蛋白質(zhì)組學(xué)試圖尋找蛋白質(zhì)在細(xì)胞中可能扮演的角色,如代謝途徑和交互網(wǎng)絡(luò),并為細(xì)胞環(huán)境中蛋白質(zhì)之間的相互作用及其行使的功能提供可靠的注釋。傳統(tǒng)利用實(shí)驗(yàn)對(duì)其進(jìn)行定位的方法大致有以下三種:1)細(xì)胞分餾法;2)電子顯微法;3)熒光顯微法等[55]。除去那些被注釋為“碎片”或氨基酸數(shù)目少于50的殘?jiān)S?47263條,其中133652條有亞細(xì)胞定位注釋。隨著后基因時(shí)代基因產(chǎn)品的泛濫,可以預(yù)期新發(fā)現(xiàn)的蛋白質(zhì)序列與它們的亞細(xì)胞定位知識(shí)之間的溝壑會(huì)繼續(xù)擴(kuò)大。在每一個(gè)細(xì)胞中,都包含著全套的遺傳信息,即包含著遺傳的全能性。它們?cè)谛螒B(tài)結(jié)構(gòu)上存在著明顯的差異,同時(shí)在一些生命活動(dòng)上也存在本質(zhì)性差異。遺傳信息重復(fù)序列與染色體多倍性,也是真核細(xì)胞區(qū)別于原核細(xì)胞的另一重大標(biāo)志[59]。分區(qū)化是細(xì)胞進(jìn)化高等的特征,它使細(xì)胞的代謝活動(dòng)比原核細(xì)胞大為提高。它們的功能如下:1. 葉綠體(chloroplast):在植物細(xì)胞和光合真菌中的另一種能量轉(zhuǎn)換細(xì)胞器。3. 細(xì)胞骨架(cytoskeleton):指真核細(xì)胞中的蛋白纖維網(wǎng)絡(luò)體系。另外,在植物細(xì)胞中細(xì)胞骨架指導(dǎo)細(xì)胞壁的合成。內(nèi)質(zhì)網(wǎng)膜是大部分細(xì)胞器以及質(zhì)膜的所有跨膜蛋白及脂類合成的場(chǎng)所,也是蛋白質(zhì)的運(yùn)輸通道。內(nèi)質(zhì)網(wǎng)上合成的脂類一部分也要通過高爾基體向細(xì)胞質(zhì)膜和溶酶體膜等部位運(yùn)輸,因此可以說,高爾基體是細(xì)胞內(nèi)大分子運(yùn)輸?shù)囊粋€(gè)主要的交通樞紐。8. 線粒體(mitochondrial):線粒體是細(xì)胞中重要和獨(dú)特的細(xì)胞器,它普遍存在于真核細(xì)胞中,是進(jìn)行呼吸作用的主要細(xì)胞器。9. 細(xì)胞核(nuclear):它是細(xì)胞內(nèi)最大的細(xì)胞器,載有全部基因的染色體,含有完整的遺傳物質(zhì),從根本上控制著細(xì)胞的生命。11. 原生質(zhì)膜(plasma membrane):又稱細(xì)胞外膜,是細(xì)胞的重要組成部分,它最基本的作用是維持細(xì)胞內(nèi)微環(huán)境的相對(duì)穩(wěn)定,并與外界環(huán)境不斷地進(jìn)行物質(zhì)交換,能量和信息的傳遞,對(duì)細(xì)胞的生存、生長(zhǎng)、分裂、分化都至關(guān)重要,維持了正常的生命活動(dòng)。12. 液泡(vacuole):液泡是細(xì)胞質(zhì)中一種泡狀結(jié)構(gòu)的細(xì)胞器,外有液泡膜與細(xì)胞質(zhì)分開,內(nèi)含水樣的細(xì)胞液。植物中的液泡是細(xì)胞的代謝庫(kù),起調(diào)節(jié)細(xì)胞內(nèi)環(huán)境的作用,還具有壓力滲透計(jì)的作用,使細(xì)胞保持膨脹狀態(tài)??梢哉f,蛋白質(zhì)的亞細(xì)胞定位是研究蛋白質(zhì)功能。因此,一個(gè)蛋白質(zhì)能否正確地被輸送到相應(yīng)的亞細(xì)胞定位對(duì)其行使功能是至關(guān)重要的。同時(shí)還包含一些色素,如花青素。所以,原生質(zhì)膜的這種選擇性地讓某些分子進(jìn)入或排出細(xì)胞的特性,叫做選擇滲透性。10. 過氧化物酶體(peroxisomal):它是由單層膜圍繞的、內(nèi)含一種或幾種氧化酶類的細(xì)胞器,是合成膽固醇和髓鞘的地方。因而可以說,線粒體是細(xì)胞能量代謝的中心,是細(xì)胞內(nèi)的“動(dòng)力工廠”。7. 溶酶體(lysosomal):它的基本功能是對(duì)生物大分子的強(qiáng)烈消化作用,是細(xì)胞內(nèi)重要的消化器官。細(xì)胞外基質(zhì)對(duì)細(xì)胞存活和死亡起決定性作用,細(xì)胞外基質(zhì)還有決定細(xì)胞形狀,控制細(xì)胞增殖和細(xì)胞分化,參與細(xì)胞遷移和促進(jìn)創(chuàng)傷修復(fù)的作用。內(nèi)質(zhì)網(wǎng)增大了細(xì)胞內(nèi)的膜面積,膜上附著很多種酶,為細(xì)胞內(nèi)各種化學(xué)反應(yīng)的正常進(jìn)行提供了有利條件。例如,在細(xì)胞分裂中細(xì)胞骨架牽引染色體分離,在細(xì)胞物質(zhì)運(yùn)輸中,各類小泡和細(xì)胞器可沿著細(xì)胞骨架定向轉(zhuǎn)運(yùn)。2. 細(xì)胞質(zhì)(cytoplasm):指細(xì)胞膜內(nèi)除細(xì)胞核以外的成份。植物細(xì)胞的光合作用則集中在葉綠體中進(jìn)行。其中核膜、內(nèi)質(zhì)網(wǎng)、高爾基體、溶酶體等在結(jié)構(gòu)上形成了一個(gè)連續(xù)的體系,稱為內(nèi)膜系統(tǒng)。從進(jìn)化的角度看,真核細(xì)胞是以膜系統(tǒng)分化為基礎(chǔ),具有核質(zhì)的分化。細(xì)胞作為一個(gè)形態(tài)整體,結(jié)構(gòu)精密,而且在生長(zhǎng)、發(fā)育、分化和生理活動(dòng)中細(xì)胞的結(jié)構(gòu)不斷發(fā)生變化,因而要把細(xì)胞看作是一個(gè)動(dòng)態(tài)的結(jié)構(gòu)體系[57,58]。[56] 蛋白質(zhì)亞細(xì)胞定位的生物學(xué)基礎(chǔ)自從17世紀(jì)發(fā)現(xiàn)細(xì)胞以后,經(jīng)過170余年才認(rèn)識(shí)到細(xì)胞是一切生物體進(jìn)行生命活動(dòng)的基本結(jié)構(gòu)和功能單位。實(shí)際上,這種不明確注釋數(shù)據(jù)并不能作為一個(gè)嚴(yán)謹(jǐn)?shù)挠?xùn)練數(shù)據(jù)集來訓(xùn)練可靠的預(yù)報(bào)器,對(duì)這些數(shù)據(jù)進(jìn)行明確注釋也是新的預(yù)報(bào)器或?qū)嶒?yàn)檢測(cè)工作的新目標(biāo)。隨著基因組學(xué)的發(fā)展,生物數(shù)據(jù)庫(kù)中蛋白質(zhì)序列數(shù)據(jù)信息急劇膨脹[56]。生命的中心法則指出,遺傳信息傳遞的主要途徑是由位于細(xì)胞核內(nèi)的脫氧核糖核酸(DNA)經(jīng)過轉(zhuǎn)錄調(diào)控和加工調(diào)控傳遞信使核糖核酸(mRNA);再由信使核糖核酸經(jīng)過轉(zhuǎn)運(yùn)調(diào)控從細(xì)胞核進(jìn)入到細(xì)胞質(zhì)中;最后在細(xì)胞質(zhì)中經(jīng)過翻譯控制合成具有特定功能的蛋白質(zhì)。 第三章 用集成學(xué)習(xí)算法預(yù)測(cè)亞細(xì)胞定位大規(guī)?;蚪M和蛋白質(zhì)組的研究導(dǎo)致不斷增長(zhǎng)的海量序列數(shù)據(jù)的出現(xiàn)。則SVM實(shí)現(xiàn)的就是一個(gè)兩層的感知器神經(jīng)網(wǎng)絡(luò),只是在這里,與一般人工神經(jīng)網(wǎng)絡(luò)不同的是,不但網(wǎng)絡(luò)的權(quán)值,而且網(wǎng)絡(luò)的隱層節(jié)點(diǎn)數(shù)目也是由算法自動(dòng)確定的。 支持向量網(wǎng)絡(luò)示意圖事實(shí)上,:,訓(xùn)練后產(chǎn)生了s個(gè)支持向量(以下標(biāo)標(biāo)識(shí)),于是形成了s個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)(與人工神經(jīng)網(wǎng)絡(luò)類似,輸入層節(jié)點(diǎn)與“支持向量節(jié)點(diǎn)”之間,“支持向量節(jié)點(diǎn)”與輸出層節(jié)點(diǎn)之間都有“權(quán)重”),綜合起來就組成支持向量網(wǎng)絡(luò)。只不過,較分類時(shí)更復(fù)雜,變量更多,運(yùn)算量也更大而已。與此同時(shí),引進(jìn)核函數(shù)達(dá)到了“升維”的目的,而增加的可調(diào)參數(shù)卻很少,于是過擬合仍能控制。為適應(yīng)訓(xùn)練樣本集的非線性,傳統(tǒng)的擬合方法通常是在線性方程后面加上高階項(xiàng)。SVR算法()的基礎(chǔ)主要是 不敏感損失函數(shù)( insensitive function)和核函數(shù)算法。當(dāng)用一個(gè)超平面不能把兩類點(diǎn)完全分開時(shí)(只有少數(shù)點(diǎn)被錯(cuò)分),可以引入松弛變量(≥0, ),使超平面滿足:      ()當(dāng)01時(shí)樣本點(diǎn)仍被正確分類,而當(dāng)≥1時(shí)樣本點(diǎn)被錯(cuò)分。為此,可以定義如下的Lagrange函數(shù): ()其中,為L(zhǎng)agrange系數(shù),我們的問題是對(duì)w和b求Lagrange函數(shù)的最小值。推廣到高維空間,最優(yōu)分類線就成為最優(yōu)分類面。 支持向量分類算法 最優(yōu)分類面 支持向量機(jī)方法是從線性可分情況下的最優(yōu)分類面提出的。實(shí)現(xiàn)SRM原則有兩種思路,一種是在每個(gè)子集中求最小經(jīng)驗(yàn)風(fēng)險(xiǎn),然后選擇使最小經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍之和最小的子集。由此可見,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(Empirical Risk Minimization, ERM)原則在樣本有限時(shí)是不合理的。關(guān)于兩類分類問題,指出了對(duì)指示函數(shù)集中的所有函數(shù),經(jīng)驗(yàn)風(fēng)險(xiǎn)和實(shí)際風(fēng)險(xiǎn)之間以至少的概率滿足如下關(guān)系: ()其中h是函數(shù)集的VC維,n是樣本數(shù)。而同時(shí),神經(jīng)網(wǎng)絡(luò)等較新興的機(jī)器學(xué)習(xí)方法的研究則遇到一些重要的困難,比如如何
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1