freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用畢業(yè)論文(參考版)

2025-04-10 03:36本頁面
  

【正文】 可以說,蛋白質(zhì)的亞細(xì)胞定位是研究蛋白質(zhì)功能。因此,一個(gè)蛋白質(zhì)能否正確地被輸送到相應(yīng)的亞細(xì)胞定位對其行使功能是至關(guān)重要的。植物中的液泡是細(xì)胞的代謝庫,起調(diào)節(jié)細(xì)胞內(nèi)環(huán)境的作用,還具有壓力滲透計(jì)的作用,使細(xì)胞保持膨脹狀態(tài)。同時(shí)還包含一些色素,如花青素。12. 液泡(vacuole):液泡是細(xì)胞質(zhì)中一種泡狀結(jié)構(gòu)的細(xì)胞器,外有液泡膜與細(xì)胞質(zhì)分開,內(nèi)含水樣的細(xì)胞液。所以,原生質(zhì)膜的這種選擇性地讓某些分子進(jìn)入或排出細(xì)胞的特性,叫做選擇滲透性。11. 原生質(zhì)膜(plasma membrane):又稱細(xì)胞外膜,是細(xì)胞的重要組成部分,它最基本的作用是維持細(xì)胞內(nèi)微環(huán)境的相對穩(wěn)定,并與外界環(huán)境不斷地進(jìn)行物質(zhì)交換,能量和信息的傳遞,對細(xì)胞的生存、生長、分裂、分化都至關(guān)重要,維持了正常的生命活動(dòng)。10. 過氧化物酶體(peroxisomal):它是由單層膜圍繞的、內(nèi)含一種或幾種氧化酶類的細(xì)胞器,是合成膽固醇和髓鞘的地方。9. 細(xì)胞核(nuclear):它是細(xì)胞內(nèi)最大的細(xì)胞器,載有全部基因的染色體,含有完整的遺傳物質(zhì),從根本上控制著細(xì)胞的生命。因而可以說,線粒體是細(xì)胞能量代謝的中心,是細(xì)胞內(nèi)的“動(dòng)力工廠”。8. 線粒體(mitochondrial):線粒體是細(xì)胞中重要和獨(dú)特的細(xì)胞器,它普遍存在于真核細(xì)胞中,是進(jìn)行呼吸作用的主要細(xì)胞器。7. 溶酶體(lysosomal):它的基本功能是對生物大分子的強(qiáng)烈消化作用,是細(xì)胞內(nèi)重要的消化器官。內(nèi)質(zhì)網(wǎng)上合成的脂類一部分也要通過高爾基體向細(xì)胞質(zhì)膜和溶酶體膜等部位運(yùn)輸,因此可以說,高爾基體是細(xì)胞內(nèi)大分子運(yùn)輸?shù)囊粋€(gè)主要的交通樞紐。細(xì)胞外基質(zhì)對細(xì)胞存活和死亡起決定性作用,細(xì)胞外基質(zhì)還有決定細(xì)胞形狀,控制細(xì)胞增殖和細(xì)胞分化,參與細(xì)胞遷移和促進(jìn)創(chuàng)傷修復(fù)的作用。內(nèi)質(zhì)網(wǎng)膜是大部分細(xì)胞器以及質(zhì)膜的所有跨膜蛋白及脂類合成的場所,也是蛋白質(zhì)的運(yùn)輸通道。內(nèi)質(zhì)網(wǎng)增大了細(xì)胞內(nèi)的膜面積,膜上附著很多種酶,為細(xì)胞內(nèi)各種化學(xué)反應(yīng)的正常進(jìn)行提供了有利條件。另外,在植物細(xì)胞中細(xì)胞骨架指導(dǎo)細(xì)胞壁的合成。例如,在細(xì)胞分裂中細(xì)胞骨架牽引染色體分離,在細(xì)胞物質(zhì)運(yùn)輸中,各類小泡和細(xì)胞器可沿著細(xì)胞骨架定向轉(zhuǎn)運(yùn)。3. 細(xì)胞骨架(cytoskeleton):指真核細(xì)胞中的蛋白纖維網(wǎng)絡(luò)體系。2. 細(xì)胞質(zhì)(cytoplasm):指細(xì)胞膜內(nèi)除細(xì)胞核以外的成份。它們的功能如下:1. 葉綠體(chloroplast):在植物細(xì)胞和光合真菌中的另一種能量轉(zhuǎn)換細(xì)胞器。植物細(xì)胞的光合作用則集中在葉綠體中進(jìn)行。分區(qū)化是細(xì)胞進(jìn)化高等的特征,它使細(xì)胞的代謝活動(dòng)比原核細(xì)胞大為提高。其中核膜、內(nèi)質(zhì)網(wǎng)、高爾基體、溶酶體等在結(jié)構(gòu)上形成了一個(gè)連續(xù)的體系,稱為內(nèi)膜系統(tǒng)。遺傳信息重復(fù)序列與染色體多倍性,也是真核細(xì)胞區(qū)別于原核細(xì)胞的另一重大標(biāo)志[59]。從進(jìn)化的角度看,真核細(xì)胞是以膜系統(tǒng)分化為基礎(chǔ),具有核質(zhì)的分化。它們在形態(tài)結(jié)構(gòu)上存在著明顯的差異,同時(shí)在一些生命活動(dòng)上也存在本質(zhì)性差異。細(xì)胞作為一個(gè)形態(tài)整體,結(jié)構(gòu)精密,而且在生長、發(fā)育、分化和生理活動(dòng)中細(xì)胞的結(jié)構(gòu)不斷發(fā)生變化,因而要把細(xì)胞看作是一個(gè)動(dòng)態(tài)的結(jié)構(gòu)體系[57,58]。在每一個(gè)細(xì)胞中,都包含著全套的遺傳信息,即包含著遺傳的全能性。[56] 蛋白質(zhì)亞細(xì)胞定位的生物學(xué)基礎(chǔ)自從17世紀(jì)發(fā)現(xiàn)細(xì)胞以后,經(jīng)過170余年才認(rèn)識到細(xì)胞是一切生物體進(jìn)行生命活動(dòng)的基本結(jié)構(gòu)和功能單位。隨著后基因時(shí)代基因產(chǎn)品的泛濫,可以預(yù)期新發(fā)現(xiàn)的蛋白質(zhì)序列與它們的亞細(xì)胞定位知識之間的溝壑會(huì)繼續(xù)擴(kuò)大。實(shí)際上,這種不明確注釋數(shù)據(jù)并不能作為一個(gè)嚴(yán)謹(jǐn)?shù)挠?xùn)練數(shù)據(jù)集來訓(xùn)練可靠的預(yù)報(bào)器,對這些數(shù)據(jù)進(jìn)行明確注釋也是新的預(yù)報(bào)器或?qū)嶒?yàn)檢測工作的新目標(biāo)。除去那些被注釋為“碎片”或氨基酸數(shù)目少于50的殘?jiān)S?47263條,其中133652條有亞細(xì)胞定位注釋。隨著基因組學(xué)的發(fā)展,生物數(shù)據(jù)庫中蛋白質(zhì)序列數(shù)據(jù)信息急劇膨脹[56]。傳統(tǒng)利用實(shí)驗(yàn)對其進(jìn)行定位的方法大致有以下三種:1)細(xì)胞分餾法;2)電子顯微法;3)熒光顯微法等[55]。生命的中心法則指出,遺傳信息傳遞的主要途徑是由位于細(xì)胞核內(nèi)的脫氧核糖核酸(DNA)經(jīng)過轉(zhuǎn)錄調(diào)控和加工調(diào)控傳遞信使核糖核酸(mRNA);再由信使核糖核酸經(jīng)過轉(zhuǎn)運(yùn)調(diào)控從細(xì)胞核進(jìn)入到細(xì)胞質(zhì)中;最后在細(xì)胞質(zhì)中經(jīng)過翻譯控制合成具有特定功能的蛋白質(zhì)。蛋白質(zhì)組學(xué)試圖尋找蛋白質(zhì)在細(xì)胞中可能扮演的角色,如代謝途徑和交互網(wǎng)絡(luò),并為細(xì)胞環(huán)境中蛋白質(zhì)之間的相互作用及其行使的功能提供可靠的注釋。 第三章 用集成學(xué)習(xí)算法預(yù)測亞細(xì)胞定位大規(guī)模基因組和蛋白質(zhì)組的研究導(dǎo)致不斷增長的海量序列數(shù)據(jù)的出現(xiàn)。每個(gè)算法都有各自的優(yōu)點(diǎn)和缺點(diǎn),都有各自具有優(yōu)勢的應(yīng)用領(lǐng)域。則SVM實(shí)現(xiàn)的就是一個(gè)兩層的感知器神經(jīng)網(wǎng)絡(luò),只是在這里,與一般人工神經(jīng)網(wǎng)絡(luò)不同的是,不但網(wǎng)絡(luò)的權(quán)值,而且網(wǎng)絡(luò)的隱層節(jié)點(diǎn)數(shù)目也是由算法自動(dòng)確定的。目前常用的核函數(shù)形式主要有以下三類,它們都與已有的算法有對應(yīng)關(guān)系:(1)多項(xiàng)式形式的核函數(shù)(Polynomial Kernel Function,PKF),即,對應(yīng)SVM是一個(gè)q階多項(xiàng)式分類器;(2)徑向基形式的核函數(shù)(RadialBasis Kernel Function, RKF),即,對應(yīng)SVM是一種徑向基函數(shù)分類器。 支持向量網(wǎng)絡(luò)示意圖事實(shí)上,:,訓(xùn)練后產(chǎn)生了s個(gè)支持向量(以下標(biāo)標(biāo)識),于是形成了s個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)(與人工神經(jīng)網(wǎng)絡(luò)類似,輸入層節(jié)點(diǎn)與“支持向量節(jié)點(diǎn)”之間,“支持向量節(jié)點(diǎn)”與輸出層節(jié)點(diǎn)之間都有“權(quán)重”),綜合起來就組成支持向量網(wǎng)絡(luò)。若在原始空間中的簡單超平面不能得到滿意的分類效果(這當(dāng)然是很可能的,普遍的非線性情況往往如此),則必須從原始特征空間升維至更高維的空間,以更復(fù)雜的超曲面作為分界面,那么SVM算法是如何求得這一復(fù)雜超曲面的呢?首先通過非線性變換將輸入空間變換到一個(gè)高維空間(保證在此空間樣本已經(jīng)線性可分),然后在這個(gè)新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當(dāng)?shù)暮撕瘮?shù)(內(nèi)積函數(shù))實(shí)現(xiàn)的,令: ()用核函數(shù)代替最優(yōu)分類平面中的點(diǎn)積,就相當(dāng)于把原特征空間變換到了某一新的特征空間,此時(shí)優(yōu)化函數(shù)變?yōu)椋? ()而相應(yīng)的判別函數(shù)式則為: ()其中為支持向量,為未知向量,()式就是SVM分類器。只不過,較分類時(shí)更復(fù)雜,變量更多,運(yùn)算量也更大而已。Vapnik提出運(yùn)用下列不敏感損失函數(shù): ()通過下面的優(yōu)化方程: ()在下列約束條件:下求解: ()由此可得拉格朗日方程的待定系數(shù)和,從而得回歸系數(shù)和常數(shù)項(xiàng):         () 非線性回歸情況 類似于分類問題,一個(gè)非線性模型通常需要足夠的模型數(shù)據(jù),與非線性SVC方法相同,一個(gè)非線性映射可將數(shù)據(jù)映射到高維的特征空間中,在其中就可以進(jìn)行線性回歸。與此同時(shí),引進(jìn)核函數(shù)達(dá)到了“升維”的目的,而增加的可調(diào)參數(shù)卻很少,于是過擬合仍能控制。SVR采用核函數(shù)解決這一矛盾。為適應(yīng)訓(xùn)練樣本集的非線性,傳統(tǒng)的擬合方法通常是在線性方程后面加上高階項(xiàng)。在所有樣本點(diǎn)中,只有分布在“管壁”上的那一部分樣本點(diǎn)決定管道的位置。SVR算法()的基礎(chǔ)主要是 不敏感損失函數(shù)( insensitive function)和核函數(shù)算法。在回歸建模過程中,許多傳統(tǒng)的化學(xué)計(jì)量學(xué)算法往往將有限樣本數(shù)據(jù)中的誤差也擬合進(jìn)數(shù)學(xué)模型。當(dāng)用一個(gè)超平面不能把兩類點(diǎn)完全分開時(shí)(只有少數(shù)點(diǎn)被錯(cuò)分),可以引入松弛變量(≥0, ),使超平面滿足:      ()當(dāng)01時(shí)樣本點(diǎn)仍被正確分類,而當(dāng)≥1時(shí)樣本點(diǎn)被錯(cuò)分。若為最優(yōu)解,則: ()不為零的樣本即為支持向量,因此,最優(yōu)分類面的權(quán)系數(shù)向量是支持向量的線性組合。為此,可以定義如下的Lagrange函數(shù): ()其中,為Lagrange系數(shù),我們的問題是對w和b求Lagrange函數(shù)的最小值。d維空間中線性判別函數(shù)的一般形式為,分類面方程是,將判別函數(shù)進(jìn)行歸一化,使兩類所有樣本都滿足,此時(shí)離分類面最近的樣本,而要求分類面對所有樣本都能正確分類,就是要求它滿足 ()式(47)中使等號成立的那些樣本叫做支持向量(Support Vectors)。推廣到高維空間,最優(yōu)分類線就成為最優(yōu)分類面。所謂最優(yōu)分類線就是要求分類線不僅能將兩類無錯(cuò)誤地分開,而且要使兩類空隙最大。 支持向量分類算法 最優(yōu)分類面 支持向量機(jī)方法是從線性可分情況下的最優(yōu)分類面提出的。第二種思路是設(shè)計(jì)函數(shù)集的某種結(jié)構(gòu)使每個(gè)子集中都能取得最小的經(jīng)驗(yàn)風(fēng)險(xiǎn),然后只需選擇適當(dāng)?shù)淖蛹怪眯欧秶钚?,則這個(gè)子集中使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的函數(shù)就是最優(yōu)函數(shù)。實(shí)現(xiàn)SRM原則有兩種思路,一種是在每個(gè)子集中求最小經(jīng)驗(yàn)風(fēng)險(xiǎn),然后選擇使最小經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍之和最小的子集。但因?yàn)槿狈碚撝笇?dǎo),這種選擇主要依賴先驗(yàn)知識和經(jīng)驗(yàn),造成了如神經(jīng)網(wǎng)絡(luò)等方法對使用者“技巧”的過分依賴。由此可見,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(Empirical Risk Minimization, ERM)原則在樣本有限時(shí)是不合理的。另一部分稱為置信范圍,它和學(xué)習(xí)機(jī)器的VC維h及訓(xùn)練樣本數(shù)n有關(guān)。關(guān)于兩類分類問題,指出了對指示函數(shù)集中的所有函數(shù),經(jīng)驗(yàn)風(fēng)險(xiǎn)和實(shí)際風(fēng)險(xiǎn)之間以至少的概率滿足如下關(guān)系: ()其中h是函數(shù)集的VC維,n是樣本數(shù)。1992—1995年,Vapnik等在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展了SVM算法,在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其它機(jī)器學(xué)習(xí)問題。而同時(shí),神經(jīng)網(wǎng)絡(luò)等較新興的機(jī)器學(xué)習(xí)方法的研究則遇到一些重要的困難,比如如何確定網(wǎng)絡(luò)結(jié)構(gòu)的問題、過擬合與欠擬合問題、局部極小點(diǎn)問題等。 統(tǒng)計(jì)學(xué)習(xí)理論 Vapnik等人早在20世紀(jì)60年代就開始研究有限樣本情況下的機(jī)器學(xué)習(xí)問題,但這些研究長期沒有得到充分的重視。2001年,Burbidge在“Computer and Chemistry”首次發(fā)表了將SVM算法用于藥物設(shè)計(jì)和QSAR方面的論文,這是該新算法在化學(xué)領(lǐng)域應(yīng)用的開始。通過三十余年的嚴(yán)謹(jǐn)數(shù)學(xué)理論研究,提出了“統(tǒng)計(jì)學(xué)習(xí)理論”(Statistical Learning Theory,簡稱SLT)。 Brieman指出,Bagging所能達(dá)到的最大正確率為: () 中C為序正確的輸入集,C’為C的補(bǔ)集,為指示函數(shù)。Bagging的算法流程如下:1.給定訓(xùn)練樣本集。如果預(yù)測一個(gè)類,于是綜合的一種方法是通過投票。這就要使用學(xué)習(xí)器序列?,F(xiàn)在,假定有一個(gè)數(shù)據(jù)集序列,每個(gè)序列都由m個(gè)與L從同樣分布下得來的獨(dú)立實(shí)例組成。 Bagging算法描述 給定一個(gè)數(shù)據(jù)集,基本學(xué)習(xí)器為。 Bagging的各個(gè)預(yù)測函數(shù)可以并行生成,而Boosting的各個(gè)預(yù)測函數(shù)只能順序生成。Bagging與Boosting的區(qū)別在于Bagging對訓(xùn)練集的選擇是隨機(jī)的,各輪訓(xùn)練集之間相互獨(dú)立,而Boosting對訓(xùn)練集的選擇不是獨(dú)立的,各輪訓(xùn)練集的選擇與前面各輪的學(xué)習(xí)結(jié)果有關(guān)。Bagging對不穩(wěn)定的學(xué)習(xí)算法能提高預(yù)測的準(zhǔn)確度,而對穩(wěn)定的學(xué)習(xí)算法效果不明顯,有時(shí)甚至使預(yù)測精度降低。Bagging通過重新選取訓(xùn)練集增加了分量學(xué)習(xí)器集成的差異度,從而提高了泛化能力。這種訓(xùn)練集被稱作原始訓(xùn)練集合的Bootstrap復(fù)制,這種技術(shù)也叫Bootstrap綜合,即Bagging。 Bagging算法 Bagging 算法的提出 Breiman在1996年提出了與Boosting相似的技術(shù)—Bagging[46]。AdaBoost算法中很重要的一點(diǎn)就是選擇一個(gè)合適的弱分類器,選擇是否合適直接決定了建模的成敗。具體的權(quán)重修改規(guī)則描敘如下: (..) 其中,Zt是標(biāo)準(zhǔn)化因子,ht是基本分類器,而是顯性地降低ht重要性地一個(gè)參數(shù),是數(shù)據(jù)點(diǎn)在如下函數(shù)中的函數(shù)邊界: () 其中,是在t次循環(huán)中訓(xùn)練實(shí)例i地貢獻(xiàn)權(quán)重[51,52], 等價(jià)于公式()中的初始權(quán)重。對訓(xùn)練樣本集進(jìn)行T次循環(huán)訓(xùn)練。 給定訓(xùn)練樣本集, AdaBoost 用一個(gè)弱分類器或基本學(xué)習(xí)分類器循環(huán)T次,每一個(gè)訓(xùn)練樣本用一個(gè)統(tǒng)一的初始化權(quán)重來標(biāo)注, ()在公式()中 , L 為正確分類樣本數(shù), M為錯(cuò)誤分類樣本數(shù). 訓(xùn)練的目標(biāo)是尋找一個(gè)優(yōu)化分類器ht,使之成為一個(gè)強(qiáng)分類器。在新的樣本分布下,再次對弱分類器進(jìn)行訓(xùn)練,得到弱分類器h2。對于h1分類錯(cuò)誤的樣本,加大其對應(yīng)的權(quán)重。 Adbaoost算法中不同的訓(xùn)練集是通過調(diào)整每個(gè)樣本對應(yīng)的權(quán)重來實(shí)現(xiàn)的。AdaBoost算法是Freund和schapire[46]根據(jù)在線分配算法提出的,他們詳細(xì)分析了Adbaoost算法錯(cuò)誤率的上界ε,以及為了使強(qiáng)分類器達(dá)到錯(cuò)誤率ε,算法所需要的最多迭代次數(shù)等相關(guān)問題。2. 將弱分類器聯(lián)合起來時(shí),使用加權(quán)的投票機(jī)制代替平均投票機(jī)制。2. 如何將訓(xùn)練得到的各個(gè)弱分類器聯(lián)合起來形成強(qiáng)分類器。即某個(gè)數(shù)據(jù)被分為哪一類要通過的多數(shù)表決。n 將h1和h2都分錯(cuò)了的數(shù)據(jù)加上其它的新數(shù)據(jù)構(gòu)成另一個(gè)新的有N個(gè)訓(xùn)練數(shù)據(jù)的樣本,通過對這個(gè)樣本的學(xué)習(xí)得到第三個(gè)弱分類器h3。整個(gè)過程如下所示:n 先通過對N個(gè)訓(xùn)練數(shù)據(jù)的學(xué)習(xí)得到第一個(gè)弱分類器h1。已經(jīng)有理論證明任何弱分類算法都能夠被有效地轉(zhuǎn)變或者提升為強(qiáng)學(xué)習(xí)分類算法。這種方法將一些粗略的經(jīng)驗(yàn)規(guī)則轉(zhuǎn)變?yōu)楦叨葴?zhǔn)確的預(yù)測法則。在這個(gè)過程中,每個(gè)訓(xùn)練示例被賦予一個(gè)相應(yīng)的權(quán)值,如果一個(gè)訓(xùn)練示例被分類器錯(cuò)誤分類,那么就相應(yīng)增加該例子的權(quán)值,使得在下一次學(xué)習(xí)中,分類器對該樣本示例代表的情況更加重視。這個(gè)訓(xùn)練過程重復(fù)了次。 Boosting算法介紹 Boosting[49]方法總的思想是學(xué)習(xí)一系列分類器,在這個(gè)系列中每一個(gè)分類器對它前一個(gè)分類器導(dǎo)致的錯(cuò)誤分類例子給予更大的重視。因此,該方法不太穩(wěn)定,有時(shí)能起到很好的作用,有時(shí)卻沒有效果。這樣,新網(wǎng)絡(luò)將能夠很好地處理對己有網(wǎng)絡(luò)來說很困難的示例。1995年Freund[50]對其進(jìn)行了改進(jìn)。如果兩
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1