freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用畢業(yè)論文-資料下載頁

2025-04-07 03:36本頁面
  

【正文】 的結(jié)果就是包絡(luò)該曲線和訓(xùn)練點的“ 管道”。在所有樣本點中,只有分布在“管壁”上的那一部分樣本點決定管道的位置。這一部分訓(xùn)練樣本稱為“支持向量”。為適應(yīng)訓(xùn)練樣本集的非線性,傳統(tǒng)的擬合方法通常是在線性方程后面加上高階項。此法誠然有效,但由此增加的可調(diào)參數(shù)未免增加了過擬合的風(fēng)險。SVR采用核函數(shù)解決這一矛盾。用核函數(shù)代替線性方程中的線性項可以使原來的線性算法“非線性化”,即能作非線性回歸。與此同時,引進核函數(shù)達到了“升維”的目的,而增加的可調(diào)參數(shù)卻很少,于是過擬合仍能控制。支持向量 支持向量超曲面回歸超平面支持向量 支持向量回歸示意圖不敏感損失函數(shù)可以表示如下: () 線性回歸情況設(shè)樣本集為:,回歸函數(shù)用下列線性方程來表示: ()最佳回歸函數(shù)通過求下列函數(shù)的最小極值得出: ()其中C是設(shè)定的可調(diào)參數(shù)值,為松弛變量的上限與下限。Vapnik提出運用下列不敏感損失函數(shù): ()通過下面的優(yōu)化方程: ()在下列約束條件:下求解: ()由此可得拉格朗日方程的待定系數(shù)和,從而得回歸系數(shù)和常數(shù)項:         () 非線性回歸情況 類似于分類問題,一個非線性模型通常需要足夠的模型數(shù)據(jù),與非線性SVC方法相同,一個非線性映射可將數(shù)據(jù)映射到高維的特征空間中,在其中就可以進行線性回歸。運用核函數(shù)可以避免模式升維可能產(chǎn)生的“維數(shù)災(zāi)難”,即通過運用一個非敏感性損耗函數(shù),非線性SVR的解即可通過下面方程求出: ()其約束條件為: ()由此可得拉格朗日待定系數(shù)和,回歸函數(shù) 則為: ()從以上方程的形式上可以看出,數(shù)學(xué)上它還是一個解決二次規(guī)劃的問題。只不過,較分類時更復(fù)雜,變量更多,運算量也更大而已。 支持向量機核函數(shù)在推導(dǎo)分類算法之前,其實是假設(shè)了分類超平面存在于原始特征空間中。若在原始空間中的簡單超平面不能得到滿意的分類效果(這當然是很可能的,普遍的非線性情況往往如此),則必須從原始特征空間升維至更高維的空間,以更復(fù)雜的超曲面作為分界面,那么SVM算法是如何求得這一復(fù)雜超曲面的呢?首先通過非線性變換將輸入空間變換到一個高維空間(保證在此空間樣本已經(jīng)線性可分),然后在這個新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當?shù)暮撕瘮?shù)(內(nèi)積函數(shù))實現(xiàn)的,令: ()用核函數(shù)代替最優(yōu)分類平面中的點積,就相當于把原特征空間變換到了某一新的特征空間,此時優(yōu)化函數(shù)變?yōu)椋? ()而相應(yīng)的判別函數(shù)式則為: ()其中為支持向量,為未知向量,()式就是SVM分類器。分類函數(shù)形式上類似于一個神經(jīng)網(wǎng)絡(luò),輸出的是若干中間層節(jié)點的線性組合,而每一個中間層節(jié)點對應(yīng)于輸入樣本與一個支持向量的內(nèi)積,因此也被叫做支持向量網(wǎng)絡(luò)。 支持向量網(wǎng)絡(luò)示意圖事實上,:,訓(xùn)練后產(chǎn)生了s個支持向量(以下標標識),于是形成了s個網(wǎng)絡(luò)節(jié)點(與人工神經(jīng)網(wǎng)絡(luò)類似,輸入層節(jié)點與“支持向量節(jié)點”之間,“支持向量節(jié)點”與輸出層節(jié)點之間都有“權(quán)重”),綜合起來就組成支持向量網(wǎng)絡(luò)。由于最終判別函數(shù)中只包含未知向量與支持向量內(nèi)積的線性組合,因此識別時的計算復(fù)雜度取決于支持向量個數(shù)。目前常用的核函數(shù)形式主要有以下三類,它們都與已有的算法有對應(yīng)關(guān)系:(1)多項式形式的核函數(shù)(Polynomial Kernel Function,PKF),即,對應(yīng)SVM是一個q階多項式分類器;(2)徑向基形式的核函數(shù)(RadialBasis Kernel Function, RKF),即,對應(yīng)SVM是一種徑向基函數(shù)分類器。(3)S形核函數(shù)(Sigmoid Kernel Function, SKF),即。則SVM實現(xiàn)的就是一個兩層的感知器神經(jīng)網(wǎng)絡(luò),只是在這里,與一般人工神經(jīng)網(wǎng)絡(luò)不同的是,不但網(wǎng)絡(luò)的權(quán)值,而且網(wǎng)絡(luò)的隱層節(jié)點數(shù)目也是由算法自動確定的。 本章小結(jié) 本章主要介紹了本文工作中用到的常見的幾種機器學(xué)習(xí)算法的原理和實現(xiàn)算法:、隨機決策樹算法以及隨機森林算法;最有影響力的兩種集成算法,即AdaBoost與Bagging算法;應(yīng)用極為廣泛的支持向量機算法。每個算法都有各自的優(yōu)點和缺點,都有各自具有優(yōu)勢的應(yīng)用領(lǐng)域。有時候,把若干算法結(jié)合起來應(yīng)用往往會取得意想不到的好效果。 第三章 用集成學(xué)習(xí)算法預(yù)測亞細胞定位大規(guī)?;蚪M和蛋白質(zhì)組的研究導(dǎo)致不斷增長的海量序列數(shù)據(jù)的出現(xiàn)。生物信息學(xué)的一個主要內(nèi)容就是給這些序列進行注釋[53,54],描述每一個蛋白質(zhì)的功能成為了后基因組時代重大挑戰(zhàn)之一。蛋白質(zhì)組學(xué)試圖尋找蛋白質(zhì)在細胞中可能扮演的角色,如代謝途徑和交互網(wǎng)絡(luò),并為細胞環(huán)境中蛋白質(zhì)之間的相互作用及其行使的功能提供可靠的注釋。而這其中重要的一環(huán)就是確定每個蛋白質(zhì)的亞細胞定位。生命的中心法則指出,遺傳信息傳遞的主要途徑是由位于細胞核內(nèi)的脫氧核糖核酸(DNA)經(jīng)過轉(zhuǎn)錄調(diào)控和加工調(diào)控傳遞信使核糖核酸(mRNA);再由信使核糖核酸經(jīng)過轉(zhuǎn)運調(diào)控從細胞核進入到細胞質(zhì)中;最后在細胞質(zhì)中經(jīng)過翻譯控制合成具有特定功能的蛋白質(zhì)。為了行使它們的功能,這些蛋白質(zhì)將被分別輸送到細胞的某些指定區(qū)域或細胞器,該過程就稱之為亞細胞定位。傳統(tǒng)利用實驗對其進行定位的方法大致有以下三種:1)細胞分餾法;2)電子顯微法;3)熒光顯微法等[55]。但基于實驗的方法所獲得的定位結(jié)果具有主觀性和多變性,且實驗確定蛋白質(zhì)亞細胞定位是一個費時且耗費巨資的工作。隨著基因組學(xué)的發(fā)展,生物數(shù)據(jù)庫中蛋白質(zhì)序列數(shù)據(jù)信息急劇膨脹[56]。例如,2007年3月發(fā)布的Swiss–(),總共包含260175條蛋白質(zhì)序列。除去那些被注釋為“碎片”或氨基酸數(shù)目少于50的殘渣,剩余247263條,其中133652條有亞細胞定位注釋。但是,對于這133653條蛋白質(zhì)序列,只有49367條是通過實驗手段明確注釋,而84285條為用不明確字段如“可能的”、“潛在的”、“也許的”所注釋。實際上,這種不明確注釋數(shù)據(jù)并不能作為一個嚴謹?shù)挠?xùn)練數(shù)據(jù)集來訓(xùn)練可靠的預(yù)報器,對這些數(shù)據(jù)進行明確注釋也是新的預(yù)報器或?qū)嶒灆z測工作的新目標。[56]在所有的蛋白質(zhì)序列中,只有大約20%擁有可靠的亞細胞定位注釋。隨著后基因時代基因產(chǎn)品的泛濫,可以預(yù)期新發(fā)現(xiàn)的蛋白質(zhì)序列與它們的亞細胞定位知識之間的溝壑會繼續(xù)擴大。為了及時的利用這些新發(fā)現(xiàn)的蛋白質(zhì)序列進行基礎(chǔ)研究或藥物設(shè)計,急需一種高效的預(yù)報方法來填平這道溝壑。[56] 蛋白質(zhì)亞細胞定位的生物學(xué)基礎(chǔ)自從17世紀發(fā)現(xiàn)細胞以后,經(jīng)過170余年才認識到細胞是一切生物體進行生命活動的基本結(jié)構(gòu)和功能單位。細胞不僅是有機體的基本結(jié)構(gòu)單位,而且是有機體生長、發(fā)育、繁殖與進化的基礎(chǔ)。在每一個細胞中,都包含著全套的遺傳信息,即包含著遺傳的全能性。細胞既是構(gòu)成統(tǒng)一機體的成員,受到機體整體活動的制約,又是生命活動的獨立單位。細胞作為一個形態(tài)整體,結(jié)構(gòu)精密,而且在生長、發(fā)育、分化和生理活動中細胞的結(jié)構(gòu)不斷發(fā)生變化,因而要把細胞看作是一個動態(tài)的結(jié)構(gòu)體系[57,58]。根據(jù)進化程度與結(jié)構(gòu)的復(fù)雜程度,可將細胞劃為原核細胞(prokaryotic)和真核細胞(eukaryotic)兩大類。它們在形態(tài)結(jié)構(gòu)上存在著明顯的差異,同時在一些生命活動上也存在本質(zhì)性差異。原核細胞的增殖是以直接分裂為主,沒有真核細胞那樣明顯的細胞周期各階段;同時原核細胞的DNA復(fù)制、RNA轉(zhuǎn)錄及蛋白質(zhì)合成是同時連續(xù)進行的,而真核細胞則具有嚴格的階段性、區(qū)域性的特點。從進化的角度看,真核細胞是以膜系統(tǒng)分化為基礎(chǔ),具有核質(zhì)的分化。除了細胞質(zhì)中各種由膜系統(tǒng)分隔的重要細胞器外,由于真核細胞的結(jié)構(gòu)與功能的復(fù)雜化,真核細胞的遺傳信息量較原核細胞大大增多。遺傳信息重復(fù)序列與染色體多倍性,也是真核細胞區(qū)別于原核細胞的另一重大標志[59]。真核細胞最主要的特點是,細胞內(nèi)由膜間隔成了許多功能區(qū),最明顯的是細胞含有由膜圍成的細胞核,另外還有由膜圍成的細胞器,如線粒體、葉綠體、內(nèi)質(zhì)網(wǎng)、高爾基體、溶酶體等。其中核膜、內(nèi)質(zhì)網(wǎng)、高爾基體、溶酶體等在結(jié)構(gòu)上形成了一個連續(xù)的體系,稱為內(nèi)膜系統(tǒng)。內(nèi)膜系統(tǒng)將細胞質(zhì)分割成了一些區(qū)間,即所謂的分區(qū)化。分區(qū)化是細胞進化高等的特征,它使細胞的代謝活動比原核細胞大為提高。線粒體則承擔(dān)了一些特殊功能,例如,氧化磷酸化作用主要集中在線粒體中進行。植物細胞的光合作用則集中在葉綠體中進行。 亞細胞定位示意圖圖中給出了12類蛋白質(zhì)亞細胞定位:(1) 葉綠體(chloroplast), (2) 細胞質(zhì)(cytoplasm), (3) 細胞骨架(cytoskeleton), (4) 內(nèi)質(zhì)網(wǎng)(endoplasmic raticulum), (5) 細胞外(extracell), (6) 高爾基體(Golgi apparatus), (7) 溶酶體(lysosomal), (8) 線粒體(mitochondrial), (9) 細胞核(nuclear), (10) 過氧化物酶體(peroxisomal), (11) 原生質(zhì)膜(plasma membrane), (12) 液泡(vacuole)。它們的功能如下:1. 葉綠體(chloroplast):在植物細胞和光合真菌中的另一種能量轉(zhuǎn)換細胞器。葉綠體也含有自身的DNA,也是細胞內(nèi)的一種半自主性細胞器。2. 細胞質(zhì)(cytoplasm):指細胞膜內(nèi)除細胞核以外的成份。對于一個真核細胞來說,其細胞質(zhì)又包括液態(tài)的細胞質(zhì)基質(zhì),各種細胞器和各種內(nèi)含物。3. 細胞骨架(cytoskeleton):指真核細胞中的蛋白纖維網(wǎng)絡(luò)體系。它不僅在維持細胞形態(tài)、承受外力、保持細胞內(nèi)部結(jié)構(gòu)的有序性方面起重要作用,而且還參與細胞運動、物質(zhì)運輸、能量轉(zhuǎn)換、信息傳遞、細胞分裂、基因表達、細胞分化等重要的生命活動。例如,在細胞分裂中細胞骨架牽引染色體分離,在細胞物質(zhì)運輸中,各類小泡和細胞器可沿著細胞骨架定向轉(zhuǎn)運。在肌肉細胞中,細胞骨架和它的結(jié)合蛋白組成動力系統(tǒng)。另外,在植物細胞中細胞骨架指導(dǎo)細胞壁的合成。4. 內(nèi)質(zhì)網(wǎng)(endoplasmic raticulum):絕大多數(shù)植物和動物的細胞內(nèi)都有內(nèi)質(zhì)網(wǎng),它是由膜結(jié)構(gòu)連接而成的網(wǎng)狀物,廣泛地分布在細胞質(zhì)基質(zhì)內(nèi)。內(nèi)質(zhì)網(wǎng)增大了細胞內(nèi)的膜面積,膜上附著很多種酶,為細胞內(nèi)各種化學(xué)反應(yīng)的正常進行提供了有利條件。它在細胞中具有多種重要功能,對細胞的多種重要蛋白的合成和修飾加工,轉(zhuǎn)運或輸出細胞以及對幾乎全部脂類的合成都起著重要作用。內(nèi)質(zhì)網(wǎng)膜是大部分細胞器以及質(zhì)膜的所有跨膜蛋白及脂類合成的場所,也是蛋白質(zhì)的運輸通道。5. 細胞外(extracell):是指分布于細胞外空間,由細胞分泌的蛋白和多糖所構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)。細胞外基質(zhì)對細胞存活和死亡起決定性作用,細胞外基質(zhì)還有決定細胞形狀,控制細胞增殖和細胞分化,參與細胞遷移和促進創(chuàng)傷修復(fù)的作用。6. 高爾基體(Golgi apparatus):它主要功能是將內(nèi)質(zhì)網(wǎng)合成的多種蛋白質(zhì)進行加工、分類與包裝,然后分門別類地運送到細胞特定的部位或分泌到細胞外。內(nèi)質(zhì)網(wǎng)上合成的脂類一部分也要通過高爾基體向細胞質(zhì)膜和溶酶體膜等部位運輸,因此可以說,高爾基體是細胞內(nèi)大分子運輸?shù)囊粋€主要的交通樞紐。此外高爾基體還是細胞內(nèi)糖類合成的工廠在細胞生命活動中起多種重要的作用。7. 溶酶體(lysosomal):它的基本功能是對生物大分子的強烈消化作用,是細胞內(nèi)重要的消化器官。在酸性條件下,溶酶體對蛋白質(zhì)、膚、糖、中性脂質(zhì)、糖脂、糖蛋白、核酸等多種物質(zhì)起水解作用,這對于維持細胞的正常代謝活動及防御微生物侵染都有重要意義。8. 線粒體(mitochondrial):線粒體是細胞中重要和獨特的細胞器,它普遍存在于真核細胞中,是進行呼吸作用的主要細胞器。在線粒體中,通過氧化磷酸化作用進行能量轉(zhuǎn)換,為細胞的各項活動提供了能量。因而可以說,線粒體是細胞能量代謝的中心,是細胞內(nèi)的“動力工廠”。此外,在人類細胞的死亡過程中,無論凋亡還是壞死都與線粒體有關(guān),因此它是新藥的一個主要靶體。9. 細胞核(nuclear):它是細胞內(nèi)最大的細胞器,載有全部基因的染色體,含有完整的遺傳物質(zhì),從根本上控制著細胞的生命。它是基因復(fù)制、RNA轉(zhuǎn)錄以及合成蛋白質(zhì)的場所,是細胞生命活動的控制中心。10. 過氧化物酶體(peroxisomal):它是由單層膜圍繞的、內(nèi)含一種或幾種氧化酶類的細胞器,是合成膽固醇和髓鞘的地方。它是一種異質(zhì)性的細胞器,不同生物的細胞中,甚至單細胞生物的不同個體中所含酶的種類及其行使的功能都有所不同。11. 原生質(zhì)膜(plasma membrane):又稱細胞外膜,是細胞的重要組成部分,它最基本的作用是維持細胞內(nèi)微環(huán)境的相對穩(wěn)定,并與外界環(huán)境不斷地進行物質(zhì)交換,能量和信息的傳遞,對細胞的生存、生長、分裂、分化都至關(guān)重要,維持了正常的生命活動。此外,細胞所必需的養(yǎng)分的吸收和代謝產(chǎn)物的排出,都要通過細胞膜。所以,原生質(zhì)膜的這種選擇性地讓某些分子進入或排出細胞的特性,叫做選擇滲透性。這是細胞膜最基本的功能之一。12. 液泡(vacuole):液泡是細胞質(zhì)中一種泡狀結(jié)構(gòu)的細胞器,外有液泡膜與細胞質(zhì)分開,內(nèi)含水樣的細胞液。植物液泡里含有多種礦物質(zhì)、糖、有機酸以及其它水溶性化合物。同時還包含一些色素,如花青素?;ā⑷~、果實的顏色,除綠色以外,其它如藍色、紅色和黃色等都由于液泡中各種高濃度色素所引起的。植物中的液泡是細胞的代謝庫,起調(diào)節(jié)細胞內(nèi)環(huán)境的作用,還具有壓力滲透計的作用,使細胞保持膨脹狀態(tài)。研究表明,蛋白質(zhì)的功能與其亞細胞位置密切相關(guān),新合成的蛋白質(zhì)必須處于合適的亞細胞定位才能正確行使其功能[60]。因此,一個蛋白質(zhì)能否正確地被輸送到相應(yīng)的亞細胞定位對其行使功能是至關(guān)重要的。研究表明[6163],蛋白質(zhì)輸送失敗是幾種人類疾病產(chǎn)生的重要因素,如癌癥和老年癡呆癥(Alzheimer’s disease)??梢哉f,蛋白質(zhì)的亞細胞定位是研究蛋白
點擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1