freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機器學習算法在生物信息學中的應(yīng)用畢業(yè)論文(更新版)

2025-05-16 03:36上一頁面

下一頁面
  

【正文】 胞定位對其行使功能是至關(guān)重要的。所以,原生質(zhì)膜的這種選擇性地讓某些分子進入或排出細胞的特性,叫做選擇滲透性。因而可以說,線粒體是細胞能量代謝的中心,是細胞內(nèi)的“動力工廠”。細胞外基質(zhì)對細胞存活和死亡起決定性作用,細胞外基質(zhì)還有決定細胞形狀,控制細胞增殖和細胞分化,參與細胞遷移和促進創(chuàng)傷修復的作用。例如,在細胞分裂中細胞骨架牽引染色體分離,在細胞物質(zhì)運輸中,各類小泡和細胞器可沿著細胞骨架定向轉(zhuǎn)運。植物細胞的光合作用則集中在葉綠體中進行。從進化的角度看,真核細胞是以膜系統(tǒng)分化為基礎(chǔ),具有核質(zhì)的分化。[56] 蛋白質(zhì)亞細胞定位的生物學基礎(chǔ)自從17世紀發(fā)現(xiàn)細胞以后,經(jīng)過170余年才認識到細胞是一切生物體進行生命活動的基本結(jié)構(gòu)和功能單位。隨著基因組學的發(fā)展,生物數(shù)據(jù)庫中蛋白質(zhì)序列數(shù)據(jù)信息急劇膨脹[56]。 第三章 用集成學習算法預測亞細胞定位大規(guī)?;蚪M和蛋白質(zhì)組的研究導致不斷增長的海量序列數(shù)據(jù)的出現(xiàn)。 支持向量網(wǎng)絡(luò)示意圖事實上,:,訓練后產(chǎn)生了s個支持向量(以下標標識),于是形成了s個網(wǎng)絡(luò)節(jié)點(與人工神經(jīng)網(wǎng)絡(luò)類似,輸入層節(jié)點與“支持向量節(jié)點”之間,“支持向量節(jié)點”與輸出層節(jié)點之間都有“權(quán)重”),綜合起來就組成支持向量網(wǎng)絡(luò)。與此同時,引進核函數(shù)達到了“升維”的目的,而增加的可調(diào)參數(shù)卻很少,于是過擬合仍能控制。SVR算法()的基礎(chǔ)主要是 不敏感損失函數(shù)( insensitive function)和核函數(shù)算法。為此,可以定義如下的Lagrange函數(shù): ()其中,為Lagrange系數(shù),我們的問題是對w和b求Lagrange函數(shù)的最小值。 支持向量分類算法 最優(yōu)分類面 支持向量機方法是從線性可分情況下的最優(yōu)分類面提出的。由此可見,經(jīng)驗風險最小化(Empirical Risk Minimization, ERM)原則在樣本有限時是不合理的。而同時,神經(jīng)網(wǎng)絡(luò)等較新興的機器學習方法的研究則遇到一些重要的困難,比如如何確定網(wǎng)絡(luò)結(jié)構(gòu)的問題、過擬合與欠擬合問題、局部極小點問題等。 Brieman指出,Bagging所能達到的最大正確率為: () 中C為序正確的輸入集,C’為C的補集,為指示函數(shù)?,F(xiàn)在,假定有一個數(shù)據(jù)集序列,每個序列都由m個與L從同樣分布下得來的獨立實例組成。Bagging對不穩(wěn)定的學習算法能提高預測的準確度,而對穩(wěn)定的學習算法效果不明顯,有時甚至使預測精度降低。AdaBoost算法中很重要的一點就是選擇一個合適的弱分類器,選擇是否合適直接決定了建模的成敗。在新的樣本分布下,再次對弱分類器進行訓練,得到弱分類器h2。2. 將弱分類器聯(lián)合起來時,使用加權(quán)的投票機制代替平均投票機制。整個過程如下所示:n 先通過對N個訓練數(shù)據(jù)的學習得到第一個弱分類器h1。這個訓練過程重復了次。1995年Freund[50]對其進行了改進。通過建立多個不同操作參數(shù)的模型,可以解決選取參數(shù)的難題,同時將不同模型的結(jié)果按照一定的方式集成就可以生成我們想要的結(jié)果。3. 解決過擬合問題。在這樣的情況下,不同的參數(shù)選擇,最終的結(jié)果可能會有很大的區(qū)別,具有很大的不穩(wěn)定性。樣本集重新抽樣法對于不穩(wěn)定的算法來說,能夠取得很好的效果。 大致上來說,集成學習的構(gòu)成方法可以分為四種:1. 輸入變量集重構(gòu)法。這個構(gòu)造性方法就是Boosting算法的雛形。正確理解這兩者之間的相互影響是我們理解隨機森林工作原理的基礎(chǔ).. 集成學習算法 集成學習(Ensemble Learning)是一種新的機器學習范式,它使用多個(通常是同質(zhì)的)學習器來解決同一個問題。該邊緣函數(shù)刻畫了對向量X正確分類y的平均得票數(shù)超過其它任何類平均得票數(shù)的程度。S為從根結(jié)點開始搜索到合適葉子結(jié)點處的事例個數(shù)。在樹的結(jié)構(gòu)建好后對樹結(jié)點更新,其中葉子結(jié)點記錄事例被分類為某一預定類別的個數(shù)。當對事例X進行分類時,以各隨機樹輸出的后驗概率均值最大的類為預測類。 隨機決策樹算法[42] 設(shè)屬性集為建樹提供結(jié)構(gòu),其中是非決策屬性,決策屬性是一列有效的類別。如此類推,直到子集中的數(shù)據(jù)記錄在主屬性上取值都相同,或沒有屬性可再供劃分使用,遞歸地形成初始決策樹。常用的決策樹算法由CART,ID3,隨機樹算法,在下面,對本文中用到的決策樹算法進行了詳細介紹。常用的修剪技術(shù)有預修剪(prepruning)和后修剪(postpruning)兩種。在此期間,人們從學習單個概念擴展到學習多個概念,探索不同的學習策略和方法,且在本階段已開始把學習系統(tǒng)與各種應(yīng)用結(jié)合起來,并取得很大的成功,促進機器學習的發(fā)展。在這個時期,所研究的是“沒有知識”的學習,即“無知”學習。 論文的主要內(nèi)容本文運用機器學習技術(shù)對蛋白質(zhì)序列的亞細胞定位數(shù)據(jù)集以及一類有機同系物進行研究,建立起了用于蛋白質(zhì)序列亞細胞定位的預測模型和用于5脂氧化酶抑制活性預測的QSAR模型。20世紀40年代起,化學家開始發(fā)現(xiàn)分子和其它化學物質(zhì)可以很方便地用多種不同的矩陣表示[12,13],化學圖的概念及拓撲指數(shù)(圖論指數(shù))[14,15]的引入使表征分子結(jié)構(gòu)并進行化合物的構(gòu)效關(guān)系研究有了一個基本工具。機器學習的許多方法都可以直接應(yīng)用于基因芯片分析,如序列比較方法、貝葉斯神經(jīng)網(wǎng)絡(luò)方法和聚類方法等。最后與保守的基序和圖形數(shù)據(jù)庫比較判斷功能。此外,基于隱馬爾科夫模型EM訓練算法、Viterbi序列分析算法以及FDR(False DiscoveryRate)方法都有成功的應(yīng)用成果。它們可以很快地給出較好的結(jié)果,但不能保證所得結(jié)果是最優(yōu)的。為方便同行使用,本論文的部分研究工作已經(jīng)通過Internet向全世界生物學家提供開放性服務(wù)。[1]第二, 進行數(shù)據(jù)處理和分析,通過信息分析發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系提取本質(zhì)規(guī)律,進而上升為生物學知識。美國人類基因組計劃實施五年后的總結(jié)報告中,對生物信息學作了以下的定義:生物信息學是一門交叉學科,它包含了生物信息的獲取、處理、儲存、分發(fā)、分析和解釋等在內(nèi)的所有方面,它綜合運用數(shù)學、計算機科學和生物學的各種工具,來闡明和理解大量數(shù)據(jù)所包含的生物學意義。該模型的留一交叉驗證法的RMSE(最小殘差平方和),作為對比,多元線性回歸算法(MLR)、偏最小二乘法(PLS)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、 ;SVM與MLR、PLS、。預報蛋白質(zhì)亞細胞位置,在基因注釋和藥物設(shè)計工作中,都扮演了很重要的角色。除了文中特別加以標注和致謝的地方外,論文中不包含其他人已發(fā)表或撰寫過的研究成果。(保密的論文在解密后應(yīng)遵守此規(guī)定)簽 名: 導師簽名: 日期: 上海大學理學碩士學位論文機器學習算法在生物信息學中的應(yīng)用姓 名:金雨歡導 師:陸文聰 教授學科專業(yè):物理化學上海大學理學院二零零八年五月 A Dissertation Submitted to Shanghai University for the Master’s Degree in ScienceUsing Machine Learning MethodsIn BioinformaticsM. D. Candidate:Jin YuhuanSupervisor:Prof. Lu WencongMajor:Physical ChemistryScience College, Shanghai UniversityMay, 2008 摘要 20世紀后期,人類和其他生物物種基因組學的研究飛速發(fā)展,生物信息的增長驚人,生物科學技術(shù)極大地豐富了生物科學的數(shù)據(jù)資源。結(jié)果表明:用AdaBoost隨機森林算法作為弱分類器時有最好的建模結(jié)果,%;%。為了更好的達到這個目的,將研究得到的預報模型提供給所有相關(guān)領(lǐng)域的研究人員,建立在線預報服務(wù)器是一條有效途徑。迄今為止,生物學數(shù)據(jù)庫總數(shù)已達500個以上。在蛋白質(zhì)分析方面,著重分析蛋白質(zhì)序列與蛋白質(zhì)結(jié)構(gòu)及功能之間的關(guān)系,預測蛋白質(zhì)的功能,研究蛋白質(zhì)家族關(guān)系開展進化分析。常見的有指導學習包括:決策樹、Boosting與Bagging算法、人工神經(jīng)網(wǎng)絡(luò)和支持向量機等。通過它們可進行兩序列、多序列、局部序列乃至完整基因組的比較。第三, 在蛋白質(zhì)組研究中的應(yīng)用。如Cai等人[10]使用支持向量機網(wǎng)絡(luò)模型對蛋白質(zhì)二級結(jié)構(gòu)分類。這也是結(jié)構(gòu)性質(zhì)/活性關(guān)系(Structure Property/Activity Relationship, SPR/SAR)的基本假設(shè)。 二十世紀70年代以后,隨著生物化學、分子生物學、統(tǒng)計學和計算機科學的快速發(fā)展,SPR/SAR研究提高到了一個新的水平。第二部分介紹了預測模型的具體構(gòu)建方法與構(gòu)建過程。但這種學習的結(jié)果遠不能滿足人們對機器學習系統(tǒng)的期望。決策樹分類算法使用訓練樣本集合構(gòu)造出一棵決策樹,從而實現(xiàn)了對樣本空間的劃分。后剪枝法主要有①訓練和驗證集法,②使用統(tǒng)計的方法,③最小描述長度準則。以屬性X為分類所需的期望熵(條件熵)是: ()其中sij是子集Sj中屬于類Ci的樣本數(shù), ,是sj中的樣本屬于Ci的概率。過多的分枝會使得決策樹過分地依賴某一屬性,而信息增益不低于平均值保證了該屬性的信息量,使得有利于分類的屬性更早地出現(xiàn)。隨機決策樹的構(gòu)造過程:對根結(jié)點和分支結(jié)點隨機的從屬性集合中選擇分裂屬性,在一條分支路徑上離散屬性僅出現(xiàn)一次,連續(xù)屬性可以出現(xiàn)多次。使用多個隨機樹的主要特色是多樣性導致較高的分類準確率,多樣性不與深度成正比關(guān)系。表示某一葉子結(jié)點記錄的總事例數(shù)。由于完全隨機的選擇屬性,因而可能會出現(xiàn)某些屬性在整個決策樹構(gòu)造過程中沒有或很少被選取為分裂屬性,特別是當該屬性對分類結(jié)果有較大貢獻時,這種缺少將導致分類正確率的不穩(wěn)定,當屬性數(shù)較少時,這種不穩(wěn)定性將更為明顯。將上面的結(jié)論推廣到隨機森林,。在此之后,集成學習的研究才逐漸引起了人們的關(guān)注。1996年,Breiman[46]提出了與Boosting相似的技術(shù)Bagging,進一步促進了集成學習的發(fā)展。2. 輸出變量集重構(gòu)法。但是對于穩(wěn)定的算法來說,效果不是很好。構(gòu)造單個高精度的學習器是一件相當困難的事情,然而產(chǎn)生若干個只比隨機猜想略好的學勻器卻很容易。為了解決過擬合問題,按照集成學習的思想,可以選擇多個模型作為結(jié)果,對于每個模型賦予相應(yīng)的權(quán)重,從而集合生成合適的結(jié)果,提高預測精度。在下面的章節(jié)中對這兩種算法進行了詳細的介紹。另一方面,雖然Boosting方法能夠增強神經(jīng)網(wǎng)絡(luò)集成的泛化能力,但是同時也有可能使集成過分偏向于某幾個特別困難的示例。Boosting是一種將弱分類器通過某種方式結(jié)合起來得到一個分類性能大大提高的強分類器的分類方法。n 最終經(jīng)過提升的強分類器。與Boosting算法[49]不同的是,Adaboost算法不需要預先知道弱學習算法學習正確率的下限即弱分類器的誤差,并且最后得到的強分類器的分類精度依賴于所有弱分類器的分類精度,這樣可以深入挖掘弱分類器算法的潛力。訓練的目標是尋找一個優(yōu)化分類器ht,使之成為一個強分類器。Bagging的基礎(chǔ)是重復取樣,它通過產(chǎn)生樣本的重復Bootstrap實例作為訓練集,每回運行Bagging都隨機地從大小為n的原始訓練集中抽取m個樣本作為此回訓練的集合。 Bagging的各個預測函數(shù)沒有權(quán)重,而Boosting是有權(quán)重的。如果,y是數(shù)值的,一個明顯的過程是用在k上的平均取代,即通過,其中EL表示L上的數(shù)學期望,h的下標A表示綜合。在SLT理論研究的基礎(chǔ)上,又于1992年和1995年先后提出支持向量機(Support Vector Machine,簡稱SVM)算法支持向量分類(Support Vector Classification,簡稱SVC)算法和支持向量回歸(Support Vector Regression,簡稱SVR)算法。 統(tǒng)計學習理論系統(tǒng)地研究了對于各種類型的函數(shù)集,經(jīng)驗風險和實際風險之間的關(guān)系,即推廣性的界。統(tǒng)計學習理論提出了一種新的策略,即結(jié)構(gòu)風險最小化((Structural Risk Mininimation, SRM)原則,把函數(shù)集構(gòu)造為一個函數(shù)子集序列,使各個子集按照VC維的大小排列,在每個子集中尋找最小經(jīng)驗風險,在子集間折衷考慮經(jīng)驗風險和置信范圍,以取得實際風險的最小。前者是保證經(jīng)驗風險最小,而后者是使真實風險最小??捎杉s束條件求解,由此求得的最優(yōu)分類函數(shù)是 : ()為符號函數(shù)。這一部分訓練樣本稱為“支持向量”。運用核函數(shù)可以避免模式升維可能產(chǎn)生的“維數(shù)災難”,即通過運用一個非敏感性損耗函數(shù),非線性SVR的解即可通過下面方程求出: ()其約束條件為: ()由此可得拉格朗日待定系數(shù)和,回歸函數(shù) 則為: ()從以上方程的形式上可以看出,數(shù)學上它還是一個解決二次規(guī)劃的問題。(3)S形核函數(shù)(Sigmoid Kernel Function, SKF),即。而這其中重要的一環(huán)就是確定每個蛋白質(zhì)的亞細胞定位。但是,對于這133653條蛋白質(zhì)序列,只有49367條是通過實驗手段明確注釋,而84285條為用不明確字段如“可能的”、“潛在的”、“也許的”所注釋。細胞既是構(gòu)成統(tǒng)一機體的成員,受到機體整體活動的制約,又是生命活動的獨立單位。真核細胞最主要的特點是,細胞內(nèi)由膜間隔成了許多功能區(qū),最明顯的是細胞含有由膜圍成的細胞核,另外還有由膜圍成的細胞器,如線粒體、葉綠體、內(nèi)質(zhì)網(wǎng)、高爾基體、溶酶體等。葉綠體也含有自身的DNA,也是細胞內(nèi)的一種半自主性細胞器。4. 內(nèi)質(zhì)網(wǎng)(endoplasmic raticulum):絕大多數(shù)植物和動物的細胞內(nèi)都有內(nèi)質(zhì)網(wǎng),它是由膜結(jié)構(gòu)連接而成的網(wǎng)狀物,廣泛地分布在細胞質(zhì)基質(zhì)內(nèi)。此外高爾基體還是細胞內(nèi)糖類合成的工廠在細胞生命活動中起多種重要的作用。它是基因復制、RNA轉(zhuǎn)錄以及合成蛋白質(zhì)的場所,是細胞生命活動的控制中心。植物液泡里含有多種礦物質(zhì)、糖、有機酸以及其它水溶性化合物
點擊復制文檔內(nèi)容
化學相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1