freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用畢業(yè)論文(專業(yè)版)

  

【正文】 植物液泡里含有多種礦物質(zhì)、糖、有機(jī)酸以及其它水溶性化合物。此外高爾基體還是細(xì)胞內(nèi)糖類合成的工廠在細(xì)胞生命活動(dòng)中起多種重要的作用。葉綠體也含有自身的DNA,也是細(xì)胞內(nèi)的一種半自主性細(xì)胞器。細(xì)胞既是構(gòu)成統(tǒng)一機(jī)體的成員,受到機(jī)體整體活動(dòng)的制約,又是生命活動(dòng)的獨(dú)立單位。而這其中重要的一環(huán)就是確定每個(gè)蛋白質(zhì)的亞細(xì)胞定位。運(yùn)用核函數(shù)可以避免模式升維可能產(chǎn)生的“維數(shù)災(zāi)難”,即通過(guò)運(yùn)用一個(gè)非敏感性損耗函數(shù),非線性SVR的解即可通過(guò)下面方程求出: ()其約束條件為: ()由此可得拉格朗日待定系數(shù)和,回歸函數(shù) 則為: ()從以上方程的形式上可以看出,數(shù)學(xué)上它還是一個(gè)解決二次規(guī)劃的問(wèn)題??捎杉s束條件求解,由此求得的最優(yōu)分類函數(shù)是 : ()為符號(hào)函數(shù)。統(tǒng)計(jì)學(xué)習(xí)理論提出了一種新的策略,即結(jié)構(gòu)風(fēng)險(xiǎn)最小化((Structural Risk Mininimation, SRM)原則,把函數(shù)集構(gòu)造為一個(gè)函數(shù)子集序列,使各個(gè)子集按照VC維的大小排列,在每個(gè)子集中尋找最小經(jīng)驗(yàn)風(fēng)險(xiǎn),在子集間折衷考慮經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍,以取得實(shí)際風(fēng)險(xiǎn)的最小。在SLT理論研究的基礎(chǔ)上,又于1992年和1995年先后提出支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)算法支持向量分類(Support Vector Classification,簡(jiǎn)稱SVC)算法和支持向量回歸(Support Vector Regression,簡(jiǎn)稱SVR)算法。 Bagging的各個(gè)預(yù)測(cè)函數(shù)沒(méi)有權(quán)重,而Boosting是有權(quán)重的。訓(xùn)練的目標(biāo)是尋找一個(gè)優(yōu)化分類器ht,使之成為一個(gè)強(qiáng)分類器。n 最終經(jīng)過(guò)提升的強(qiáng)分類器。另一方面,雖然Boosting方法能夠增強(qiáng)神經(jīng)網(wǎng)絡(luò)集成的泛化能力,但是同時(shí)也有可能使集成過(guò)分偏向于某幾個(gè)特別困難的示例。為了解決過(guò)擬合問(wèn)題,按照集成學(xué)習(xí)的思想,可以選擇多個(gè)模型作為結(jié)果,對(duì)于每個(gè)模型賦予相應(yīng)的權(quán)重,從而集合生成合適的結(jié)果,提高預(yù)測(cè)精度。但是對(duì)于穩(wěn)定的算法來(lái)說(shuō),效果不是很好。1996年,Breiman[46]提出了與Boosting相似的技術(shù)Bagging,進(jìn)一步促進(jìn)了集成學(xué)習(xí)的發(fā)展。將上面的結(jié)論推廣到隨機(jī)森林,。表示某一葉子結(jié)點(diǎn)記錄的總事例數(shù)。隨機(jī)決策樹的構(gòu)造過(guò)程:對(duì)根結(jié)點(diǎn)和分支結(jié)點(diǎn)隨機(jī)的從屬性集合中選擇分裂屬性,在一條分支路徑上離散屬性僅出現(xiàn)一次,連續(xù)屬性可以出現(xiàn)多次。以屬性X為分類所需的期望熵(條件熵)是: ()其中sij是子集Sj中屬于類Ci的樣本數(shù), ,是sj中的樣本屬于Ci的概率。決策樹分類算法使用訓(xùn)練樣本集合構(gòu)造出一棵決策樹,從而實(shí)現(xiàn)了對(duì)樣本空間的劃分。第二部分介紹了預(yù)測(cè)模型的具體構(gòu)建方法與構(gòu)建過(guò)程。這也是結(jié)構(gòu)性質(zhì)/活性關(guān)系(Structure Property/Activity Relationship, SPR/SAR)的基本假設(shè)。第三, 在蛋白質(zhì)組研究中的應(yīng)用。常見的有指導(dǎo)學(xué)習(xí)包括:決策樹、Boosting與Bagging算法、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等。迄今為止,生物學(xué)數(shù)據(jù)庫(kù)總數(shù)已達(dá)500個(gè)以上。結(jié)果表明:用AdaBoost隨機(jī)森林算法作為弱分類器時(shí)有最好的建模結(jié)果,%;%。除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已發(fā)表或撰寫過(guò)的研究成果。該模型的留一交叉驗(yàn)證法的RMSE(最小殘差平方和),作為對(duì)比,多元線性回歸算法(MLR)、偏最小二乘法(PLS)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、 ;SVM與MLR、PLS、。[1]第二, 進(jìn)行數(shù)據(jù)處理和分析,通過(guò)信息分析發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系提取本質(zhì)規(guī)律,進(jìn)而上升為生物學(xué)知識(shí)。它們可以很快地給出較好的結(jié)果,但不能保證所得結(jié)果是最優(yōu)的。最后與保守的基序和圖形數(shù)據(jù)庫(kù)比較判斷功能。20世紀(jì)40年代起,化學(xué)家開始發(fā)現(xiàn)分子和其它化學(xué)物質(zhì)可以很方便地用多種不同的矩陣表示[12,13],化學(xué)圖的概念及拓?fù)渲笖?shù)(圖論指數(shù))[14,15]的引入使表征分子結(jié)構(gòu)并進(jìn)行化合物的構(gòu)效關(guān)系研究有了一個(gè)基本工具。在這個(gè)時(shí)期,所研究的是“沒(méi)有知識(shí)”的學(xué)習(xí),即“無(wú)知”學(xué)習(xí)。常用的修剪技術(shù)有預(yù)修剪(prepruning)和后修剪(postpruning)兩種。如此類推,直到子集中的數(shù)據(jù)記錄在主屬性上取值都相同,或沒(méi)有屬性可再供劃分使用,遞歸地形成初始決策樹。當(dāng)對(duì)事例X進(jìn)行分類時(shí),以各隨機(jī)樹輸出的后驗(yàn)概率均值最大的類為預(yù)測(cè)類。S為從根結(jié)點(diǎn)開始搜索到合適葉子結(jié)點(diǎn)處的事例個(gè)數(shù)。正確理解這兩者之間的相互影響是我們理解隨機(jī)森林工作原理的基礎(chǔ).. 集成學(xué)習(xí)算法 集成學(xué)習(xí)(Ensemble Learning)是一種新的機(jī)器學(xué)習(xí)范式,它使用多個(gè)(通常是同質(zhì)的)學(xué)習(xí)器來(lái)解決同一個(gè)問(wèn)題。 大致上來(lái)說(shuō),集成學(xué)習(xí)的構(gòu)成方法可以分為四種:1. 輸入變量集重構(gòu)法。在這樣的情況下,不同的參數(shù)選擇,最終的結(jié)果可能會(huì)有很大的區(qū)別,具有很大的不穩(wěn)定性。通過(guò)建立多個(gè)不同操作參數(shù)的模型,可以解決選取參數(shù)的難題,同時(shí)將不同模型的結(jié)果按照一定的方式集成就可以生成我們想要的結(jié)果。這個(gè)訓(xùn)練過(guò)程重復(fù)了次。2. 將弱分類器聯(lián)合起來(lái)時(shí),使用加權(quán)的投票機(jī)制代替平均投票機(jī)制。AdaBoost算法中很重要的一點(diǎn)就是選擇一個(gè)合適的弱分類器,選擇是否合適直接決定了建模的成敗?,F(xiàn)在,假定有一個(gè)數(shù)據(jù)集序列,每個(gè)序列都由m個(gè)與L從同樣分布下得來(lái)的獨(dú)立實(shí)例組成。而同時(shí),神經(jīng)網(wǎng)絡(luò)等較新興的機(jī)器學(xué)習(xí)方法的研究則遇到一些重要的困難,比如如何確定網(wǎng)絡(luò)結(jié)構(gòu)的問(wèn)題、過(guò)擬合與欠擬合問(wèn)題、局部極小點(diǎn)問(wèn)題等。 支持向量分類算法 最優(yōu)分類面 支持向量機(jī)方法是從線性可分情況下的最優(yōu)分類面提出的。SVR算法()的基礎(chǔ)主要是 不敏感損失函數(shù)( insensitive function)和核函數(shù)算法。 支持向量網(wǎng)絡(luò)示意圖事實(shí)上,:,訓(xùn)練后產(chǎn)生了s個(gè)支持向量(以下標(biāo)標(biāo)識(shí)),于是形成了s個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)(與人工神經(jīng)網(wǎng)絡(luò)類似,輸入層節(jié)點(diǎn)與“支持向量節(jié)點(diǎn)”之間,“支持向量節(jié)點(diǎn)”與輸出層節(jié)點(diǎn)之間都有“權(quán)重”),綜合起來(lái)就組成支持向量網(wǎng)絡(luò)。隨著基因組學(xué)的發(fā)展,生物數(shù)據(jù)庫(kù)中蛋白質(zhì)序列數(shù)據(jù)信息急劇膨脹[56]。從進(jìn)化的角度看,真核細(xì)胞是以膜系統(tǒng)分化為基礎(chǔ),具有核質(zhì)的分化。例如,在細(xì)胞分裂中細(xì)胞骨架牽引染色體分離,在細(xì)胞物質(zhì)運(yùn)輸中,各類小泡和細(xì)胞器可沿著細(xì)胞骨架定向轉(zhuǎn)運(yùn)。因而可以說(shuō),線粒體是細(xì)胞能量代謝的中心,是細(xì)胞內(nèi)的“動(dòng)力工廠”。因此,一個(gè)蛋白質(zhì)能否正確地被輸送到相應(yīng)的亞細(xì)胞定位對(duì)其行使功能是至關(guān)重要的。11. 原生質(zhì)膜(plasma membrane):又稱細(xì)胞外膜,是細(xì)胞的重要組成部分,它最基本的作用是維持細(xì)胞內(nèi)微環(huán)境的相對(duì)穩(wěn)定,并與外界環(huán)境不斷地進(jìn)行物質(zhì)交換,能量和信息的傳遞,對(duì)細(xì)胞的生存、生長(zhǎng)、分裂、分化都至關(guān)重要,維持了正常的生命活動(dòng)。內(nèi)質(zhì)網(wǎng)膜是大部分細(xì)胞器以及質(zhì)膜的所有跨膜蛋白及脂類合成的場(chǎng)所,也是蛋白質(zhì)的運(yùn)輸通道。分區(qū)化是細(xì)胞進(jìn)化高等的特征,它使細(xì)胞的代謝活動(dòng)比原核細(xì)胞大為提高。隨著后基因時(shí)代基因產(chǎn)品的泛濫,可以預(yù)期新發(fā)現(xiàn)的蛋白質(zhì)序列與它們的亞細(xì)胞定位知識(shí)之間的溝壑會(huì)繼續(xù)擴(kuò)大。每個(gè)算法都有各自的優(yōu)點(diǎn)和缺點(diǎn),都有各自具有優(yōu)勢(shì)的應(yīng)用領(lǐng)域。SVR采用核函數(shù)解決這一矛盾。d維空間中線性判別函數(shù)的一般形式為,分類面方程是,將判別函數(shù)進(jìn)行歸一化,使兩類所有樣本都滿足,此時(shí)離分類面最近的樣本,而要求分類面對(duì)所有樣本都能正確分類,就是要求它滿足 ()式(47)中使等號(hào)成立的那些樣本叫做支持向量(Support Vectors)。另一部分稱為置信范圍,它和學(xué)習(xí)機(jī)器的VC維h及訓(xùn)練樣本數(shù)n有關(guān)。Bagging的算法流程如下:1.給定訓(xùn)練樣本集。Bagging通過(guò)重新選取訓(xùn)練集增加了分量學(xué)習(xí)器集成的差異度,從而提高了泛化能力。對(duì)于h1分類錯(cuò)誤的樣本,加大其對(duì)應(yīng)的權(quán)重。已經(jīng)有理論證明任何弱分類算法都能夠被有效地轉(zhuǎn)變或者提升為強(qiáng)學(xué)習(xí)分類算法。如果兩者等價(jià),那么在學(xué)習(xí)概念時(shí),只要找到一個(gè)比隨機(jī)猜測(cè)略好的弱學(xué)習(xí)算法,就可以將其提升為強(qiáng)學(xué)習(xí)算法,而不必直接去找通常情況下很難獲得的強(qiáng)學(xué)習(xí)算法。有些學(xué)習(xí)算法單一的預(yù)測(cè)結(jié)果時(shí)好時(shí)壞,不具有穩(wěn)定性,不能一直保持高精度的預(yù)測(cè)。在這種構(gòu)成方法中,用于集成的每個(gè)算法所對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)都是原來(lái)訓(xùn)練數(shù)據(jù)的一個(gè)子集。正是這一超乎人們直覺的結(jié)果,使得集成學(xué)習(xí)引起了很多學(xué)者的重視。隨機(jī)向量可構(gòu)造決策分類樹,簡(jiǎn)化為。樹的個(gè)數(shù)N=10時(shí)有較低的分類錯(cuò)誤率,%。然后,使用每個(gè)分枝的錯(cuò)誤率,結(jié)合沿每個(gè)分枝觀察的權(quán)重評(píng)估,計(jì)算不對(duì)該節(jié)點(diǎn)剪枝的期望錯(cuò)誤率。尋找一棵最優(yōu)決策樹主要解決以下三個(gè)最優(yōu)化問(wèn)題:①生成最少數(shù)目的葉子,②生成的每個(gè)葉子的深度最小,③生成的決策樹葉子最少且每個(gè)葉子的深度最小。本階段的代表性工作有溫斯頓(Winston)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯羅思(HayesRoth)等的基本邏輯的歸納學(xué)習(xí)系統(tǒng)。1979年Crippen提出的距離幾何學(xué)方法[33]、1980年Hopfinger等人提出的分子形狀分析方法[34]、1988年Cramer等人提出的比較分子場(chǎng)方法(CoMFA) [35]是3DQSAR中最常用的手段。生物芯片主要包括基因芯片(GeneChip)或稱DNA芯片(DNAChip)、蛋白芯片(ProteinChip)和芯片實(shí)驗(yàn)室(Labona Chip)等。隨著人類基因組研究的發(fā)展,利用機(jī)器學(xué)習(xí)方法進(jìn)行基因識(shí)別被廣泛使用。第三, 開發(fā)分析工具和實(shí)用軟件解決具體問(wèn)題,為生物信息學(xué)的應(yīng)用服務(wù),如生物分子序列比較工具、基因識(shí)別工具、生物分子結(jié)構(gòu)預(yù)測(cè)工具、基因表達(dá)數(shù)據(jù)分析工具等。數(shù)據(jù)資源的急劇膨脹迫使人們尋求一種強(qiáng)有力的工具,運(yùn)用新的技術(shù)手段對(duì)復(fù)雜的海量生物信息進(jìn)行儲(chǔ)存、管理、分析和研究,并組織好這些數(shù)據(jù),以利于儲(chǔ)存、加工和利用,進(jìn)而達(dá)到有效管理、準(zhǔn)確解讀、充分使用這些信息的目的。本文的主體工作分為三個(gè)部分: 1. 用集成學(xué)習(xí)算法研究蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)。 本文的工作就是應(yīng)用機(jī)器學(xué)習(xí)方法來(lái)對(duì)生物信息數(shù)據(jù)進(jìn)行分析,處理。 Bagging got the best model with a correct rate of % in crossvalidation prediction, when KNN was selected as the weak classifer. Then, independent dataset test was used to validate the trained model, the result of AdaBoost and Bagging were % and % of prediction correct rate. As parison, SVM was used, and the result of training crossvalidation was % of correct rate, and the independent dataset test was % of correct rate. 2. Using support vector machine regression algorithm to take QSAR study in 1phenyl [2H]tetrahydrotriazine3one analogues. 1phenyl [2H]tetrahydrotriazine3one analogues could be used as 5lipoxygenase inhibitors. In this work, 12 topological indexes and 17 physical chemical parameters caculated by Hyperchem were used as the original molecular descriptors. Then, the descriptors were filtered based on SVR leaveoneout cross validation. As a result, 8 descriptors were selected to build the predicting model. The RMSE of this model using leaveoneout cross validation was . As parison, the RMSE value of multiple linear regression (MLR), partial least squares (PLS) and artificial neural network (ANN) were , and , respectively. The independent data sets of SVR, MLR, PLS, and ANN were tested to demonstrate the generalization alility of these models, and the results in RMSE values were , , , and , respectively. 3. Building online predicting server based on the gained model. The aim of building the bioinformatics predicting model is to supply a tool to predict unknowns in the biological information, and make the information to benefit human. Building online predicting server is an effective way. The predicting models available online can be used by experimental researchers. In this work, a design of server
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1