freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用畢業(yè)論文(專業(yè)版)

2025-05-19 03:36上一頁面

下一頁面
  

【正文】 植物液泡里含有多種礦物質(zhì)、糖、有機酸以及其它水溶性化合物。此外高爾基體還是細胞內(nèi)糖類合成的工廠在細胞生命活動中起多種重要的作用。葉綠體也含有自身的DNA,也是細胞內(nèi)的一種半自主性細胞器。細胞既是構(gòu)成統(tǒng)一機體的成員,受到機體整體活動的制約,又是生命活動的獨立單位。而這其中重要的一環(huán)就是確定每個蛋白質(zhì)的亞細胞定位。運用核函數(shù)可以避免模式升維可能產(chǎn)生的“維數(shù)災(zāi)難”,即通過運用一個非敏感性損耗函數(shù),非線性SVR的解即可通過下面方程求出: ()其約束條件為: ()由此可得拉格朗日待定系數(shù)和,回歸函數(shù) 則為: ()從以上方程的形式上可以看出,數(shù)學(xué)上它還是一個解決二次規(guī)劃的問題??捎杉s束條件求解,由此求得的最優(yōu)分類函數(shù)是 : ()為符號函數(shù)。統(tǒng)計學(xué)習(xí)理論提出了一種新的策略,即結(jié)構(gòu)風(fēng)險最小化((Structural Risk Mininimation, SRM)原則,把函數(shù)集構(gòu)造為一個函數(shù)子集序列,使各個子集按照VC維的大小排列,在每個子集中尋找最小經(jīng)驗風(fēng)險,在子集間折衷考慮經(jīng)驗風(fēng)險和置信范圍,以取得實際風(fēng)險的最小。在SLT理論研究的基礎(chǔ)上,又于1992年和1995年先后提出支持向量機(Support Vector Machine,簡稱SVM)算法支持向量分類(Support Vector Classification,簡稱SVC)算法和支持向量回歸(Support Vector Regression,簡稱SVR)算法。 Bagging的各個預(yù)測函數(shù)沒有權(quán)重,而Boosting是有權(quán)重的。訓(xùn)練的目標是尋找一個優(yōu)化分類器ht,使之成為一個強分類器。n 最終經(jīng)過提升的強分類器。另一方面,雖然Boosting方法能夠增強神經(jīng)網(wǎng)絡(luò)集成的泛化能力,但是同時也有可能使集成過分偏向于某幾個特別困難的示例。為了解決過擬合問題,按照集成學(xué)習(xí)的思想,可以選擇多個模型作為結(jié)果,對于每個模型賦予相應(yīng)的權(quán)重,從而集合生成合適的結(jié)果,提高預(yù)測精度。但是對于穩(wěn)定的算法來說,效果不是很好。1996年,Breiman[46]提出了與Boosting相似的技術(shù)Bagging,進一步促進了集成學(xué)習(xí)的發(fā)展。將上面的結(jié)論推廣到隨機森林,。表示某一葉子結(jié)點記錄的總事例數(shù)。隨機決策樹的構(gòu)造過程:對根結(jié)點和分支結(jié)點隨機的從屬性集合中選擇分裂屬性,在一條分支路徑上離散屬性僅出現(xiàn)一次,連續(xù)屬性可以出現(xiàn)多次。以屬性X為分類所需的期望熵(條件熵)是: ()其中sij是子集Sj中屬于類Ci的樣本數(shù), ,是sj中的樣本屬于Ci的概率。決策樹分類算法使用訓(xùn)練樣本集合構(gòu)造出一棵決策樹,從而實現(xiàn)了對樣本空間的劃分。第二部分介紹了預(yù)測模型的具體構(gòu)建方法與構(gòu)建過程。這也是結(jié)構(gòu)性質(zhì)/活性關(guān)系(Structure Property/Activity Relationship, SPR/SAR)的基本假設(shè)。第三, 在蛋白質(zhì)組研究中的應(yīng)用。常見的有指導(dǎo)學(xué)習(xí)包括:決策樹、Boosting與Bagging算法、人工神經(jīng)網(wǎng)絡(luò)和支持向量機等。迄今為止,生物學(xué)數(shù)據(jù)庫總數(shù)已達500個以上。結(jié)果表明:用AdaBoost隨機森林算法作為弱分類器時有最好的建模結(jié)果,%;%。除了文中特別加以標注和致謝的地方外,論文中不包含其他人已發(fā)表或撰寫過的研究成果。該模型的留一交叉驗證法的RMSE(最小殘差平方和),作為對比,多元線性回歸算法(MLR)、偏最小二乘法(PLS)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、 ;SVM與MLR、PLS、。[1]第二, 進行數(shù)據(jù)處理和分析,通過信息分析發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系提取本質(zhì)規(guī)律,進而上升為生物學(xué)知識。它們可以很快地給出較好的結(jié)果,但不能保證所得結(jié)果是最優(yōu)的。最后與保守的基序和圖形數(shù)據(jù)庫比較判斷功能。20世紀40年代起,化學(xué)家開始發(fā)現(xiàn)分子和其它化學(xué)物質(zhì)可以很方便地用多種不同的矩陣表示[12,13],化學(xué)圖的概念及拓撲指數(shù)(圖論指數(shù))[14,15]的引入使表征分子結(jié)構(gòu)并進行化合物的構(gòu)效關(guān)系研究有了一個基本工具。在這個時期,所研究的是“沒有知識”的學(xué)習(xí),即“無知”學(xué)習(xí)。常用的修剪技術(shù)有預(yù)修剪(prepruning)和后修剪(postpruning)兩種。如此類推,直到子集中的數(shù)據(jù)記錄在主屬性上取值都相同,或沒有屬性可再供劃分使用,遞歸地形成初始決策樹。當對事例X進行分類時,以各隨機樹輸出的后驗概率均值最大的類為預(yù)測類。S為從根結(jié)點開始搜索到合適葉子結(jié)點處的事例個數(shù)。正確理解這兩者之間的相互影響是我們理解隨機森林工作原理的基礎(chǔ).. 集成學(xué)習(xí)算法 集成學(xué)習(xí)(Ensemble Learning)是一種新的機器學(xué)習(xí)范式,它使用多個(通常是同質(zhì)的)學(xué)習(xí)器來解決同一個問題。 大致上來說,集成學(xué)習(xí)的構(gòu)成方法可以分為四種:1. 輸入變量集重構(gòu)法。在這樣的情況下,不同的參數(shù)選擇,最終的結(jié)果可能會有很大的區(qū)別,具有很大的不穩(wěn)定性。通過建立多個不同操作參數(shù)的模型,可以解決選取參數(shù)的難題,同時將不同模型的結(jié)果按照一定的方式集成就可以生成我們想要的結(jié)果。這個訓(xùn)練過程重復(fù)了次。2. 將弱分類器聯(lián)合起來時,使用加權(quán)的投票機制代替平均投票機制。AdaBoost算法中很重要的一點就是選擇一個合適的弱分類器,選擇是否合適直接決定了建模的成敗?,F(xiàn)在,假定有一個數(shù)據(jù)集序列,每個序列都由m個與L從同樣分布下得來的獨立實例組成。而同時,神經(jīng)網(wǎng)絡(luò)等較新興的機器學(xué)習(xí)方法的研究則遇到一些重要的困難,比如如何確定網(wǎng)絡(luò)結(jié)構(gòu)的問題、過擬合與欠擬合問題、局部極小點問題等。 支持向量分類算法 最優(yōu)分類面 支持向量機方法是從線性可分情況下的最優(yōu)分類面提出的。SVR算法()的基礎(chǔ)主要是 不敏感損失函數(shù)( insensitive function)和核函數(shù)算法。 支持向量網(wǎng)絡(luò)示意圖事實上,:,訓(xùn)練后產(chǎn)生了s個支持向量(以下標標識),于是形成了s個網(wǎng)絡(luò)節(jié)點(與人工神經(jīng)網(wǎng)絡(luò)類似,輸入層節(jié)點與“支持向量節(jié)點”之間,“支持向量節(jié)點”與輸出層節(jié)點之間都有“權(quán)重”),綜合起來就組成支持向量網(wǎng)絡(luò)。隨著基因組學(xué)的發(fā)展,生物數(shù)據(jù)庫中蛋白質(zhì)序列數(shù)據(jù)信息急劇膨脹[56]。從進化的角度看,真核細胞是以膜系統(tǒng)分化為基礎(chǔ),具有核質(zhì)的分化。例如,在細胞分裂中細胞骨架牽引染色體分離,在細胞物質(zhì)運輸中,各類小泡和細胞器可沿著細胞骨架定向轉(zhuǎn)運。因而可以說,線粒體是細胞能量代謝的中心,是細胞內(nèi)的“動力工廠”。因此,一個蛋白質(zhì)能否正確地被輸送到相應(yīng)的亞細胞定位對其行使功能是至關(guān)重要的。11. 原生質(zhì)膜(plasma membrane):又稱細胞外膜,是細胞的重要組成部分,它最基本的作用是維持細胞內(nèi)微環(huán)境的相對穩(wěn)定,并與外界環(huán)境不斷地進行物質(zhì)交換,能量和信息的傳遞,對細胞的生存、生長、分裂、分化都至關(guān)重要,維持了正常的生命活動。內(nèi)質(zhì)網(wǎng)膜是大部分細胞器以及質(zhì)膜的所有跨膜蛋白及脂類合成的場所,也是蛋白質(zhì)的運輸通道。分區(qū)化是細胞進化高等的特征,它使細胞的代謝活動比原核細胞大為提高。隨著后基因時代基因產(chǎn)品的泛濫,可以預(yù)期新發(fā)現(xiàn)的蛋白質(zhì)序列與它們的亞細胞定位知識之間的溝壑會繼續(xù)擴大。每個算法都有各自的優(yōu)點和缺點,都有各自具有優(yōu)勢的應(yīng)用領(lǐng)域。SVR采用核函數(shù)解決這一矛盾。d維空間中線性判別函數(shù)的一般形式為,分類面方程是,將判別函數(shù)進行歸一化,使兩類所有樣本都滿足,此時離分類面最近的樣本,而要求分類面對所有樣本都能正確分類,就是要求它滿足 ()式(47)中使等號成立的那些樣本叫做支持向量(Support Vectors)。另一部分稱為置信范圍,它和學(xué)習(xí)機器的VC維h及訓(xùn)練樣本數(shù)n有關(guān)。Bagging的算法流程如下:1.給定訓(xùn)練樣本集。Bagging通過重新選取訓(xùn)練集增加了分量學(xué)習(xí)器集成的差異度,從而提高了泛化能力。對于h1分類錯誤的樣本,加大其對應(yīng)的權(quán)重。已經(jīng)有理論證明任何弱分類算法都能夠被有效地轉(zhuǎn)變或者提升為強學(xué)習(xí)分類算法。如果兩者等價,那么在學(xué)習(xí)概念時,只要找到一個比隨機猜測略好的弱學(xué)習(xí)算法,就可以將其提升為強學(xué)習(xí)算法,而不必直接去找通常情況下很難獲得的強學(xué)習(xí)算法。有些學(xué)習(xí)算法單一的預(yù)測結(jié)果時好時壞,不具有穩(wěn)定性,不能一直保持高精度的預(yù)測。在這種構(gòu)成方法中,用于集成的每個算法所對應(yīng)的訓(xùn)練數(shù)據(jù)都是原來訓(xùn)練數(shù)據(jù)的一個子集。正是這一超乎人們直覺的結(jié)果,使得集成學(xué)習(xí)引起了很多學(xué)者的重視。隨機向量可構(gòu)造決策分類樹,簡化為。樹的個數(shù)N=10時有較低的分類錯誤率,%。然后,使用每個分枝的錯誤率,結(jié)合沿每個分枝觀察的權(quán)重評估,計算不對該節(jié)點剪枝的期望錯誤率。尋找一棵最優(yōu)決策樹主要解決以下三個最優(yōu)化問題:①生成最少數(shù)目的葉子,②生成的每個葉子的深度最小,③生成的決策樹葉子最少且每個葉子的深度最小。本階段的代表性工作有溫斯頓(Winston)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯羅思(HayesRoth)等的基本邏輯的歸納學(xué)習(xí)系統(tǒng)。1979年Crippen提出的距離幾何學(xué)方法[33]、1980年Hopfinger等人提出的分子形狀分析方法[34]、1988年Cramer等人提出的比較分子場方法(CoMFA) [35]是3DQSAR中最常用的手段。生物芯片主要包括基因芯片(GeneChip)或稱DNA芯片(DNAChip)、蛋白芯片(ProteinChip)和芯片實驗室(Labona Chip)等。隨著人類基因組研究的發(fā)展,利用機器學(xué)習(xí)方法進行基因識別被廣泛使用。第三, 開發(fā)分析工具和實用軟件解決具體問題,為生物信息學(xué)的應(yīng)用服務(wù),如生物分子序列比較工具、基因識別工具、生物分子結(jié)構(gòu)預(yù)測工具、基因表達數(shù)據(jù)分析工具等。數(shù)據(jù)資源的急劇膨脹迫使人們尋求一種強有力的工具,運用新的技術(shù)手段對復(fù)雜的海量生物信息進行儲存、管理、分析和研究,并組織好這些數(shù)據(jù),以利于儲存、加工和利用,進而達到有效管理、準確解讀、充分使用這些信息的目的。本文的主體工作分為三個部分: 1. 用集成學(xué)習(xí)算法研究蛋白質(zhì)亞細胞定位預(yù)測。 本文的工作就是應(yīng)用機器學(xué)習(xí)方法來對生物信息數(shù)據(jù)進行分析,處理。 Bagging got the best model with a correct rate of % in crossvalidation prediction, when KNN was selected as the weak classifer. Then, independent dataset test was used to validate the trained model, the result of AdaBoost and Bagging were % and % of prediction correct rate. As parison, SVM was used, and the result of training crossvalidation was % of correct rate, and the independent dataset test was % of correct rate. 2. Using support vector machine regression algorithm to take QSAR study in 1phenyl [2H]tetrahydrotriazine3one analogues. 1phenyl [2H]tetrahydrotriazine3one analogues could be used as 5lipoxygenase inhibitors. In this work, 12 topological indexes and 17 physical chemical parameters caculated by Hyperchem were used as the original molecular descriptors. Then, the descriptors were filtered based on SVR leaveoneout cross validation. As a result, 8 descriptors were selected to build the predicting model. The RMSE of this model using leaveoneout cross validation was . As parison, the RMSE value of multiple linear regression (MLR), partial least squares (PLS) and artificial neural network (ANN) were , and , respectively. The independent data sets of SVR, MLR, PLS, and ANN were tested to demonstrate the generalization alility of these models, and the results in RMSE values were , , , and , respectively. 3. Building online predicting server based on the gained model. The aim of building the bioinformatics predicting model is to supply a tool to predict unknowns in the biological information, and make the information to benefit human. Building online predicting server is an effective way. The predicting models available online can be used by experimental researchers. In this work, a design of server
點擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1