【正文】
e. 2. Using support vector machine regression algorithm to take QSAR study in 1phenyl [2H]tetrahydrotriazine3one analogues. 1phenyl [2H]tetrahydrotriazine3one analogues could be used as 5lipoxygenase inhibitors. In this work, 12 topological indexes and 17 physical chemical parameters caculated by Hyperchem were used as the original molecular descriptors. Then, the descriptors were filtered based on SVR leaveoneout cross validation. As a result, 8 descriptors were selected to build the predicting model. The RMSE of this model using leaveoneout cross validation was . As parison, the RMSE value of multiple linear regression (MLR), partial least squares (PLS) and artificial neural network (ANN) were , and , respectively. The independent data sets of SVR, MLR, PLS, and ANN were tested to demonstrate the generalization alility of these models, and the results in RMSE values were , , , and , respectively. 3. Building online predicting server based on the gained model. The aim of building the bioinformatics predicting model is to supply a tool to predict unknowns in the biological information, and make the information to benefit human. Building online predicting server is an effective way. The predicting models available online can be used by experimental researchers. In this work, a design of server based on MVC construction was brought out, which could increase the efficiency of building a series of online predicting server.Keywords: bioinformatics, quantitative structure activity relationship(QSAR), machine learning, integrated studying, support vector machine(SVM), support vector machine regression alogrithm(SVR), AdaBoost, Bagging, subcellular localization, 5lip inhibitors, online prediction server.目錄摘要 VIAbstract VIII目錄 X緒論 1 1 機器學習算法在生物信息學中的應用 2 QSAR簡介 4 論文的主要內(nèi)容 5第一章 機器學習算法 6 決策樹算法 6 7 隨機決策樹算法 9 隨機森林算法 10. 集成學習算法 11 集成學習算法概述 11 AdaBoost算法 14 Boosting算法介紹 14 Adaboost算法描述 15 Bagging算法 17 Bagging 算法的提出 17 Bagging算法描述 18 SVM算法 19 統(tǒng)計學習理論 19 支持向量分類算法 21 最優(yōu)分類面 21 21 23 支持向量回歸算法 23 ε不敏感損失函數(shù) 23 線性回歸情況 24 非線性回歸情況 25 支持向量機核函數(shù) 26 本章小結(jié) 28第二章 用集成學習算法預測亞細胞定位 29 蛋白質(zhì)亞細胞定位的生物學基礎(chǔ) 30 亞細胞定位預測方法現(xiàn)狀 33 數(shù)據(jù)集以及特征參數(shù)的提取 36 實驗與分析 37 預報模型參數(shù)的選擇 37 預報模型 39 預報模型驗證 39 分析與討論 40 本章小結(jié) 41第三章 5脂氧化酶抑制劑的QSAR研究 42 引言 42 材料和方法 43 數(shù)據(jù)集 43 計算機硬件與軟件 43 分子描述符 43 基于支持向量回歸算法的特征選擇 44 結(jié)果和討論 44 建模變量的選擇 44 SVR模型參數(shù)的選擇 44 SVR模型 48 SVR模型驗證 48 討論 49 SVR參數(shù)的討論 49 敏感性分析 49 本章小結(jié) 51第四章 在線web預報服務器的建立 53 J2EE技術(shù)與MVC模式 53 J2EE概述 53 J2EE分布式多層應用模型 54 MVC模式 56 基于J2EE的MVC模式 57 系統(tǒng)的總體設(shè)計 59 系統(tǒng)的結(jié)構(gòu)設(shè)計 59 系統(tǒng)環(huán)境與開發(fā)工具 60 系統(tǒng)的詳細設(shè)計 61 已完成的在線web預報服務器 63 本章小結(jié) 64第五章 總結(jié)與展望 65 全文總結(jié) 65 工作展望 66參考文獻 67附錄一. 1苯基2氫四氫三嗪3酮同系物結(jié)構(gòu)及活性值數(shù)據(jù) 76攻讀碩士期間發(fā)表及已錄用論文 78致謝 7979第一章 緒論 20世紀后期,人類和其他生物物種基因組學的研究飛速發(fā)展,生物信息的增長驚人,生物科學技術(shù)極大地豐富了生物科學的數(shù)據(jù)資源。 3. 提出了一種基于MVC架構(gòu)的服務器設(shè)計途徑,建立了基于已得模型的在線預報服務器。 2. 用支持向量機回歸算法(SVR)對1苯基2氫四氫三嗪3酮同系物進行QSAR研究。本文用基于序列氨基酸組成成分進行蛋白質(zhì)序列特征編碼,選用了AdaBoost與Bagging這兩種最重要的集成學習算法來對訓練數(shù)據(jù)集進行建模。 本文的工作就是應用機器學習方法來對生物信息數(shù)據(jù)進行分析,處理。參與同一工作的其他同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。上海大學博士學位論文 2008年4月中圖分類號: 單位代號:10280密 級: 學 號:05720159 碩士學位論文SHANGHAI UNIVERSITYMASTER DISSERTATION題目機器學習算法在生物信息學中的應用機器學習算法在生物信息學中的應用 畢業(yè)論文作 者 金雨歡學科專業(yè) 物理化學導 師 陸文聰 教授完成日期 二零零八年五月XI上海大學碩士學位論文 2008年5月上海大學本論文經(jīng)答辯委員會全體委員審查,確認符合上海大學碩士學位論文質(zhì)量要求。 簽 名: 日 期: 本論文使用授權(quán)說明本人完全了解上海大學有關(guān)保留、使用學位論文的規(guī)定,即:學校有權(quán)保留論文及送交論文復印件,允許論文被查閱和借閱;學??梢怨颊撐牡娜炕虿糠謨?nèi)容。本文的主體工作分為三個部分: 1. 用集成學習算法研究蛋白質(zhì)亞細胞定位預測。在建模過程中,分別嘗試了用4種不同的弱分類器來訓練樣本,并用基于交叉驗證法的建模結(jié)果來對建模參數(shù)進行優(yōu)化。1苯基2氫四氫三嗪3酮同系物可用作5脂抗氧化酶抑制劑。建立生物信息學預報模型的目的是為了提供對生物信息中的未知對象進行預報的工具,使得預測結(jié)果能夠為他人所用。數(shù)據(jù)資源的急劇膨脹迫使人們尋求一種強有力的工具,運用新的技術(shù)手段對復雜的海量生物信息進行儲存、管理、分析和研究,并組織好這些數(shù)據(jù),以利于儲存、加工和利用,進而達到有效管理、準確解讀、充分使用這些信息的目的。目前國際上已建立起許多公共生物分子數(shù)據(jù)庫,包括基因圖譜數(shù)據(jù)庫、核酸序列數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫、生物大分子結(jié)構(gòu)數(shù)據(jù)庫等,由專門的機構(gòu)建立和維護負責收集、組織、管理和發(fā)布生物分子數(shù)據(jù),并提供數(shù)據(jù)檢索和分析工具,向生物學研究人員提供大量有用的信息,最大限度地滿足他們的研究和應用需要,為生物信息學研究服務。在蛋白質(zhì)和其它生物大分子的結(jié)構(gòu)方面有PDB等。目前生物信息學的主要研究對象是基因和蛋白質(zhì)。第三, 開發(fā)分析工具和實用軟件解決具體問題,為生物信息學的應用服務,如生物分子序列比較工具、基因識別工具、生物分子結(jié)構(gòu)預測工具、基因表達數(shù)據(jù)分析工具等。這里的學習意味著從數(shù)據(jù)中學習,它包括有指導學習(Supervised Learning)、無指導學習(UnsupervisedLearning)和半指導學習(SemiSupervised Learning)三種類別?;締栴}是比較兩個或兩個以上符號序列的相似性。目前已用于序列對比分析的方法主要有:NeedlimanWunsch動態(tài)規(guī)劃算法, Smith Waterman算法及Blast Fasta等相似性比較程序。隨著人類基因組研究的發(fā)展,利用機器學習方法進行基因識別被廣泛使用。生物信息學的方法是發(fā)現(xiàn)新基因的重要手段。利用Blast和Fasta工具與蛋白質(zhì)序列庫中的序列進行同源性比較。目前利用機器學習方法預測蛋白質(zhì)空間結(jié)構(gòu)的方法主要有折疊識別以及神經(jīng)網(wǎng)絡、隱馬爾科夫、支持向量機、AdaBoost等方法。生物芯片主要包括基因芯片(GeneChip)或稱DNA芯片(DNAChip)、蛋白芯片(ProteinChip)和芯片實驗室(Labona Chip)等。化學家們普遍認為,化合物所表現(xiàn)出來的各種性質(zhì)/活性與化合物的結(jié)構(gòu)密不可分,即性質(zhì)/活性是結(jié)構(gòu)的函數(shù)。當時只研究了少部分的化合物結(jié)構(gòu)參數(shù)與其活性關(guān)系,如取代基的電子效應(Hammett的σ常數(shù)),立體參數(shù)(Taft參數(shù))以及疏水性參數(shù)(Hansch的分配常數(shù))。他們用統(tǒng)計方法對實驗數(shù)據(jù)進行歸納總結(jié)并建立結(jié)構(gòu)活性關(guān)系表達式,探討結(jié)構(gòu)變化與生化活性之間的關(guān)系,標志著QSAR時代的開始。1979年Crippen提出的距離幾何學方法[33]、1980年Hopfinger等人提出的分子形狀分析方法[34]、1988年Cramer等人提出的比較分子場方法(CoMFA) [35]是3DQSAR中最常用的手段。 本文的主要內(nèi)容分為三個部分,第一部分介紹了常用的機器學習算法,以及它們的原理。第二章 機器學習算法機器學習是人工智能研究較為年輕的分支,它的發(fā)展過程大體上分為四個時期。本階段的代表性工作是:塞繆爾(Samuel)的下棋程序。本階段的代表性工作有溫斯頓(Winston)的結(jié)構(gòu)學習系統(tǒng)和海斯羅思(HayesRoth)等的基本邏輯的歸納學習系統(tǒng)。[8] 決策樹算法決策樹學習是一種逼近離散值函數(shù)的算法,對噪聲數(shù)據(jù)有很好的健壯性,且能夠?qū)W習析取表達式,是最流行的歸納推理算法之一,已經(jīng)成功應用到醫(yī)療診斷、評估貸款申請的信用風險、雷達目標識別、字符識別、醫(yī)學診斷和語音識別等廣闊領(lǐng)域[36,37]。如果一個樣本屬性A的取值為a2,屬性B的取值為b2,屬性C的取值為c1那么它屬于類1[38]。[39]獲取大小合適的樹常用的方法是后剪枝。尋找一棵最優(yōu)決策樹主要解決以下三個最優(yōu)化問題:①生成最少數(shù)目的葉子,②生成的每個葉子的深度最小,③生成的決策樹葉子最少且每個葉子的深度最小。 設(shè)屬性X具有v個值,它將S分成v個子集,其中Sj包含S中這樣的一些樣本,它們在屬性X上具有值。依次計算每個屬性的信息增益Gain(X)以及信息增益率A(X),選取信息增益率最大的,但同時獲取的信息增益又不低于所有屬性平均值的屬性作為測試屬性,以該屬性作為結(jié)點,屬性的每一個分布引出一個分枝,據(jù)此劃分樣本。之所以選取信息增益率大而信息增益不低于平均值的屬性,是因為高信息增益率保證了高分枝屬性不會被選取,從而決策樹的樹型不會因某節(jié)點分枝太多而過于松散。然后,使用每個分枝的錯誤率,結(jié)合沿每個分枝觀察的權(quán)重評估,計算不對該節(jié)點剪枝的期望錯誤率。每個分支對應結(jié)點分裂屬性Fi的可能取值。其它任何一個屬性測試都不能更好地分類。(1)選擇樹的深度。樹的個數(shù)N=10時有較低的分類錯誤率,%。其中,si表示預測為di類的事例數(shù), 表示決策屬性類別。其中,N表示隨機決策樹的數(shù)目。在后驗概率Pi中找出最大的一個,其所對應的預定類別即為隨機決策樹最終的輸出結(jié)果。隨機向量可構(gòu)造決策分類樹,簡化為。于是,分類器的泛化誤差 ()其中下標X,Y代表的是該誤差是在X,Y空間下的。隨機森林的泛化誤差上界可以根據(jù)兩個參數(shù)推導出來:森林中每棵決策樹的分