【正文】
e. 2. Using support vector machine regression algorithm to take QSAR study in 1phenyl [2H]tetrahydrotriazine3one analogues. 1phenyl [2H]tetrahydrotriazine3one analogues could be used as 5lipoxygenase inhibitors. In this work, 12 topological indexes and 17 physical chemical parameters caculated by Hyperchem were used as the original molecular descriptors. Then, the descriptors were filtered based on SVR leaveoneout cross validation. As a result, 8 descriptors were selected to build the predicting model. The RMSE of this model using leaveoneout cross validation was . As parison, the RMSE value of multiple linear regression (MLR), partial least squares (PLS) and artificial neural network (ANN) were , and , respectively. The independent data sets of SVR, MLR, PLS, and ANN were tested to demonstrate the generalization alility of these models, and the results in RMSE values were , , , and , respectively. 3. Building online predicting server based on the gained model. The aim of building the bioinformatics predicting model is to supply a tool to predict unknowns in the biological information, and make the information to benefit human. Building online predicting server is an effective way. The predicting models available online can be used by experimental researchers. In this work, a design of server based on MVC construction was brought out, which could increase the efficiency of building a series of online predicting server.Keywords: bioinformatics, quantitative structure activity relationship(QSAR), machine learning, integrated studying, support vector machine(SVM), support vector machine regression alogrithm(SVR), AdaBoost, Bagging, subcellular localization, 5lip inhibitors, online prediction server.目錄摘要 VIAbstract VIII目錄 X緒論 1 1 機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用 2 QSAR簡介 4 論文的主要內(nèi)容 5第一章 機(jī)器學(xué)習(xí)算法 6 決策樹算法 6 7 隨機(jī)決策樹算法 9 隨機(jī)森林算法 10. 集成學(xué)習(xí)算法 11 集成學(xué)習(xí)算法概述 11 AdaBoost算法 14 Boosting算法介紹 14 Adaboost算法描述 15 Bagging算法 17 Bagging 算法的提出 17 Bagging算法描述 18 SVM算法 19 統(tǒng)計學(xué)習(xí)理論 19 支持向量分類算法 21 最優(yōu)分類面 21 21 23 支持向量回歸算法 23 ε不敏感損失函數(shù) 23 線性回歸情況 24 非線性回歸情況 25 支持向量機(jī)核函數(shù) 26 本章小結(jié) 28第二章 用集成學(xué)習(xí)算法預(yù)測亞細(xì)胞定位 29 蛋白質(zhì)亞細(xì)胞定位的生物學(xué)基礎(chǔ) 30 亞細(xì)胞定位預(yù)測方法現(xiàn)狀 33 數(shù)據(jù)集以及特征參數(shù)的提取 36 實驗與分析 37 預(yù)報模型參數(shù)的選擇 37 預(yù)報模型 39 預(yù)報模型驗證 39 分析與討論 40 本章小結(jié) 41第三章 5脂氧化酶抑制劑的QSAR研究 42 引言 42 材料和方法 43 數(shù)據(jù)集 43 計算機(jī)硬件與軟件 43 分子描述符 43 基于支持向量回歸算法的特征選擇 44 結(jié)果和討論 44 建模變量的選擇 44 SVR模型參數(shù)的選擇 44 SVR模型 48 SVR模型驗證 48 討論 49 SVR參數(shù)的討論 49 敏感性分析 49 本章小結(jié) 51第四章 在線web預(yù)報服務(wù)器的建立 53 J2EE技術(shù)與MVC模式 53 J2EE概述 53 J2EE分布式多層應(yīng)用模型 54 MVC模式 56 基于J2EE的MVC模式 57 系統(tǒng)的總體設(shè)計 59 系統(tǒng)的結(jié)構(gòu)設(shè)計 59 系統(tǒng)環(huán)境與開發(fā)工具 60 系統(tǒng)的詳細(xì)設(shè)計 61 已完成的在線web預(yù)報服務(wù)器 63 本章小結(jié) 64第五章 總結(jié)與展望 65 全文總結(jié) 65 工作展望 66參考文獻(xiàn) 67附錄一. 1苯基2氫四氫三嗪3酮同系物結(jié)構(gòu)及活性值數(shù)據(jù) 76攻讀碩士期間發(fā)表及已錄用論文 78致謝 7979第一章 緒論 20世紀(jì)后期,人類和其他生物物種基因組學(xué)的研究飛速發(fā)展,生物信息的增長驚人,生物科學(xué)技術(shù)極大地豐富了生物科學(xué)的數(shù)據(jù)資源。 3. 提出了一種基于MVC架構(gòu)的服務(wù)器設(shè)計途徑,建立了基于已得模型的在線預(yù)報服務(wù)器。 2. 用支持向量機(jī)回歸算法(SVR)對1苯基2氫四氫三嗪3酮同系物進(jìn)行QSAR研究。本文用基于序列氨基酸組成成分進(jìn)行蛋白質(zhì)序列特征編碼,選用了AdaBoost與Bagging這兩種最重要的集成學(xué)習(xí)算法來對訓(xùn)練數(shù)據(jù)集進(jìn)行建模。 本文的工作就是應(yīng)用機(jī)器學(xué)習(xí)方法來對生物信息數(shù)據(jù)進(jìn)行分析,處理。參與同一工作的其他同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。上海大學(xué)博士學(xué)位論文 2008年4月中圖分類號: 單位代號:10280密 級: 學(xué) 號:05720159 碩士學(xué)位論文SHANGHAI UNIVERSITYMASTER DISSERTATION題目機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用 畢業(yè)論文作 者 金雨歡學(xué)科專業(yè) 物理化學(xué)導(dǎo) 師 陸文聰 教授完成日期 二零零八年五月XI上海大學(xué)碩士學(xué)位論文 2008年5月上海大學(xué)本論文經(jīng)答辯委員會全體委員審查,確認(rèn)符合上海大學(xué)碩士學(xué)位論文質(zhì)量要求。 簽 名: 日 期: 本論文使用授權(quán)說明本人完全了解上海大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留論文及送交論文復(fù)印件,允許論文被查閱和借閱;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容。本文的主體工作分為三個部分: 1. 用集成學(xué)習(xí)算法研究蛋白質(zhì)亞細(xì)胞定位預(yù)測。在建模過程中,分別嘗試了用4種不同的弱分類器來訓(xùn)練樣本,并用基于交叉驗證法的建模結(jié)果來對建模參數(shù)進(jìn)行優(yōu)化。1苯基2氫四氫三嗪3酮同系物可用作5脂抗氧化酶抑制劑。建立生物信息學(xué)預(yù)報模型的目的是為了提供對生物信息中的未知對象進(jìn)行預(yù)報的工具,使得預(yù)測結(jié)果能夠為他人所用。數(shù)據(jù)資源的急劇膨脹迫使人們尋求一種強(qiáng)有力的工具,運(yùn)用新的技術(shù)手段對復(fù)雜的海量生物信息進(jìn)行儲存、管理、分析和研究,并組織好這些數(shù)據(jù),以利于儲存、加工和利用,進(jìn)而達(dá)到有效管理、準(zhǔn)確解讀、充分使用這些信息的目的。目前國際上已建立起許多公共生物分子數(shù)據(jù)庫,包括基因圖譜數(shù)據(jù)庫、核酸序列數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫、生物大分子結(jié)構(gòu)數(shù)據(jù)庫等,由專門的機(jī)構(gòu)建立和維護(hù)負(fù)責(zé)收集、組織、管理和發(fā)布生物分子數(shù)據(jù),并提供數(shù)據(jù)檢索和分析工具,向生物學(xué)研究人員提供大量有用的信息,最大限度地滿足他們的研究和應(yīng)用需要,為生物信息學(xué)研究服務(wù)。在蛋白質(zhì)和其它生物大分子的結(jié)構(gòu)方面有PDB等。目前生物信息學(xué)的主要研究對象是基因和蛋白質(zhì)。第三, 開發(fā)分析工具和實用軟件解決具體問題,為生物信息學(xué)的應(yīng)用服務(wù),如生物分子序列比較工具、基因識別工具、生物分子結(jié)構(gòu)預(yù)測工具、基因表達(dá)數(shù)據(jù)分析工具等。這里的學(xué)習(xí)意味著從數(shù)據(jù)中學(xué)習(xí),它包括有指導(dǎo)學(xué)習(xí)(Supervised Learning)、無指導(dǎo)學(xué)習(xí)(UnsupervisedLearning)和半指導(dǎo)學(xué)習(xí)(SemiSupervised Learning)三種類別?;締栴}是比較兩個或兩個以上符號序列的相似性。目前已用于序列對比分析的方法主要有:NeedlimanWunsch動態(tài)規(guī)劃算法, Smith Waterman算法及Blast Fasta等相似性比較程序。隨著人類基因組研究的發(fā)展,利用機(jī)器學(xué)習(xí)方法進(jìn)行基因識別被廣泛使用。生物信息學(xué)的方法是發(fā)現(xiàn)新基因的重要手段。利用Blast和Fasta工具與蛋白質(zhì)序列庫中的序列進(jìn)行同源性比較。目前利用機(jī)器學(xué)習(xí)方法預(yù)測蛋白質(zhì)空間結(jié)構(gòu)的方法主要有折疊識別以及神經(jīng)網(wǎng)絡(luò)、隱馬爾科夫、支持向量機(jī)、AdaBoost等方法。生物芯片主要包括基因芯片(GeneChip)或稱DNA芯片(DNAChip)、蛋白芯片(ProteinChip)和芯片實驗室(Labona Chip)等。化學(xué)家們普遍認(rèn)為,化合物所表現(xiàn)出來的各種性質(zhì)/活性與化合物的結(jié)構(gòu)密不可分,即性質(zhì)/活性是結(jié)構(gòu)的函數(shù)。當(dāng)時只研究了少部分的化合物結(jié)構(gòu)參數(shù)與其活性關(guān)系,如取代基的電子效應(yīng)(Hammett的σ常數(shù)),立體參數(shù)(Taft參數(shù))以及疏水性參數(shù)(Hansch的分配常數(shù))。他們用統(tǒng)計方法對實驗數(shù)據(jù)進(jìn)行歸納總結(jié)并建立結(jié)構(gòu)活性關(guān)系表達(dá)式,探討結(jié)構(gòu)變化與生化活性之間的關(guān)系,標(biāo)志著QSAR時代的開始。1979年Crippen提出的距離幾何學(xué)方法[33]、1980年Hopfinger等人提出的分子形狀分析方法[34]、1988年Cramer等人提出的比較分子場方法(CoMFA) [35]是3DQSAR中最常用的手段。 本文的主要內(nèi)容分為三個部分,第一部分介紹了常用的機(jī)器學(xué)習(xí)算法,以及它們的原理。第二章 機(jī)器學(xué)習(xí)算法機(jī)器學(xué)習(xí)是人工智能研究較為年輕的分支,它的發(fā)展過程大體上分為四個時期。本階段的代表性工作是:塞繆爾(Samuel)的下棋程序。本階段的代表性工作有溫斯頓(Winston)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯羅思(HayesRoth)等的基本邏輯的歸納學(xué)習(xí)系統(tǒng)。[8] 決策樹算法決策樹學(xué)習(xí)是一種逼近離散值函數(shù)的算法,對噪聲數(shù)據(jù)有很好的健壯性,且能夠?qū)W習(xí)析取表達(dá)式,是最流行的歸納推理算法之一,已經(jīng)成功應(yīng)用到醫(yī)療診斷、評估貸款申請的信用風(fēng)險、雷達(dá)目標(biāo)識別、字符識別、醫(yī)學(xué)診斷和語音識別等廣闊領(lǐng)域[36,37]。如果一個樣本屬性A的取值為a2,屬性B的取值為b2,屬性C的取值為c1那么它屬于類1[38]。[39]獲取大小合適的樹常用的方法是后剪枝。尋找一棵最優(yōu)決策樹主要解決以下三個最優(yōu)化問題:①生成最少數(shù)目的葉子,②生成的每個葉子的深度最小,③生成的決策樹葉子最少且每個葉子的深度最小。 設(shè)屬性X具有v個值,它將S分成v個子集,其中Sj包含S中這樣的一些樣本,它們在屬性X上具有值。依次計算每個屬性的信息增益Gain(X)以及信息增益率A(X),選取信息增益率最大的,但同時獲取的信息增益又不低于所有屬性平均值的屬性作為測試屬性,以該屬性作為結(jié)點(diǎn),屬性的每一個分布引出一個分枝,據(jù)此劃分樣本。之所以選取信息增益率大而信息增益不低于平均值的屬性,是因為高信息增益率保證了高分枝屬性不會被選取,從而決策樹的樹型不會因某節(jié)點(diǎn)分枝太多而過于松散。然后,使用每個分枝的錯誤率,結(jié)合沿每個分枝觀察的權(quán)重評估,計算不對該節(jié)點(diǎn)剪枝的期望錯誤率。每個分支對應(yīng)結(jié)點(diǎn)分裂屬性Fi的可能取值。其它任何一個屬性測試都不能更好地分類。(1)選擇樹的深度。樹的個數(shù)N=10時有較低的分類錯誤率,%。其中,si表示預(yù)測為di類的事例數(shù), 表示決策屬性類別。其中,N表示隨機(jī)決策樹的數(shù)目。在后驗概率Pi中找出最大的一個,其所對應(yīng)的預(yù)定類別即為隨機(jī)決策樹最終的輸出結(jié)果。隨機(jī)向量可構(gòu)造決策分類樹,簡化為。于是,分類器的泛化誤差 ()其中下標(biāo)X,Y代表的是該誤差是在X,Y空間下的。隨機(jī)森林的泛化誤差上界可以根據(jù)兩個參數(shù)推導(dǎo)出來:森林中每棵決策樹的分