freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用畢業(yè)論文-wenkub

2023-04-22 03:36:30 本頁(yè)面
 

【正文】 e. 2. Using support vector machine regression algorithm to take QSAR study in 1phenyl [2H]tetrahydrotriazine3one analogues. 1phenyl [2H]tetrahydrotriazine3one analogues could be used as 5lipoxygenase inhibitors. In this work, 12 topological indexes and 17 physical chemical parameters caculated by Hyperchem were used as the original molecular descriptors. Then, the descriptors were filtered based on SVR leaveoneout cross validation. As a result, 8 descriptors were selected to build the predicting model. The RMSE of this model using leaveoneout cross validation was . As parison, the RMSE value of multiple linear regression (MLR), partial least squares (PLS) and artificial neural network (ANN) were , and , respectively. The independent data sets of SVR, MLR, PLS, and ANN were tested to demonstrate the generalization alility of these models, and the results in RMSE values were , , , and , respectively. 3. Building online predicting server based on the gained model. The aim of building the bioinformatics predicting model is to supply a tool to predict unknowns in the biological information, and make the information to benefit human. Building online predicting server is an effective way. The predicting models available online can be used by experimental researchers. In this work, a design of server based on MVC construction was brought out, which could increase the efficiency of building a series of online predicting server.Keywords: bioinformatics, quantitative structure activity relationship(QSAR), machine learning, integrated studying, support vector machine(SVM), support vector machine regression alogrithm(SVR), AdaBoost, Bagging, subcellular localization, 5lip inhibitors, online prediction server. 目錄摘要 VIAbstract VIII目錄 X緒論 1 1 機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用 2 QSAR簡(jiǎn)介 4 論文的主要內(nèi)容 5第一章 機(jī)器學(xué)習(xí)算法 6 決策樹(shù)算法 6 7 隨機(jī)決策樹(shù)算法 9 隨機(jī)森林算法 10. 集成學(xué)習(xí)算法 11 集成學(xué)習(xí)算法概述 11 AdaBoost算法 14 Boosting算法介紹 14 Adaboost算法描述 15 Bagging算法 17 Bagging 算法的提出 17 Bagging算法描述 18 SVM算法 19 統(tǒng)計(jì)學(xué)習(xí)理論 19 支持向量分類(lèi)算法 21 最優(yōu)分類(lèi)面 21 21 23 支持向量回歸算法 23 ε不敏感損失函數(shù) 23 線性回歸情況 24 非線性回歸情況 25 支持向量機(jī)核函數(shù) 26 本章小結(jié) 28第二章 用集成學(xué)習(xí)算法預(yù)測(cè)亞細(xì)胞定位 29 蛋白質(zhì)亞細(xì)胞定位的生物學(xué)基礎(chǔ) 30 亞細(xì)胞定位預(yù)測(cè)方法現(xiàn)狀 33 數(shù)據(jù)集以及特征參數(shù)的提取 36 實(shí)驗(yàn)與分析 37 預(yù)報(bào)模型參數(shù)的選擇 37 預(yù)報(bào)模型 39 預(yù)報(bào)模型驗(yàn)證 39 分析與討論 40 本章小結(jié) 41第三章 5脂氧化酶抑制劑的QSAR研究 42 引言 42 材料和方法 43 數(shù)據(jù)集 43 計(jì)算機(jī)硬件與軟件 43 分子描述符 43 基于支持向量回歸算法的特征選擇 44 結(jié)果和討論 44 建模變量的選擇 44 SVR模型參數(shù)的選擇 44 SVR模型 48 SVR模型驗(yàn)證 48 討論 49 SVR參數(shù)的討論 49 敏感性分析 49 本章小結(jié) 51第四章 在線web預(yù)報(bào)服務(wù)器的建立 53 J2EE技術(shù)與MVC模式 53 J2EE概述 53 J2EE分布式多層應(yīng)用模型 54 MVC模式 56 基于J2EE的MVC模式 57 系統(tǒng)的總體設(shè)計(jì) 59 系統(tǒng)的結(jié)構(gòu)設(shè)計(jì) 59 系統(tǒng)環(huán)境與開(kāi)發(fā)工具 60 系統(tǒng)的詳細(xì)設(shè)計(jì) 61 已完成的在線web預(yù)報(bào)服務(wù)器 63 本章小結(jié) 64第五章 總結(jié)與展望 65 全文總結(jié) 65 工作展望 66參考文獻(xiàn) 67附錄一. 1苯基2氫四氫三嗪3酮同系物結(jié)構(gòu)及活性值數(shù)據(jù) 76攻讀碩士期間發(fā)表及已錄用論文 78致謝 7979第一章 緒論 20世紀(jì)后期,人類(lèi)和其他生物物種基因組學(xué)的研究飛速發(fā)展,生物信息的增長(zhǎng)驚人,生物科學(xué)技術(shù)極大地豐富了生物科學(xué)的數(shù)據(jù)資源。 3. 提出了一種基于MVC架構(gòu)的服務(wù)器設(shè)計(jì)途徑,建立了基于已得模型的在線預(yù)報(bào)服務(wù)器。 2. 用支持向量機(jī)回歸算法(SVR)對(duì)1苯基2氫四氫三嗪3酮同系物進(jìn)行QSAR研究。本文用基于序列氨基酸組成成分進(jìn)行蛋白質(zhì)序列特征編碼,選用了AdaBoost與Bagging這兩種最重要的集成學(xué)習(xí)算法來(lái)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行建模。 本文的工作就是應(yīng)用機(jī)器學(xué)習(xí)方法來(lái)對(duì)生物信息數(shù)據(jù)進(jìn)行分析,處理。參與同一工作的其他同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示了謝意。上海大學(xué)博士學(xué)位論文 2008年4月中圖分類(lèi)號(hào): 單位代號(hào):10280密 級(jí): 學(xué) 號(hào):05720159 碩士學(xué)位論文SHANGHAI UNIVERSITYMASTER DISSERTATION題目機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用 畢業(yè)論文作 者 金雨歡學(xué)科專(zhuān)業(yè) 物理化學(xué)導(dǎo) 師 陸文聰 教授完成日期 二零零八年五月XI上海大學(xué)碩士學(xué)位論文 2008年5月上海大學(xué)本論文經(jīng)答辯委員會(huì)全體委員審查,確認(rèn)符合上海大學(xué)碩士學(xué)位論文質(zhì)量要求。 簽 名: 日 期: 本論文使用授權(quán)說(shuō)明本人完全了解上海大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留論文及送交論文復(fù)印件,允許論文被查閱和借閱;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容。本文的主體工作分為三個(gè)部分: 1. 用集成學(xué)習(xí)算法研究蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)。在建模過(guò)程中,分別嘗試了用4種不同的弱分類(lèi)器來(lái)訓(xùn)練樣本,并用基于交叉驗(yàn)證法的建模結(jié)果來(lái)對(duì)建模參數(shù)進(jìn)行優(yōu)化。1苯基2氫四氫三嗪3酮同系物可用作5脂抗氧化酶抑制劑。建立生物信息學(xué)預(yù)報(bào)模型的目的是為了提供對(duì)生物信息中的未知對(duì)象進(jìn)行預(yù)報(bào)的工具,使得預(yù)測(cè)結(jié)果能夠?yàn)樗怂谩?shù)據(jù)資源的急劇膨脹迫使人們尋求一種強(qiáng)有力的工具,運(yùn)用新的技術(shù)手段對(duì)復(fù)雜的海量生物信息進(jìn)行儲(chǔ)存、管理、分析和研究,并組織好這些數(shù)據(jù),以利于儲(chǔ)存、加工和利用,進(jìn)而達(dá)到有效管理、準(zhǔn)確解讀、充分使用這些信息的目的。目前國(guó)際上已建立起許多公共生物分子數(shù)據(jù)庫(kù),包括基因圖譜數(shù)據(jù)庫(kù)、核酸序列數(shù)據(jù)庫(kù)、蛋白質(zhì)序列數(shù)據(jù)庫(kù)、生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)等,由專(zhuān)門(mén)的機(jī)構(gòu)建立和維護(hù)負(fù)責(zé)收集、組織、管理和發(fā)布生物分子數(shù)據(jù),并提供數(shù)據(jù)檢索和分析工具,向生物學(xué)研究人員提供大量有用的信息,最大限度地滿足他們的研究和應(yīng)用需要,為生物信息學(xué)研究服務(wù)。在蛋白質(zhì)和其它生物大分子的結(jié)構(gòu)方面有PDB等。目前生物信息學(xué)的主要研究對(duì)象是基因和蛋白質(zhì)。第三, 開(kāi)發(fā)分析工具和實(shí)用軟件解決具體問(wèn)題,為生物信息學(xué)的應(yīng)用服務(wù),如生物分子序列比較工具、基因識(shí)別工具、生物分子結(jié)構(gòu)預(yù)測(cè)工具、基因表達(dá)數(shù)據(jù)分析工具等。這里的學(xué)習(xí)意味著從數(shù)據(jù)中學(xué)習(xí),它包括有指導(dǎo)學(xué)習(xí)(Supervised Learning)、無(wú)指導(dǎo)學(xué)習(xí)(UnsupervisedLearning)和半指導(dǎo)學(xué)習(xí)(SemiSupervised Learning)三種類(lèi)別。基本問(wèn)題是比較兩個(gè)或兩個(gè)以上符號(hào)序列的相似性。目前已用于序列對(duì)比分析的方法主要有:NeedlimanWunsch動(dòng)態(tài)規(guī)劃算法, Smith Waterman算法及Blast Fasta等相似性比較程序。隨著人類(lèi)基因組研究的發(fā)展,利用機(jī)器學(xué)習(xí)方法進(jìn)行基因識(shí)別被廣泛使用。生物信息學(xué)的方法是發(fā)現(xiàn)新基因的重要手段。利用Blast和Fasta工具與蛋白質(zhì)序列庫(kù)中的序列進(jìn)行同源性比較。目前利用機(jī)器學(xué)習(xí)方法預(yù)測(cè)蛋白質(zhì)空間結(jié)構(gòu)的方法主要有折疊識(shí)別以及神經(jīng)網(wǎng)絡(luò)、隱馬爾科夫、支持向量機(jī)、AdaBoost等方法。生物芯片主要包括基因芯片(GeneChip)或稱(chēng)DNA芯片(DNAChip)、蛋白芯片(ProteinChip)和芯片實(shí)驗(yàn)室(Labona Chip)等?;瘜W(xué)家們普遍認(rèn)為,化合物所表現(xiàn)出來(lái)的各種性質(zhì)/活性與化合物的結(jié)構(gòu)密不可分,即性質(zhì)/活性是結(jié)構(gòu)的函數(shù)。當(dāng)時(shí)只研究了少部分的化合物結(jié)構(gòu)參數(shù)與其活性關(guān)系,如取代基的電子效應(yīng)(Hammett的σ常數(shù)),立體參數(shù)(Taft參數(shù))以及疏水性參數(shù)(Hansch的分配常數(shù))。他們用統(tǒng)計(jì)方法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行歸納總結(jié)并建立結(jié)構(gòu)活性關(guān)系表達(dá)式,探討結(jié)構(gòu)變化與生化活性之間的關(guān)系,標(biāo)志著QSAR時(shí)代的開(kāi)始。1979年Crippen提出的距離幾何學(xué)方法[33]、1980年Hopfinger等人提出的分子形狀分析方法[34]、1988年Cramer等人提出的比較分子場(chǎng)方法(CoMFA) [35]是3DQSAR中最常用的手段。 本文的主要內(nèi)容分為三個(gè)部分,第一部分介紹了常用的機(jī)器學(xué)習(xí)算法,以及它們的原理。 第二章 機(jī)器學(xué)習(xí)算法機(jī)器學(xué)習(xí)是人工智能研究較為年輕的分支,它的發(fā)展過(guò)程大體上分為四個(gè)時(shí)期。本階段的代表性工作是:塞繆爾(Samuel)的下棋程序。本階段的代表性工作有溫斯頓(Winston)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯羅思(HayesRoth)等的基本邏輯的歸納學(xué)習(xí)系統(tǒng)。[8] 決策樹(shù)算法決策樹(shù)學(xué)習(xí)是一種逼近離散值函數(shù)的算法,對(duì)噪聲數(shù)據(jù)有很好的健壯性,且能夠?qū)W習(xí)析取表達(dá)式,是最流行的歸納推理算法之一,已經(jīng)成功應(yīng)用到醫(yī)療診斷、評(píng)估貸款申請(qǐng)的信用風(fēng)險(xiǎn)、雷達(dá)目標(biāo)識(shí)別、字符識(shí)別、醫(yī)學(xué)診斷和語(yǔ)音識(shí)別等廣闊領(lǐng)域[36,37]。如果一個(gè)樣本屬性A的取值為a2,屬性B的取值為b2,屬性C的取值為c1那么它屬于類(lèi)1[38]。[39]獲取大小合適的樹(shù)常用的方法是后剪枝。尋找一棵最優(yōu)決策樹(shù)主要解決以下三個(gè)最優(yōu)化問(wèn)題:①生成最少數(shù)目的葉子,②生成的每個(gè)葉子的深度最小,③生成的決策樹(shù)葉子最少且每個(gè)葉子的深度最小。 設(shè)屬性X具有v個(gè)值,它將S分成v個(gè)子集,其中Sj包含S中這樣的一些樣本,它們?cè)趯傩訶上具有值。依次計(jì)算每個(gè)屬性的信息增益Gain(X)以及信息增益率A(X),選取信息增益率最大的,但同時(shí)獲取的信息增益又不低于所有屬性平均值的屬性作為測(cè)試屬性,以該屬性作為結(jié)點(diǎn),屬性的每一個(gè)分布引出一個(gè)分枝,據(jù)此劃分樣本。之所以選取信息增益率大而信息增益不低于平均值的屬性,是因?yàn)楦咝畔⒃鲆媛时WC了高分枝屬性不會(huì)被選取,從而決策樹(shù)的樹(shù)型不會(huì)因某節(jié)點(diǎn)分枝太多而過(guò)于松散。然后,使用每個(gè)分枝的錯(cuò)誤率,結(jié)合沿每個(gè)分枝觀察的權(quán)重評(píng)估,計(jì)算不對(duì)該節(jié)點(diǎn)剪枝的期望錯(cuò)誤率。每個(gè)分支對(duì)應(yīng)結(jié)點(diǎn)分裂屬性Fi的可能取值。其它任何一個(gè)屬性測(cè)試都不能更好地分類(lèi)。(1)選擇樹(shù)的深度。樹(shù)的個(gè)數(shù)N=10時(shí)有較低的分類(lèi)錯(cuò)誤率,%。其中,si表示預(yù)測(cè)為di類(lèi)的事例數(shù), 表示決策屬性類(lèi)別。其中,N表示隨機(jī)決策樹(shù)的數(shù)目。在后驗(yàn)概率Pi中找出最大的一個(gè),其所對(duì)應(yīng)的預(yù)定類(lèi)別即為隨機(jī)決策樹(shù)最終的輸出結(jié)果。隨機(jī)向量可構(gòu)造決策分類(lèi)樹(shù),簡(jiǎn)化為。于是,分類(lèi)器的泛化誤差 ()其中下標(biāo)X,Y代表的是該誤差是在X,Y空間下的。隨機(jī)森林的泛化誤差上界可以根據(jù)兩個(gè)參數(shù)推導(dǎo)出來(lái):森林中每棵決策樹(shù)的分
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1