freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用 畢業(yè)論文-文庫(kù)吧

2025-03-23 03:36 本頁(yè)面


【正文】 tudying, support vector machine(SVM), support vector machine regression alogrithm(SVR), AdaBoost, Bagging, subcellular localization, 5lip inhibitors, online prediction server. 目錄摘要 VIAbstract VIII目錄 X緒論 1 1 機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用 2 QSAR簡(jiǎn)介 4 論文的主要內(nèi)容 5第一章 機(jī)器學(xué)習(xí)算法 6 決策樹算法 6 7 隨機(jī)決策樹算法 9 隨機(jī)森林算法 10. 集成學(xué)習(xí)算法 11 集成學(xué)習(xí)算法概述 11 AdaBoost算法 14 Boosting算法介紹 14 Adaboost算法描述 15 Bagging算法 17 Bagging 算法的提出 17 Bagging算法描述 18 SVM算法 19 統(tǒng)計(jì)學(xué)習(xí)理論 19 支持向量分類算法 21 最優(yōu)分類面 21 21 23 支持向量回歸算法 23 ε不敏感損失函數(shù) 23 線性回歸情況 24 非線性回歸情況 25 支持向量機(jī)核函數(shù) 26 本章小結(jié) 28第二章 用集成學(xué)習(xí)算法預(yù)測(cè)亞細(xì)胞定位 29 蛋白質(zhì)亞細(xì)胞定位的生物學(xué)基礎(chǔ) 30 亞細(xì)胞定位預(yù)測(cè)方法現(xiàn)狀 33 數(shù)據(jù)集以及特征參數(shù)的提取 36 實(shí)驗(yàn)與分析 37 預(yù)報(bào)模型參數(shù)的選擇 37 預(yù)報(bào)模型 39 預(yù)報(bào)模型驗(yàn)證 39 分析與討論 40 本章小結(jié) 41第三章 5脂氧化酶抑制劑的QSAR研究 42 引言 42 材料和方法 43 數(shù)據(jù)集 43 計(jì)算機(jī)硬件與軟件 43 分子描述符 43 基于支持向量回歸算法的特征選擇 44 結(jié)果和討論 44 建模變量的選擇 44 SVR模型參數(shù)的選擇 44 SVR模型 48 SVR模型驗(yàn)證 48 討論 49 SVR參數(shù)的討論 49 敏感性分析 49 本章小結(jié) 51第四章 在線web預(yù)報(bào)服務(wù)器的建立 53 J2EE技術(shù)與MVC模式 53 J2EE概述 53 J2EE分布式多層應(yīng)用模型 54 MVC模式 56 基于J2EE的MVC模式 57 系統(tǒng)的總體設(shè)計(jì) 59 系統(tǒng)的結(jié)構(gòu)設(shè)計(jì) 59 系統(tǒng)環(huán)境與開發(fā)工具 60 系統(tǒng)的詳細(xì)設(shè)計(jì) 61 已完成的在線web預(yù)報(bào)服務(wù)器 63 本章小結(jié) 64第五章 總結(jié)與展望 65 全文總結(jié) 65 工作展望 66參考文獻(xiàn) 67附錄一. 1苯基2氫四氫三嗪3酮同系物結(jié)構(gòu)及活性值數(shù)據(jù) 76攻讀碩士期間發(fā)表及已錄用論文 78致謝 7979第一章 緒論 20世紀(jì)后期,人類和其他生物物種基因組學(xué)的研究飛速發(fā)展,生物信息的增長(zhǎng)驚人,生物科學(xué)技術(shù)極大地豐富了生物科學(xué)的數(shù)據(jù)資源。數(shù)據(jù)資源的急劇膨脹迫使人們尋求一種強(qiáng)有力的工具,運(yùn)用新的技術(shù)手段對(duì)復(fù)雜的海量生物信息進(jìn)行儲(chǔ)存、管理、分析和研究,并組織好這些數(shù)據(jù),以利于儲(chǔ)存、加工和利用,進(jìn)而達(dá)到有效管理、準(zhǔn)確解讀、充分使用這些信息的目的。生物信息學(xué)便是在急速上漲的生物信息數(shù)據(jù)海洋中應(yīng)運(yùn)而生。美國(guó)人類基因組計(jì)劃實(shí)施五年后的總結(jié)報(bào)告中,對(duì)生物信息學(xué)作了以下的定義:生物信息學(xué)是一門交叉學(xué)科,它包含了生物信息的獲取、處理、儲(chǔ)存、分發(fā)、分析和解釋等在內(nèi)的所有方面,它綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具,來(lái)闡明和理解大量數(shù)據(jù)所包含的生物學(xué)意義。[1] 目前生物信息學(xué)的主要任務(wù)是研究生物分子數(shù)據(jù)的獲取、存儲(chǔ)和查詢,發(fā)展數(shù)據(jù)分析方法,研究?jī)?nèi)容主要包括三個(gè)方面:第一, 收集和管理生物分子數(shù)據(jù),將各種數(shù)據(jù)以一定的表示形式存放在計(jì)算機(jī)中,建立數(shù)據(jù)庫(kù)系統(tǒng)并提供數(shù)據(jù)查詢和數(shù)據(jù)通訊工具,使得生物學(xué)研究人員能夠方便地使用這些數(shù)據(jù),并為信息分析和數(shù)據(jù)挖掘打下基礎(chǔ)。目前國(guó)際上已建立起許多公共生物分子數(shù)據(jù)庫(kù),包括基因圖譜數(shù)據(jù)庫(kù)、核酸序列數(shù)據(jù)庫(kù)、蛋白質(zhì)序列數(shù)據(jù)庫(kù)、生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)等,由專門的機(jī)構(gòu)建立和維護(hù)負(fù)責(zé)收集、組織、管理和發(fā)布生物分子數(shù)據(jù),并提供數(shù)據(jù)檢索和分析工具,向生物學(xué)研究人員提供大量有用的信息,最大限度地滿足他們的研究和應(yīng)用需要,為生物信息學(xué)研究服務(wù)。迄今為止,生物學(xué)數(shù)據(jù)庫(kù)總數(shù)已達(dá)500個(gè)以上。在DNA序列方面有GenBank、EMBL和DDBJ等。在蛋白質(zhì)一級(jí)結(jié)構(gòu)方面有SWISSPROT、PIR和MIPS等。在蛋白質(zhì)和其它生物大分子的結(jié)構(gòu)方面有PDB等。在蛋白質(zhì)結(jié)構(gòu)分類方面有SCOP和CATH等。[1]第二, 進(jìn)行數(shù)據(jù)處理和分析,通過(guò)信息分析發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系提取本質(zhì)規(guī)律,進(jìn)而上升為生物學(xué)知識(shí)。在此基礎(chǔ)上解釋與生物分子信息復(fù)制、傳遞、表達(dá)有關(guān)的生物過(guò)程,并解釋生物過(guò)程中出現(xiàn)的故障與疾病的關(guān)系,幫助發(fā)現(xiàn)新藥物作用目標(biāo),設(shè)計(jì)新藥物分子,為進(jìn)一步的研究和應(yīng)用打下基礎(chǔ)。目前生物信息學(xué)的主要研究對(duì)象是基因和蛋白質(zhì)。在蛋白質(zhì)分析方面,著重分析蛋白質(zhì)序列與蛋白質(zhì)結(jié)構(gòu)及功能之間的關(guān)系,預(yù)測(cè)蛋白質(zhì)的功能,研究蛋白質(zhì)家族關(guān)系開展進(jìn)化分析。面對(duì)大量蛋白質(zhì)序列數(shù)據(jù),傳統(tǒng)的計(jì)算方法越來(lái)越顯示出不足,借助機(jī)器學(xué)習(xí)模式識(shí)別的方法彌補(bǔ)傳統(tǒng)試驗(yàn)方法的不足,是目前生物信息學(xué)領(lǐng)域普遍使用的方法[2]。本論文研究基于機(jī)器學(xué)習(xí)理論和算法,通過(guò)對(duì)蛋白質(zhì)序列分析,進(jìn)而實(shí)現(xiàn)亞細(xì)胞位置預(yù)測(cè)的工作。第三, 開發(fā)分析工具和實(shí)用軟件解決具體問(wèn)題,為生物信息學(xué)的應(yīng)用服務(wù),如生物分子序列比較工具、基因識(shí)別工具、生物分子結(jié)構(gòu)預(yù)測(cè)工具、基因表達(dá)數(shù)據(jù)分析工具等。到目前為止,各國(guó)研究人員開發(fā)了許多有應(yīng)用價(jià)值的軟件產(chǎn)品,如用于生物信息數(shù)據(jù)庫(kù)檢索的SRS和Entrez,用于序列同源性分析的BLAST[3,4]和FASTA[5,6],以及用于多序列比對(duì)的Clustw[7]等。為方便同行使用,本論文的部分研究工作已經(jīng)通過(guò)Internet向全世界生物學(xué)家提供開放性服務(wù)。 機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用機(jī)器學(xué)習(xí)的研究主旨是使用計(jì)算機(jī)模擬人類的學(xué)習(xí)活動(dòng),它是研究計(jì)算機(jī)識(shí)別現(xiàn)有知識(shí)、獲取新知識(shí)、不斷改善性能和實(shí)現(xiàn)自身完善的方法。這里的學(xué)習(xí)意味著從數(shù)據(jù)中學(xué)習(xí),它包括有指導(dǎo)學(xué)習(xí)(Supervised Learning)、無(wú)指導(dǎo)學(xué)習(xí)(UnsupervisedLearning)和半指導(dǎo)學(xué)習(xí)(SemiSupervised Learning)三種類別。常見的有指導(dǎo)學(xué)習(xí)包括:決策樹、Boosting與Bagging算法、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等。[8]機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用主要包括四個(gè)方面:[9]第一, 在序列比對(duì)分析中的應(yīng)用。序列比對(duì)是生物信息學(xué)的基礎(chǔ)?;締?wèn)題是比較兩個(gè)或兩個(gè)以上符號(hào)序列的相似性。從20世紀(jì)80年代以來(lái),人們發(fā)展了半經(jīng)驗(yàn)的直觀算法。它們可以很快地給出較好的結(jié)果,但不能保證所得結(jié)果是最優(yōu)的。另外,還有動(dòng)態(tài)規(guī)劃算法、神經(jīng)網(wǎng)絡(luò)和隱馬爾科夫算法。目前已用于序列對(duì)比分析的方法主要有:NeedlimanWunsch動(dòng)態(tài)規(guī)劃算法, Smith Waterman算法及Blast Fasta等相似性比較程序。通過(guò)它們可進(jìn)行兩序列、多序列、局部序列乃至完整基因組的比較。目前,基因的比較研究也必須從基因的比較上升到對(duì)不同進(jìn)化水平的生物在整個(gè)基因?qū)用嫔系谋容^研究。第二, 在人類基因組研究中的應(yīng)用。隨著人類基因組研究的發(fā)展,利用機(jī)器學(xué)習(xí)方法進(jìn)行基因識(shí)別被廣泛使用。這些方法包括神經(jīng)網(wǎng)絡(luò)算法、基于規(guī)則的方法、決策樹和概率推理等。此外,基于隱馬爾科夫模型EM訓(xùn)練算法、Viterbi序列分析算法以及FDR(False DiscoveryRate)方法都有成功的應(yīng)用成果。發(fā)現(xiàn)新基因和單核苷酸多態(tài)是當(dāng)前國(guó)際上基因組研究的熱點(diǎn)。生物信息學(xué)的方法是發(fā)現(xiàn)新基因的重要手段。第三, 在蛋白質(zhì)組研究中的應(yīng)用。這里包含兩個(gè)方面,蛋白質(zhì)功能預(yù)測(cè)和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè):a, 蛋白質(zhì)功能預(yù)測(cè)主要是分析目標(biāo)蛋白質(zhì)是否和具有功能信息的已知蛋白質(zhì)的相似性。一般步驟為先通過(guò)蛋白質(zhì)序列數(shù)據(jù)庫(kù)比較來(lái)確定其功能。利用Blast和Fasta工具與蛋白質(zhì)序列庫(kù)中的序列進(jìn)行同源性比較。然后通過(guò)組成蛋白質(zhì)的20種氨基酸的物理和化學(xué)性質(zhì),分析已知或未知蛋白質(zhì)的性質(zhì),如等電點(diǎn)/分子量、疏水性、跨膜螺旋、卷曲螺旋及信號(hào)肽等。最后與保守的基序和圖形數(shù)據(jù)庫(kù)比較判斷功能。b, 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的目的是利用已知的一級(jí)序列來(lái)構(gòu)建出蛋白質(zhì)的立體結(jié)構(gòu)模型,對(duì)蛋白質(zhì)進(jìn)行結(jié)構(gòu)預(yù)測(cè)需要具體問(wèn)題具體分析,在不同的已知條件下對(duì)于不同的蛋白質(zhì)采取不同的策略。目前利用機(jī)器學(xué)習(xí)方法預(yù)測(cè)蛋白質(zhì)空間結(jié)構(gòu)的方法主要有折疊識(shí)別以及神經(jīng)網(wǎng)絡(luò)、隱馬爾科夫、支持向量機(jī)、AdaBoost等方法。如Cai等人[10]使用支持向量機(jī)網(wǎng)絡(luò)模型對(duì)蛋白質(zhì)二級(jí)結(jié)構(gòu)分類。第四, 在生物芯片研究中的應(yīng)用。生物芯片技術(shù)檢測(cè)及分析技術(shù)是生物信息學(xué)中目前實(shí)用性較強(qiáng)的研究領(lǐng)域。生物芯片主要包括基因芯片(GeneChip)或稱DNA芯片(DNAChip)、蛋白芯片(ProteinChip)和芯片實(shí)驗(yàn)室(Labona Chip)等?;蛐酒巧镄酒醒芯孔钤?、最先形成商品化產(chǎn)品,并已取得廣泛應(yīng)用。機(jī)器學(xué)習(xí)的許多方法都可以直接應(yīng)用于基因芯片分析,如序列比較方法、貝葉斯神經(jīng)網(wǎng)絡(luò)方法和聚類方法等。 QSAR簡(jiǎn)介 化合物的性質(zhì)/活性是化學(xué)的基本研究?jī)?nèi)容之一,徐光憲先生將物質(zhì)結(jié)構(gòu)與性能的定量關(guān)系稱為化學(xué)的第二根本規(guī)律,并將其列為二十一世紀(jì)化學(xué)的四大難題(中長(zhǎng)期)之一[10]?;瘜W(xué)家們普遍認(rèn)為,化合物所表現(xiàn)出來(lái)的各種性質(zhì)/活性與化合物的結(jié)構(gòu)密不可分,即性質(zhì)/活性是結(jié)構(gòu)的函數(shù)。這也是結(jié)構(gòu)性質(zhì)/活性關(guān)系(Structure Property/Activity Relationship, SPR/SAR)的基本假設(shè)。 早在1868年,CrumBrown和Fraser提出了化合物的分子結(jié)構(gòu)C和生物活性可由方程表示:,這是QSAR方面的第一個(gè)方程[11]。后來(lái)人們發(fā)現(xiàn),化合物拓?fù)浣Y(jié)構(gòu)是決定其化學(xué)性質(zhì)的重要因素。當(dāng)時(shí)只研究了少部分的化合物結(jié)構(gòu)參數(shù)與其活性關(guān)系,如取代基的電子效應(yīng)(Hammett的σ常數(shù)),立體參數(shù)(Taft參數(shù))以及疏水性參數(shù)(Hansch的分配常數(shù))。到二十世紀(jì)30年代,Hammett在其經(jīng)典著作《Physical Organic Chemistry》中提出了線性自由能關(guān)系LFER(Linear Free Energy Relationship),推動(dòng)了化合物構(gòu)效關(guān)系研究的深入發(fā)展。20世紀(jì)40年代起,化學(xué)家開始發(fā)現(xiàn)分子和其它化學(xué)物質(zhì)可以很方便地用多種不同的矩陣表示[12,13],化學(xué)圖的概念及拓?fù)渲笖?shù)(圖論指數(shù))[14,15]的引入使表征分子結(jié)構(gòu)并進(jìn)行化合物的構(gòu)效關(guān)系研究有了一個(gè)基本工具。而后在二十世紀(jì)60年代,Hansch[16,17]和Free、Wilson[18,19]的研究開始建立在定量的基礎(chǔ)之上。他們用統(tǒng)計(jì)方法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行歸納總結(jié)并建立結(jié)構(gòu)活性關(guān)系表達(dá)式,探討結(jié)構(gòu)變化與生化活性之間的關(guān)系,標(biāo)志著QSAR時(shí)代的開始。 二十世紀(jì)70年代以后,隨著生物化學(xué)、分子生物學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的快速發(fā)展,SPR/SAR研究提高到了一個(gè)新的水平。一方面,表征分子的結(jié)構(gòu)參數(shù)不斷豐富,在傳統(tǒng)物理化學(xué)參數(shù)以外,更多地使用拓?fù)鋮?shù)[15,2023]、電子參數(shù)[2426]來(lái)表征基團(tuán)結(jié)構(gòu);另一方面,一些新的建模方法也被引入到SPR/SAR的研究中,除了傳統(tǒng)的多元線性回歸、偏最小二乘回歸和主成分分析等算法以外,遺傳算法[27,28]、人工神經(jīng)網(wǎng)絡(luò)[29,30]和支持向量機(jī)方法[31,32]等逐步引入了定量構(gòu)效關(guān)系研究。二十世紀(jì)80年代后,考慮分子三維構(gòu)象的3DQSAR也逐步引起了研究者的關(guān)注。1979年Crippen提出的距離幾何學(xué)方法[33]、1980年Hopfinger等人提出的分子形狀分析方法[34]、1988年Cramer等人提出的比較分子場(chǎng)方法(CoMFA) [35]是3DQSAR中最常用的手段。但在化學(xué)領(lǐng)域,由于研究體系與數(shù)據(jù)量的差異,2DSPR/SAR仍占主導(dǎo)地位。 論文的主要內(nèi)容本文運(yùn)用機(jī)器學(xué)習(xí)技術(shù)對(duì)蛋白質(zhì)序列的亞細(xì)胞定位數(shù)據(jù)集以及一類有機(jī)同系物進(jìn)行研究,建立起了用于蛋白質(zhì)序列亞細(xì)胞定位的預(yù)測(cè)模型和用于5脂氧化酶抑制活性預(yù)測(cè)的QSAR模型。并運(yùn)用J2EE技術(shù),實(shí)現(xiàn)基于上述模型的在線預(yù)報(bào)功能。 本文的主要內(nèi)容分為三個(gè)部分,第一部分介紹了常用的機(jī)器學(xué)習(xí)算法,以及它們的原理。第二部分介紹了預(yù)測(cè)模型的具體構(gòu)建方法與構(gòu)建過(guò)程。第三部分介紹了在線預(yù)報(bào)系統(tǒng)的實(shí)現(xiàn)原理與具體實(shí)現(xiàn)方法。 本文的主要工作成果在于:;,使預(yù)報(bào)模型能夠?yàn)轭I(lǐng)域?qū)<?,特別是實(shí)驗(yàn)工作者所用。 第二章 機(jī)器學(xué)習(xí)算法機(jī)器學(xué)習(xí)是人工智能研究較為年輕的分支,它的發(fā)展過(guò)程大體上分為四個(gè)時(shí)期。第一階段是20世紀(jì)50年代中葉到60年代中葉,屬于熱烈時(shí)期。在這個(gè)時(shí)期,所研究的是“沒有知識(shí)”的學(xué)習(xí),即“無(wú)知”學(xué)習(xí)。其研究目標(biāo)是各類自組織系統(tǒng)和自適應(yīng)系統(tǒng),其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)和改進(jìn)系統(tǒng)的執(zhí)行能力,不涉及與具體任務(wù)有關(guān)的知識(shí)。本階段的代表性工作是:塞繆爾(Samuel)的下棋程序。但這種學(xué)習(xí)的結(jié)果遠(yuǎn)不能滿足人們對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的期望。第二階段是在60年代中葉到70年代中葉,被稱為機(jī)器學(xué)習(xí)的冷靜時(shí)期。本階段的研究目標(biāo)是模擬人類的概念學(xué)習(xí)過(guò)程,并采用邏輯結(jié)構(gòu)或圖結(jié)構(gòu)作為機(jī)器內(nèi)部描述。本階段的代表性工作有溫斯頓(Winston)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯羅思(HayesRoth)等的基本邏輯的歸納學(xué)習(xí)系統(tǒng)。第三階段從20世紀(jì)70年代中葉到80年代中葉,稱為復(fù)興時(shí)期。在此期間,人們從學(xué)習(xí)單個(gè)概念擴(kuò)展到學(xué)習(xí)多個(gè)概念,探索不同的學(xué)習(xí)策略和方法,且在本階段已開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來(lái),并取得很大的成功,促進(jìn)機(jī)器學(xué)習(xí)的發(fā)展。1980年,在美國(guó)的卡內(nèi)基—梅隆(CMU)召開了第一屆機(jī)器學(xué)習(xí)國(guó)際研討會(huì),標(biāo)志著機(jī)器學(xué)習(xí)研究已在全世界興起。[8] 決策樹算法決策樹學(xué)習(xí)是一種逼近離散值函數(shù)的算法,對(duì)噪聲數(shù)據(jù)有很好的健壯性,且能夠?qū)W習(xí)析取表達(dá)式,是最流行的歸納推理算法之一,已經(jīng)成功應(yīng)用到醫(yī)療診斷、評(píng)估貸款申請(qǐng)的信用風(fēng)險(xiǎn)、雷達(dá)目標(biāo)識(shí)別、
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1