正文內(nèi)容

機器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用畢業(yè)論文(已修改)

2025-04-19 03:36 本頁面

　

【正文】上海大學(xué)博士學(xué)位論文 2008年4月中圖分類號：單位代號：10280密級：學(xué) 號：05720159 碩士學(xué)位論文SHANGHAI UNIVERSITYMASTER DISSERTATION題目機器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用機器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用畢業(yè)論文作者金雨歡學(xué)科專業(yè) 物理化學(xué)導(dǎo) 師陸文聰教授完成日期二零零八年五月XI上海大學(xué)碩士學(xué)位論文 2008年5月上海大學(xué)本論文經(jīng)答辯委員會全體委員審查,確認(rèn)符合上海大學(xué)碩士學(xué)位論文質(zhì)量要求。答辯委員會簽名：主任：委員：導(dǎo) 師：答辯日期：原創(chuàng) 性聲明本人聲明：所呈交的論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作。除了文中特別加以標(biāo)注和致謝的地方外，論文中不包含其他人已發(fā)表或撰寫過的研究成果。參與同一工作的其他同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。簽名：日期：本論文使用授權(quán)說明本人完全了解上海大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定，即：學(xué)校有權(quán)保留論文及送交論文復(fù)印件，允許論文被查閱和借閱；學(xué)?？梢怨颊撐牡娜炕虿糠謨?nèi)容。（保密的論文在解密后應(yīng)遵守此規(guī)定）簽名：導(dǎo)師簽名：日期：上海大學(xué)理學(xué)碩士學(xué)位論文機器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用姓名：金雨歡導(dǎo) 師：陸文聰教授學(xué)科專業(yè)：物理化學(xué)上海大學(xué)理學(xué)院二零零八年五月A Dissertation Submitted to Shanghai University for the Master’s Degree in ScienceUsing Machine Learning MethodsIn BioinformaticsM. D. Candidate：Jin YuhuanSupervisor：Prof. Lu WencongMajor：Physical ChemistryScience College, Shanghai UniversityMay, 2008摘要 20世紀(jì)后期，人類和其他生物物種基因組學(xué)的研究飛速發(fā)展，生物信息的增長驚人，生物科學(xué)技術(shù)極大地豐富了生物科學(xué)的數(shù)據(jù)資源。數(shù)據(jù)資源的急劇膨脹迫使人們尋求一種強有力的工具，運用新的技術(shù)手段對復(fù)雜的海量生物信息進(jìn)行儲存、管理、分析和研究，組織這些數(shù)據(jù)，以利于儲存、加工和進(jìn)一步利用，有效管理、準(zhǔn)確解讀、充分使用這些信息。本文的工作就是應(yīng)用機器學(xué)習(xí)方法來對生物信息數(shù)據(jù)進(jìn)行分析，處理。本文的主體工作分為三個部分： 1. 用集成學(xué)習(xí)算法研究蛋白質(zhì)亞細(xì)胞定位預(yù)測。蛋白質(zhì)的亞細(xì)胞位置，是蛋白質(zhì)的一個重要性質(zhì)，能夠表明蛋白質(zhì)在細(xì)胞中的功能。預(yù)報蛋白質(zhì)亞細(xì)胞位置，在基因注釋和藥物設(shè)計工作中，都扮演了很重要的角色。本文用基于序列氨基酸組成成分進(jìn)行蛋白質(zhì)序列特征編碼，選用了AdaBoost與Bagging這兩種最重要的集成學(xué)習(xí)算法來對訓(xùn)練數(shù)據(jù)集進(jìn)行建模。在建模過程中，分別嘗試了用4種不同的弱分類器來訓(xùn)練樣本，并用基于交叉驗證法的建模結(jié)果來對建模參數(shù)進(jìn)行優(yōu)化。結(jié)果表明：用AdaBoost隨機森林算法作為弱分類器時有最好的建模結(jié)果，%；%。用獨立測試樣本集對訓(xùn)練好的預(yù)報模型進(jìn)行驗證，%%，優(yōu)于SVM方法所得結(jié)果（%，%）。 2. 用支持向量機回歸算法（SVR）對1苯基2氫四氫三嗪3酮同系物進(jìn)行QSAR研究。1苯基2氫四氫三嗪3酮同系物可用作5脂抗氧化酶抑制劑。本工作中用來自文獻(xiàn)的12個拓?fù)渲笖?shù)與Hyperchem計算得到的17個物理化學(xué)參數(shù)作為初始分子描述符，然后用基于SVR留一交叉驗證法進(jìn)行變量篩選，最終得到8個分子描述符用于建立預(yù)報模型。該模型的留一交叉驗證法的RMSE（最小殘差平方和），作為對比，多元線性回歸算法（MLR）、偏最小二乘法（PLS）、人工神經(jīng)網(wǎng)絡(luò)（ANN）、；SVM與MLR、PLS、。 3. 提出了一種基于MVC架構(gòu)的服務(wù)器設(shè)計途徑，建立了基于已得模型的在線預(yù)報服務(wù)器。建立生物信息學(xué)預(yù)報模型的目的是為了提供對生物信息中的未知對象進(jìn)行預(yù)報的工具，使得預(yù)測結(jié)果能夠為他人所用。為了更好的達(dá)到這個目的，將研究得到的預(yù)報模型提供給所有相關(guān)領(lǐng)域的研究人員，建立在線預(yù)報服務(wù)器是一條有效途徑。關(guān)鍵詞：生物信息學(xué)，定量構(gòu)效關(guān)系（QSAR），機器學(xué)習(xí)，集成學(xué)習(xí)，支持向量機（SVM），支持向量回歸算法（SVR），AdaBoost，Bagging，亞細(xì)胞位置定位，5脂抗氧化酶抑制劑，在線預(yù)報服務(wù)器AbstractIn the late 20th century, genomics research in human and other living species had been developed rapidly, and the information of biology increased by surprised speed. The information source of bioscience was great enriched by bioscience techniques. The rapidly expanding of information source force people to search for a powerful and effective tool, which uses new techniques to the storage, management, analysis and research of the mass of plex biological information, then organize these data to be better in storage, processing and utility. Machine learning methods were used to analyse and process the data of biological information in this work. The main work of the paper contains three parts: 1. Using integrated learning algorithm to study the prediction of protein subcellular localization. Protein subcellular localization, which tells where a protein resides in a cell, is an important characteristic of a protein, and relates closely to the function of proteins. The prediction of their subcellular localization plays an important role in the prediction of protein function, genome annotation and drug design. In this work, the sequences were coded based on the sequence amino acid position, and the models were built using AdaBoost and Bagging, which were the most important algorithm of the integrated learning algorithm. During the modeling process, four different weak classifiers were used in training data, and the modeling parameters were optimized based on the result of crossvalidation of the models. As a result, AdaBoost got the best model with a correct rate of % in crossvalidation prediction, when random forest algorithm was selected as the weak classifier。 Bagging got the best model with a correct rate of % in crossvalidation prediction, when KNN was selected as the weak classifer. Then, independent dataset test was used to validate the trained model, the result of AdaBoost and Bagging were % and % of prediction correct rate. As parison, SVM was used, and the result of training crossvalidation was % of correct rate, and the independent dataset test was % of correct rate. 2. Using support vector machine regression algorithm to take QSAR study in 1phenyl [2H]tetrahydrotriazine3one analogues. 1phenyl [2H]tetrahydrotriazine3one analogues could be used as 5lipoxygenase inhibitors. In this work, 12 topological indexes and 17 physical chemical parameters caculated by Hyperchem were used as the original molecular descriptors. Then, the descriptors were filtered based on SVR leaveoneout cross validation. As a result, 8 descriptors were selected to build the predicting model. The RMSE of this model using leaveoneout cross validation was . As parison, the RMSE value of multiple linear regression (MLR), partial least squares (PLS) and artificial neural network (ANN) were , and , respectively. The independent data sets of SVR, MLR, PLS, and ANN were tested to demonstrate the generalization alility of these models, and the results in RMSE values were , , , and , respectively. 3. Building online predicting server based on the gained model. The aim of building the bioinformatics predicting model is to supply a tool to predict unknowns in the biological information, and make the information to benefit human. Building online predicting server is an effective way. The predicting models available online can be used by experimental researchers. In this work, a design of server based on MVC construction was brought out, which could increase the efficiency of building a series of online predicting server.Keywords: bioinformatics, quantitative structure activity relationship(QSAR), machine learning, integrated s

點擊復(fù)制文檔內(nèi)容

化學(xué)相關(guān)推薦

生物信息學(xué)概論課程教學(xué)大綱-資料下載頁

【總結(jié)】《生物信息學(xué)概論》課程教學(xué)大綱周艷紅，陸楓，鄒昂?一、課程名稱：生物信息學(xué)Bioinformatics二、課程編碼：三、學(xué)時與學(xué)分：32/2四、先修課程：分子生物學(xué)，遺傳學(xué)五、課程教學(xué)目標(biāo)1．使學(xué)生了解生物信息學(xué)的主要內(nèi)容、現(xiàn)狀與學(xué)科發(fā)展前沿；2.介紹生物信息學(xué)研究的基本方法，培養(yǎng)學(xué)生分析問題與解決問題的能力；3.介紹生物信息學(xué)方

2025-09-25 15:14

生物信息學(xué)基礎(chǔ)大作業(yè)報告-資料下載頁

【總結(jié)】生物信息學(xué)基礎(chǔ)大作業(yè)報告報告主題系統(tǒng)發(fā)育樹的構(gòu)建方法和研究進(jìn)展班級計科姓名王海穎總學(xué)號

2025-04-04 23:37

生物信息學(xué)教材beta0合集-資料下載頁

【總結(jié)】第一篇：生物信息學(xué)教材beta0 生物信息學(xué)教材beta 生物信息學(xué)札記-樊龍江(浙江大學(xué))#這套材料我認(rèn)為很適合新手入門；原版-蛋白和核酸序列分析#我看的第一本生物信息書； Bioin...

2025-11-07 00:19

常見的生物信息學(xué)軟件的介紹和文獻(xiàn)依據(jù)-資料下載頁

【總結(jié)】名稱簡介參考文獻(xiàn)備注ALINE?一個產(chǎn)生出版質(zhì)量比對的“所見即所得”蛋白質(zhì)-序列比對編輯器19390156??AMDA用于自動微陣列數(shù)據(jù)分析的一個R包16824223??AmiGO訪問本體論和注釋數(shù)據(jù)19033274??AnnotationSketch基因組注

2025-04-07 03:26

生物信息學(xué)名詞解釋-資料下載頁

【總結(jié)】....行者【轉(zhuǎn)載】生物信息學(xué)名詞解釋----這個比較全什么是高通量測序？高通量測序技術(shù)（High-throughputsequencing，HTS）是對傳統(tǒng)Sanger測序（稱為一代測序技術(shù)）革命性的改變,一次對幾

2025-04-04 23:37

算法合集之淺析非完美算法在信息學(xué)競賽中的應(yīng)用-資料下載頁

【總結(jié)】長郡中學(xué)胡偉棟?計算機科學(xué)中非完美的例子?圖片、音頻、視頻的壓縮?很多壓縮率比較高的壓縮方法都是有損壓縮?密碼驗證?很多都是多對一，通過驗證的不一定是正確的?搜索引擎?不一定能搜索到所有匹配的內(nèi)容較小的磁盤空間安全、實用方便、快捷?非完美算法?在信息學(xué)乃至整個計算機科學(xué)

2025-10-07 20:33

蛋白質(zhì)生物信息學(xué)-數(shù)據(jù)庫-資料下載頁

【總結(jié)】Protein結(jié)構(gòu)數(shù)據(jù)庫汪德強Ph.D醫(yī)學(xué)檢驗系感染性疾病分子生物學(xué)重點實驗室E-mail:ProteinDataBank?ThePDBisthesingleworldwiderepositoryfortheprocessinganddistributionof3-Dstructured

2025-07-22 01:09

倫敦大學(xué)國王學(xué)院生物信息學(xué)碩士-資料下載頁

【總結(jié)】第一篇：倫敦大學(xué)國王學(xué)院生物信息學(xué)碩士 · · · · · · · · · · · · · · ·倫敦大學(xué)國王學(xué)院生物信息學(xué)碩士課程簡介：生物信息學(xué)是一個多學(xué)科的課程，包...

2025-11-06 23:45

算法合集之平面圖在信息學(xué)中的應(yīng)用-資料下載頁

【總結(jié)】平面圖在信息學(xué)中的應(yīng)用海南省海南中學(xué)劉才良引言?平面圖是圖論中一類重要的圖，在實際生產(chǎn)中應(yīng)用非常廣泛。比如集成電路的設(shè)計就用到平面圖理論。在信息學(xué)中，雖然有關(guān)平面圖的題目并不多見，但對于某些題目，如果通過建模轉(zhuǎn)化，應(yīng)用平面圖的性質(zhì)，將大大提高算法的效率。因此，掌握一些平面圖理論會對我們有很大的幫助。相關(guān)定義、定理及推論?

2025-10-07 20:30

第八章生物信息學(xué)在基因芯片中的應(yīng)用-資料下載頁

【總結(jié)】第八章生物信息學(xué)在基因芯片中的應(yīng)用主講人：孫嘯制作人：劉志華東南大學(xué)吳健雄實驗室?生物信息學(xué)和基因芯片是生命科學(xué)研究領(lǐng)域中的兩種新方法和新技術(shù)，生物信息學(xué)與基因芯片密切相關(guān)，生物信息學(xué)促進(jìn)了基因芯片的研究與應(yīng)用，而基因芯片則豐富了生物信息學(xué)的研究內(nèi)容第一節(jié)概述１、基因

2025-08-01 13:23

醫(yī)學(xué)專業(yè)生物信息學(xué)第9章-資料下載頁

【總結(jié)】第九章蛋白質(zhì)分析與蛋白質(zhì)組學(xué)中山大學(xué)中山醫(yī)學(xué)院吳忠道ProteinAnalysisAndProteomics主要內(nèi)容第一節(jié)引言第二節(jié)蛋白質(zhì)分析方法第三節(jié)蛋白質(zhì)組學(xué)數(shù)據(jù)的獲取與分析蛋白質(zhì)組(proteome)源于蛋白質(zhì)(protein)與基因組(genome)兩個字

2025-12-21 03:37

算法合集之信息論在信息學(xué)競賽中的簡單應(yīng)用-資料下載頁

【總結(jié)】在信息學(xué)競賽中的簡單應(yīng)用侯啟明信息論簡介?信息論是關(guān)于信息的本質(zhì)和傳輸規(guī)律的科學(xué)的理論。?通過它可以很方便地得到某些交互式問題的一個較好的步數(shù)下界(“信息論下界”)讓我們先來看一些信息論的基本理論理論基礎(chǔ)?定義：如果一個隨機變量x共有n種取值，概率分別為p0,p2,......,pn，則其熵為H(x)

2025-10-07 03:11

利用生物信息學(xué)方法開發(fā)鵪鶉微衛(wèi)星標(biāo)記-資料下載頁

【總結(jié)】ｓｕｎｓｈｉｎｅ利用生物信息學(xué)方法開發(fā)鵪鶉微衛(wèi)星標(biāo)記白俊艷，龐有志，趙淑娟（河南科技大學(xué)動物科技學(xué)院，471003）摘要：本研究對已公布的鵪鶉核酸序列和EST序列總計635條序列中1～6核苷酸重復(fù)SSR的分布進(jìn)行了分析。結(jié)果表明，其中共發(fā)現(xiàn)120條SSR，%。%，%，五核苷酸重復(fù)基元和四核苷酸重復(fù)基元的SSR類型，%%，沒有發(fā)現(xiàn)六核苷酸重復(fù)基元的SSR。組成這些SSR的主要基

2025-08-04 14:37

遺傳算法在機器人路徑規(guī)劃中的應(yīng)用畢業(yè)論文-資料下載頁

【總結(jié)】遺傳算法與機器人路徑規(guī)劃摘要：機器人的路徑規(guī)劃是機器人學(xué)的一個重要研究領(lǐng)域，是人工智能和機器人學(xué)的一個結(jié)合點。對于移動機器人而言，在其工作時要求按一定的規(guī)則，例如時間最優(yōu)，在工作空間中尋找到一條最優(yōu)的路徑運動。機器人路徑規(guī)劃可以建模成在一定的約束條件下，機器人在工作過程中能夠避開障礙物從初始位置行走到目標(biāo)位置的路徑優(yōu)化過程。遺傳算法是一種應(yīng)用較多的路徑規(guī)劃方法，利用地圖中的信息進(jìn)行

2025-07-24 02:31

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片