freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用畢業(yè)論文-在線瀏覽

2025-05-25 03:36本頁面
  

【正文】 要內(nèi)容 5第一章 機(jī)器學(xué)習(xí)算法 6 決策樹算法 6 7 隨機(jī)決策樹算法 9 隨機(jī)森林算法 10. 集成學(xué)習(xí)算法 11 集成學(xué)習(xí)算法概述 11 AdaBoost算法 14 Boosting算法介紹 14 Adaboost算法描述 15 Bagging算法 17 Bagging 算法的提出 17 Bagging算法描述 18 SVM算法 19 統(tǒng)計(jì)學(xué)習(xí)理論 19 支持向量分類算法 21 最優(yōu)分類面 21 21 23 支持向量回歸算法 23 ε不敏感損失函數(shù) 23 線性回歸情況 24 非線性回歸情況 25 支持向量機(jī)核函數(shù) 26 本章小結(jié) 28第二章 用集成學(xué)習(xí)算法預(yù)測(cè)亞細(xì)胞定位 29 蛋白質(zhì)亞細(xì)胞定位的生物學(xué)基礎(chǔ) 30 亞細(xì)胞定位預(yù)測(cè)方法現(xiàn)狀 33 數(shù)據(jù)集以及特征參數(shù)的提取 36 實(shí)驗(yàn)與分析 37 預(yù)報(bào)模型參數(shù)的選擇 37 預(yù)報(bào)模型 39 預(yù)報(bào)模型驗(yàn)證 39 分析與討論 40 本章小結(jié) 41第三章 5脂氧化酶抑制劑的QSAR研究 42 引言 42 材料和方法 43 數(shù)據(jù)集 43 計(jì)算機(jī)硬件與軟件 43 分子描述符 43 基于支持向量回歸算法的特征選擇 44 結(jié)果和討論 44 建模變量的選擇 44 SVR模型參數(shù)的選擇 44 SVR模型 48 SVR模型驗(yàn)證 48 討論 49 SVR參數(shù)的討論 49 敏感性分析 49 本章小結(jié) 51第四章 在線web預(yù)報(bào)服務(wù)器的建立 53 J2EE技術(shù)與MVC模式 53 J2EE概述 53 J2EE分布式多層應(yīng)用模型 54 MVC模式 56 基于J2EE的MVC模式 57 系統(tǒng)的總體設(shè)計(jì) 59 系統(tǒng)的結(jié)構(gòu)設(shè)計(jì) 59 系統(tǒng)環(huán)境與開發(fā)工具 60 系統(tǒng)的詳細(xì)設(shè)計(jì) 61 已完成的在線web預(yù)報(bào)服務(wù)器 63 本章小結(jié) 64第五章 總結(jié)與展望 65 全文總結(jié) 65 工作展望 66參考文獻(xiàn) 67附錄一. 1苯基2氫四氫三嗪3酮同系物結(jié)構(gòu)及活性值數(shù)據(jù) 76攻讀碩士期間發(fā)表及已錄用論文 78致謝 7979第一章 緒論 20世紀(jì)后期,人類和其他生物物種基因組學(xué)的研究飛速發(fā)展,生物信息的增長驚人,生物科學(xué)技術(shù)極大地豐富了生物科學(xué)的數(shù)據(jù)資源。生物信息學(xué)便是在急速上漲的生物信息數(shù)據(jù)海洋中應(yīng)運(yùn)而生。[1] 目前生物信息學(xué)的主要任務(wù)是研究生物分子數(shù)據(jù)的獲取、存儲(chǔ)和查詢,發(fā)展數(shù)據(jù)分析方法,研究內(nèi)容主要包括三個(gè)方面:第一, 收集和管理生物分子數(shù)據(jù),將各種數(shù)據(jù)以一定的表示形式存放在計(jì)算機(jī)中,建立數(shù)據(jù)庫系統(tǒng)并提供數(shù)據(jù)查詢和數(shù)據(jù)通訊工具,使得生物學(xué)研究人員能夠方便地使用這些數(shù)據(jù),并為信息分析和數(shù)據(jù)挖掘打下基礎(chǔ)。迄今為止,生物學(xué)數(shù)據(jù)庫總數(shù)已達(dá)500個(gè)以上。在蛋白質(zhì)一級(jí)結(jié)構(gòu)方面有SWISSPROT、PIR和MIPS等。在蛋白質(zhì)結(jié)構(gòu)分類方面有SCOP和CATH等。在此基礎(chǔ)上解釋與生物分子信息復(fù)制、傳遞、表達(dá)有關(guān)的生物過程,并解釋生物過程中出現(xiàn)的故障與疾病的關(guān)系,幫助發(fā)現(xiàn)新藥物作用目標(biāo),設(shè)計(jì)新藥物分子,為進(jìn)一步的研究和應(yīng)用打下基礎(chǔ)。在蛋白質(zhì)分析方面,著重分析蛋白質(zhì)序列與蛋白質(zhì)結(jié)構(gòu)及功能之間的關(guān)系,預(yù)測(cè)蛋白質(zhì)的功能,研究蛋白質(zhì)家族關(guān)系開展進(jìn)化分析。本論文研究基于機(jī)器學(xué)習(xí)理論和算法,通過對(duì)蛋白質(zhì)序列分析,進(jìn)而實(shí)現(xiàn)亞細(xì)胞位置預(yù)測(cè)的工作。到目前為止,各國研究人員開發(fā)了許多有應(yīng)用價(jià)值的軟件產(chǎn)品,如用于生物信息數(shù)據(jù)庫檢索的SRS和Entrez,用于序列同源性分析的BLAST[3,4]和FASTA[5,6],以及用于多序列比對(duì)的Clustw[7]等。 機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用機(jī)器學(xué)習(xí)的研究主旨是使用計(jì)算機(jī)模擬人類的學(xué)習(xí)活動(dòng),它是研究計(jì)算機(jī)識(shí)別現(xiàn)有知識(shí)、獲取新知識(shí)、不斷改善性能和實(shí)現(xiàn)自身完善的方法。常見的有指導(dǎo)學(xué)習(xí)包括:決策樹、Boosting與Bagging算法、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等。序列比對(duì)是生物信息學(xué)的基礎(chǔ)。從20世紀(jì)80年代以來,人們發(fā)展了半經(jīng)驗(yàn)的直觀算法。另外,還有動(dòng)態(tài)規(guī)劃算法、神經(jīng)網(wǎng)絡(luò)和隱馬爾科夫算法。通過它們可進(jìn)行兩序列、多序列、局部序列乃至完整基因組的比較。第二, 在人類基因組研究中的應(yīng)用。這些方法包括神經(jīng)網(wǎng)絡(luò)算法、基于規(guī)則的方法、決策樹和概率推理等。發(fā)現(xiàn)新基因和單核苷酸多態(tài)是當(dāng)前國際上基因組研究的熱點(diǎn)。第三, 在蛋白質(zhì)組研究中的應(yīng)用。一般步驟為先通過蛋白質(zhì)序列數(shù)據(jù)庫比較來確定其功能。然后通過組成蛋白質(zhì)的20種氨基酸的物理和化學(xué)性質(zhì),分析已知或未知蛋白質(zhì)的性質(zhì),如等電點(diǎn)/分子量、疏水性、跨膜螺旋、卷曲螺旋及信號(hào)肽等。b, 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的目的是利用已知的一級(jí)序列來構(gòu)建出蛋白質(zhì)的立體結(jié)構(gòu)模型,對(duì)蛋白質(zhì)進(jìn)行結(jié)構(gòu)預(yù)測(cè)需要具體問題具體分析,在不同的已知條件下對(duì)于不同的蛋白質(zhì)采取不同的策略。如Cai等人[10]使用支持向量機(jī)網(wǎng)絡(luò)模型對(duì)蛋白質(zhì)二級(jí)結(jié)構(gòu)分類。生物芯片技術(shù)檢測(cè)及分析技術(shù)是生物信息學(xué)中目前實(shí)用性較強(qiáng)的研究領(lǐng)域。基因芯片是生物芯片中研究最早、最先形成商品化產(chǎn)品,并已取得廣泛應(yīng)用。 QSAR簡(jiǎn)介 化合物的性質(zhì)/活性是化學(xué)的基本研究內(nèi)容之一,徐光憲先生將物質(zhì)結(jié)構(gòu)與性能的定量關(guān)系稱為化學(xué)的第二根本規(guī)律,并將其列為二十一世紀(jì)化學(xué)的四大難題(中長期)之一[10]。這也是結(jié)構(gòu)性質(zhì)/活性關(guān)系(Structure Property/Activity Relationship, SPR/SAR)的基本假設(shè)。后來人們發(fā)現(xiàn),化合物拓?fù)浣Y(jié)構(gòu)是決定其化學(xué)性質(zhì)的重要因素。到二十世紀(jì)30年代,Hammett在其經(jīng)典著作《Physical Organic Chemistry》中提出了線性自由能關(guān)系LFER(Linear Free Energy Relationship),推動(dòng)了化合物構(gòu)效關(guān)系研究的深入發(fā)展。而后在二十世紀(jì)60年代,Hansch[16,17]和Free、Wilson[18,19]的研究開始建立在定量的基礎(chǔ)之上。 二十世紀(jì)70年代以后,隨著生物化學(xué)、分子生物學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的快速發(fā)展,SPR/SAR研究提高到了一個(gè)新的水平。二十世紀(jì)80年代后,考慮分子三維構(gòu)象的3DQSAR也逐步引起了研究者的關(guān)注。但在化學(xué)領(lǐng)域,由于研究體系與數(shù)據(jù)量的差異,2DSPR/SAR仍占主導(dǎo)地位。并運(yùn)用J2EE技術(shù),實(shí)現(xiàn)基于上述模型的在線預(yù)報(bào)功能。第二部分介紹了預(yù)測(cè)模型的具體構(gòu)建方法與構(gòu)建過程。 本文的主要工作成果在于:;,使預(yù)報(bào)模型能夠?yàn)轭I(lǐng)域?qū)<遥貏e是實(shí)驗(yàn)工作者所用。第一階段是20世紀(jì)50年代中葉到60年代中葉,屬于熱烈時(shí)期。其研究目標(biāo)是各類自組織系統(tǒng)和自適應(yīng)系統(tǒng),其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)和改進(jìn)系統(tǒng)的執(zhí)行能力,不涉及與具體任務(wù)有關(guān)的知識(shí)。但這種學(xué)習(xí)的結(jié)果遠(yuǎn)不能滿足人們對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的期望。本階段的研究目標(biāo)是模擬人類的概念學(xué)習(xí)過程,并采用邏輯結(jié)構(gòu)或圖結(jié)構(gòu)作為機(jī)器內(nèi)部描述。第三階段從20世紀(jì)70年代中葉到80年代中葉,稱為復(fù)興時(shí)期。1980年,在美國的卡內(nèi)基—梅隆(CMU)召開了第一屆機(jī)器學(xué)習(xí)國際研討會(huì),標(biāo)志著機(jī)器學(xué)習(xí)研究已在全世界興起。決策樹分類算法使用訓(xùn)練樣本集合構(gòu)造出一棵決策樹,從而實(shí)現(xiàn)了對(duì)樣本空間的劃分。例如,它將整個(gè)樣本空間分為三類。 一顆決策樹實(shí)例為了避免過度擬和現(xiàn)象的出現(xiàn),在決策樹的生成階段要對(duì)決策樹進(jìn)行必要修剪。決策樹的質(zhì)量更加依靠好的停止規(guī)則而不是劃分規(guī)則。后剪枝法主要有①訓(xùn)練和驗(yàn)證集法,②使用統(tǒng)計(jì)的方法,③最小描述長度準(zhǔn)則。沒有一種剪枝方法明顯優(yōu)于其它方法。以上三個(gè)問題均已被證明為NP難題,所以,決策樹算法一般只能找到一棵近似最優(yōu)決策樹[40]。 [41]設(shè)S為訓(xùn)練集樣本總數(shù),共有m類樣本,Si為類Ci中的樣本數(shù),計(jì)算公式為: () 其中,其中pi是任意樣本屬于Ci的概率,可用Si/S來估計(jì)。以屬性X為分類所需的期望熵(條件熵)是: ()其中sij是子集Sj中屬于類Ci的樣本數(shù), ,是sj中的樣本屬于Ci的概率。使用“信息增益率函數(shù)”,它同時(shí)考慮了每一次劃分所產(chǎn)生的子結(jié)點(diǎn)的個(gè)數(shù)和每個(gè)子結(jié)點(diǎn)的大小(包含的數(shù)據(jù)實(shí)例的個(gè)數(shù)),考慮的對(duì)象主要是一個(gè)個(gè)地劃分,而不再考慮分類所蘊(yùn)涵的信息量,屬性X的信息增益函數(shù)為: ()其中v為該節(jié)點(diǎn)的分枝數(shù),si為第i個(gè)分枝下的記錄個(gè)數(shù)。要是節(jié)點(diǎn)中所有樣本都在同一個(gè)類,則該節(jié)點(diǎn)成為樹葉,以該客戶類別標(biāo)記該樹葉。另外,在節(jié)點(diǎn)處記下符合條件的統(tǒng)計(jì)數(shù)據(jù):該分枝總數(shù)、有效數(shù)、中止數(shù)和失效數(shù)。過多的分枝會(huì)使得決策樹過分地依賴某一屬性,而信息增益不低于平均值保證了該屬性的信息量,使得有利于分類的屬性更早地出現(xiàn)。對(duì)決策樹上的每個(gè)非葉子結(jié)點(diǎn),計(jì)算該分枝節(jié)點(diǎn)上的子樹被剪枝可能出現(xiàn)的期望錯(cuò)誤率。如果剪去該節(jié)點(diǎn)導(dǎo)致較高的期望錯(cuò)誤率,則保留該子樹;否則剪去該子樹,最后得到具有最小期望錯(cuò)誤率的決策樹。表示記錄x的屬性Fi的值,具體結(jié)構(gòu)描述如下:樹中的每個(gè)結(jié)點(diǎn)表示一個(gè)問題。隨機(jī)決策樹的構(gòu)造過程:對(duì)根結(jié)點(diǎn)和分支結(jié)點(diǎn)隨機(jī)的從屬性集合中選擇分裂屬性,在一條分支路徑上離散屬性僅出現(xiàn)一次,連續(xù)屬性可以出現(xiàn)多次。分支結(jié)點(diǎn)的事例數(shù)太小以至于不能給出一個(gè)有統(tǒng)計(jì)意義的測(cè)試。在后2種情況下,分類結(jié)果標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類,或是出現(xiàn)概率最高的類。下面詳細(xì)介紹隨機(jī)決策樹的深度選擇和數(shù)目的選擇及其分類。使用多個(gè)隨機(jī)樹的主要特色是多樣性導(dǎo)致較高的分類準(zhǔn)確率,多樣性不與深度成正比關(guān)系。(2)選擇隨機(jī)決策樹的個(gè)數(shù)。 (3)葉子結(jié)點(diǎn)的更新。非葉子結(jié)點(diǎn)不記錄經(jīng)過分支的事例數(shù)目,葉子中信息形式如:。表示某一葉子結(jié)點(diǎn)記錄的總事例數(shù)。當(dāng)對(duì)事例進(jìn)行分類時(shí),預(yù)測(cè)為預(yù)定類別di的概率。為每棵隨機(jī)決策樹輸出的后驗(yàn)概率。Si為該葉子結(jié)點(diǎn)處訓(xùn)練數(shù)據(jù)集中標(biāo)記為di類的數(shù)目。由于完全隨機(jī)的選擇屬性,因而可能會(huì)出現(xiàn)某些屬性在整個(gè)決策樹構(gòu)造過程中沒有或很少被選取為分裂屬性,特別是當(dāng)該屬性對(duì)分類結(jié)果有較大貢獻(xiàn)時(shí),這種缺少將導(dǎo)致分類正確率的不穩(wěn)定,當(dāng)屬性數(shù)較少時(shí),這種不穩(wěn)定性將更為明顯。最新的研究表明[6],構(gòu)造多分類器的集成,. 為了構(gòu)造k棵樹,我們得先產(chǎn)生k個(gè)隨機(jī)向量,這些隨機(jī)向量是相互獨(dú)立并且是同分布。給定k個(gè)分類器和隨機(jī)向量x、y,定義邊緣函數(shù) ()其中是示性函數(shù)??梢钥闯?邊際越大分類的置信度就越高。將上面的結(jié)論推廣到隨機(jī)森林,。隨機(jī)森林的泛化誤差上界的定義為 ()其中是相關(guān)系數(shù)的均值,s是樹的分類強(qiáng)度。當(dāng)隨機(jī)森林中各個(gè)分類器的相關(guān)程度增大時(shí),泛化誤差上界就增大;當(dāng)各個(gè)分類器的分類強(qiáng)度增大時(shí),泛化誤差上界就增大。由于集成學(xué)習(xí)可以有效地提高學(xué)習(xí)系統(tǒng)的泛化能力,因此它成為國際機(jī)器學(xué)習(xí)界的研究熱點(diǎn)。在此之后,集成學(xué)習(xí)的研究才逐漸引起了人們的關(guān)注。他們的實(shí)驗(yàn)結(jié)果表明,這一組神經(jīng)網(wǎng)絡(luò)形成的集成,比最好的個(gè)體神經(jīng)網(wǎng)絡(luò)的性能還好。1990年,Schapire[45]通過一個(gè)構(gòu)造性方法對(duì)弱學(xué)習(xí)算法與強(qiáng)學(xué)習(xí)算法是否等價(jià)的問題作了肯定的證明,證明多個(gè)弱分類器可以集成為一個(gè)強(qiáng)分類器,他的工作奠定了集成學(xué)習(xí)的理論基礎(chǔ)。但是這個(gè)算法存在著一個(gè)重大的缺陷,就是必須知道學(xué)習(xí)算法正確率的下限,這在實(shí)際中很難做到。1996年,Breiman[46]提出了與Boosting相似的技術(shù)Bagging,進(jìn)一步促進(jìn)了集成學(xué)習(xí)的發(fā)展。廣義地來說,只要是使用多個(gè)學(xué)習(xí)器來解決問題,就是集成學(xué)習(xí)[47,48]。所以在廣義的情況下,集成學(xué)習(xí)已經(jīng)成為了一個(gè)包含內(nèi)容相當(dāng)多的、比較大的研究領(lǐng)域。這種構(gòu)成方法,用于集成的每個(gè)算法的輸入變量是原變量集的一個(gè)子集。2. 輸出變量集重構(gòu)法。3. 樣本集重新抽樣法。目前的大部分研究主要集中在使用這種構(gòu)成方法來集成學(xué)習(xí),如Bagging,Boosting等等。不穩(wěn)定的算法指的是當(dāng)訓(xùn)練數(shù)據(jù)發(fā)生很小變化的時(shí)候,結(jié)果就能產(chǎn)生很大變化的算法。但是對(duì)于穩(wěn)定的算法來說,效果不是很好。對(duì)于許多算法如神經(jīng)網(wǎng)絡(luò)、遺傳算法來說,在算法應(yīng)用的開始首先要解決的就是要選擇算法參數(shù)。在實(shí)際應(yīng)用中,就需要操作者根據(jù)自己的經(jīng)驗(yàn)進(jìn)行選擇。集成算法的作用主要體現(xiàn)在如下四個(gè)方面:1. 提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。構(gòu)造單個(gè)高精度的學(xué)習(xí)器是一件相當(dāng)困難的事情,然而產(chǎn)生若干個(gè)只比隨機(jī)猜想略好的學(xué)勻器卻很容易。2. 提高預(yù)測(cè)結(jié)果的穩(wěn)定性。通過模型的集成,可以在多種數(shù)據(jù)集中以較高的概率普遍取得很好的結(jié)果。在對(duì)己知的數(shù)據(jù)集合進(jìn)行學(xué)習(xí)的時(shí)候,我們常常選擇擬合度值最好的一個(gè)模型作為最后的結(jié)果。為了解決過擬合問題,按照集成學(xué)習(xí)的思想,可以選擇多個(gè)模型作為結(jié)果,對(duì)于每個(gè)模型賦予相應(yīng)的權(quán)重,從而集合生成合適的結(jié)果,提高預(yù)測(cè)精度。對(duì)于一些算法而言,如神經(jīng)網(wǎng)絡(luò)、遺傳算法,在解決實(shí)際問題的時(shí)候,需要選擇操作參數(shù)。而且參數(shù)選擇不同,結(jié)果會(huì)有很大的差異。集成學(xué)習(xí)經(jīng)過了十幾年的不斷發(fā)展,各種不同的集成學(xué)習(xí)算法不斷被提了出來,其中以Boosting和Bagging的影響最大。在下面的章節(jié)中對(duì)這兩種算法進(jìn)行了詳細(xì)的介紹。Kaerns和valiant提出了弱學(xué)習(xí)算法與強(qiáng)學(xué)習(xí)算法的等價(jià)性問題,即是否可以將弱學(xué)習(xí)算法提升成強(qiáng)學(xué)習(xí)算法的問題。1990年,schapire[49] 通過一個(gè)構(gòu)造性方法對(duì)該問題做出了肯定的證明,其構(gòu)造過程稱為Boosting。在Freund的方法中通過Boosting產(chǎn)生一系列神經(jīng)網(wǎng)絡(luò),各網(wǎng)絡(luò)的訓(xùn)練集決定于在其之前產(chǎn)生的網(wǎng)絡(luò)的表現(xiàn),被已有網(wǎng)絡(luò)錯(cuò)誤判斷的示例將以較大的概率出現(xiàn)在新網(wǎng)絡(luò)的訓(xùn)練集中。另一方面,雖然Boosting方法能夠增強(qiáng)神經(jīng)網(wǎng)絡(luò)集成的泛化能力,但是同時(shí)也有可能使集成過分偏向于某幾個(gè)特別困難的示例。1995年,F(xiàn)reund和schapire提出了AdaBoost (Adaptive Boosting)算法[46],該算法的效率與Freund[9]算法很接近,而且可以很容易地應(yīng)用到實(shí)際問題中,因此,該算法已成為目前最流行的Boosting算法。尤其是在學(xué)習(xí)完分類器之后,增加由之導(dǎo)致分類錯(cuò)誤的訓(xùn)練示例的權(quán)值,并通過重新對(duì)訓(xùn)練示例計(jì)算權(quán)值,再學(xué)習(xí)下一個(gè)分類器。最終的分類器從這一系列的分類器中綜合得出。Boosting是一種將弱分類器通過某種方式結(jié)合起來得到一個(gè)分類性能大大提高的強(qiáng)分類器的分類
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1