freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機器學習算法在生物信息學中的應用畢業(yè)論文(存儲版)

2025-05-07 03:36上一頁面

下一頁面
  

【正文】 但是當數(shù)據(jù)中噪聲或分裂屬性過多時,它們也解決不了樹不平衡。如果森林中的樹的數(shù)目較大,隨著樹的數(shù)目增加,對所有隨機向量趨向于 ()這是隨機森林的一個重要特點,并且隨著樹的增加,泛化誤差將趨向一上界,這表明隨機森林對未知的實例有很好的擴展。[44]使用一組神經(jīng)網(wǎng)絡來解決問題,除了按常規(guī)的做法選擇出最好的神經(jīng)網(wǎng)絡之外,他們還嘗試通過投票法將所有的神經(jīng)網(wǎng)絡結(jié)合起來求解。 狹義地說,集成學習是指利用多個同質(zhì)的學習器來對同一個問題進行學習,這里的“同質(zhì)”是指所使用的學習器屬于同一種類型,例如所有的學習器都是決策樹、都是神經(jīng)網(wǎng)絡等等。這種構(gòu)成方法,主要是通過改變輸出變量集,將多分類問題轉(zhuǎn)換為二分類問題來解決。4. 參數(shù)選擇法。研究者們在應用研究中發(fā)現(xiàn),將多個學習器進行集成后得到的預測精度明顯高于單個學習器的精度,甚至比單個最好的學習器的精度更高。4. 改進參數(shù)選擇。 AdaBoost算法 Kearns和Valiant指出[48],在PCA學習模型中,若存在一個多項式級學習算法來識別一組概念,并且識別正確率很高,那么這組概念是強可學習的;而如果學習算法識別一組概念的正確率僅比隨機猜測略好,那么這組概念是弱可學習的。因此,該方法不太穩(wěn)定,有時能起到很好的作用,有時卻沒有效果。這種方法將一些粗略的經(jīng)驗規(guī)則轉(zhuǎn)變?yōu)楦叨葴蚀_的預測法則。即某個數(shù)據(jù)被分為哪一類要通過的多數(shù)表決。 Adbaoost算法中不同的訓練集是通過調(diào)整每個樣本對應的權(quán)重來實現(xiàn)的。對訓練樣本集進行T次循環(huán)訓練。這種訓練集被稱作原始訓練集合的Bootstrap復制,這種技術(shù)也叫Bootstrap綜合,即Bagging。 Bagging的各個預測函數(shù)可以并行生成,而Boosting的各個預測函數(shù)只能順序生成。如果預測一個類,于是綜合的一種方法是通過投票。2001年,Burbidge在“Computer and Chemistry”首次發(fā)表了將SVM算法用于藥物設計和QSAR方面的論文,這是該新算法在化學領(lǐng)域應用的開始。關(guān)于兩類分類問題,指出了對指示函數(shù)集中的所有函數(shù),經(jīng)驗風險和實際風險之間以至少的概率滿足如下關(guān)系: ()其中h是函數(shù)集的VC維,n是樣本數(shù)。實現(xiàn)SRM原則有兩種思路,一種是在每個子集中求最小經(jīng)驗風險,然后選擇使最小經(jīng)驗風險和置信范圍之和最小的子集。推廣到高維空間,最優(yōu)分類線就成為最優(yōu)分類面。當用一個超平面不能把兩類點完全分開時(只有少數(shù)點被錯分),可以引入松弛變量(≥0, ),使超平面滿足:      ()當01時樣本點仍被正確分類,而當≥1時樣本點被錯分。為適應訓練樣本集的非線性,傳統(tǒng)的擬合方法通常是在線性方程后面加上高階項。只不過,較分類時更復雜,變量更多,運算量也更大而已。則SVM實現(xiàn)的就是一個兩層的感知器神經(jīng)網(wǎng)絡,只是在這里,與一般人工神經(jīng)網(wǎng)絡不同的是,不但網(wǎng)絡的權(quán)值,而且網(wǎng)絡的隱層節(jié)點數(shù)目也是由算法自動確定的。生命的中心法則指出,遺傳信息傳遞的主要途徑是由位于細胞核內(nèi)的脫氧核糖核酸(DNA)經(jīng)過轉(zhuǎn)錄調(diào)控和加工調(diào)控傳遞信使核糖核酸(mRNA);再由信使核糖核酸經(jīng)過轉(zhuǎn)運調(diào)控從細胞核進入到細胞質(zhì)中;最后在細胞質(zhì)中經(jīng)過翻譯控制合成具有特定功能的蛋白質(zhì)。實際上,這種不明確注釋數(shù)據(jù)并不能作為一個嚴謹?shù)挠柧殧?shù)據(jù)集來訓練可靠的預報器,對這些數(shù)據(jù)進行明確注釋也是新的預報器或?qū)嶒灆z測工作的新目標。細胞作為一個形態(tài)整體,結(jié)構(gòu)精密,而且在生長、發(fā)育、分化和生理活動中細胞的結(jié)構(gòu)不斷發(fā)生變化,因而要把細胞看作是一個動態(tài)的結(jié)構(gòu)體系[57,58]。其中核膜、內(nèi)質(zhì)網(wǎng)、高爾基體、溶酶體等在結(jié)構(gòu)上形成了一個連續(xù)的體系,稱為內(nèi)膜系統(tǒng)。2. 細胞質(zhì)(cytoplasm):指細胞膜內(nèi)除細胞核以外的成份。內(nèi)質(zhì)網(wǎng)增大了細胞內(nèi)的膜面積,膜上附著很多種酶,為細胞內(nèi)各種化學反應的正常進行提供了有利條件。7. 溶酶體(lysosomal):它的基本功能是對生物大分子的強烈消化作用,是細胞內(nèi)重要的消化器官。10. 過氧化物酶體(peroxisomal):它是由單層膜圍繞的、內(nèi)含一種或幾種氧化酶類的細胞器,是合成膽固醇和髓鞘的地方。同時還包含一些色素,如花青素??梢哉f,蛋白質(zhì)的亞細胞定位是研究蛋白質(zhì)功能。12. 液泡(vacuole):液泡是細胞質(zhì)中一種泡狀結(jié)構(gòu)的細胞器,外有液泡膜與細胞質(zhì)分開,內(nèi)含水樣的細胞液。9. 細胞核(nuclear):它是細胞內(nèi)最大的細胞器,載有全部基因的染色體,含有完整的遺傳物質(zhì),從根本上控制著細胞的生命。內(nèi)質(zhì)網(wǎng)上合成的脂類一部分也要通過高爾基體向細胞質(zhì)膜和溶酶體膜等部位運輸,因此可以說,高爾基體是細胞內(nèi)大分子運輸?shù)囊粋€主要的交通樞紐。另外,在植物細胞中細胞骨架指導細胞壁的合成。它們的功能如下:1. 葉綠體(chloroplast):在植物細胞和光合真菌中的另一種能量轉(zhuǎn)換細胞器。遺傳信息重復序列與染色體多倍性,也是真核細胞區(qū)別于原核細胞的另一重大標志[59]。在每一個細胞中,都包含著全套的遺傳信息,即包含著遺傳的全能性。除去那些被注釋為“碎片”或氨基酸數(shù)目少于50的殘渣,剩余247263條,其中133652條有亞細胞定位注釋。蛋白質(zhì)組學試圖尋找蛋白質(zhì)在細胞中可能扮演的角色,如代謝途徑和交互網(wǎng)絡,并為細胞環(huán)境中蛋白質(zhì)之間的相互作用及其行使的功能提供可靠的注釋。目前常用的核函數(shù)形式主要有以下三類,它們都與已有的算法有對應關(guān)系:(1)多項式形式的核函數(shù)(Polynomial Kernel Function,PKF),即,對應SVM是一個q階多項式分類器;(2)徑向基形式的核函數(shù)(RadialBasis Kernel Function, RKF),即,對應SVM是一種徑向基函數(shù)分類器。Vapnik提出運用下列不敏感損失函數(shù): ()通過下面的優(yōu)化方程: ()在下列約束條件:下求解: ()由此可得拉格朗日方程的待定系數(shù)和,從而得回歸系數(shù)和常數(shù)項:         () 非線性回歸情況 類似于分類問題,一個非線性模型通常需要足夠的模型數(shù)據(jù),與非線性SVC方法相同,一個非線性映射可將數(shù)據(jù)映射到高維的特征空間中,在其中就可以進行線性回歸。在所有樣本點中,只有分布在“管壁”上的那一部分樣本點決定管道的位置。若為最優(yōu)解,則: ()不為零的樣本即為支持向量,因此,最優(yōu)分類面的權(quán)系數(shù)向量是支持向量的線性組合。所謂最優(yōu)分類線就是要求分類線不僅能將兩類無錯誤地分開,而且要使兩類空隙最大。但因為缺乏理論指導,這種選擇主要依賴先驗知識和經(jīng)驗,造成了如神經(jīng)網(wǎng)絡等方法對使用者“技巧”的過分依賴。1992—1995年,Vapnik等在統(tǒng)計學習理論的基礎上發(fā)展了SVM算法,在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應用到函數(shù)擬合等其它機器學習問題。通過三十余年的嚴謹數(shù)學理論研究,提出了“統(tǒng)計學習理論”(Statistical Learning Theory,簡稱SLT)。這就要使用學習器序列。Bagging與Boosting的區(qū)別在于Bagging對訓練集的選擇是隨機的,各輪訓練集之間相互獨立,而Boosting對訓練集的選擇不是獨立的,各輪訓練集的選擇與前面各輪的學習結(jié)果有關(guān)。 Bagging算法 Bagging 算法的提出 Breiman在1996年提出了與Boosting相似的技術(shù)—Bagging[46]。 給定訓練樣本集, AdaBoost 用一個弱分類器或基本學習分類器循環(huán)T次,每一個訓練樣本用一個統(tǒng)一的初始化權(quán)重來標注, ()在公式()中 , L 為正確分類樣本數(shù), M為錯誤分類樣本數(shù). 訓練的目標是尋找一個優(yōu)化分類器ht,使之成為一個強分類器。AdaBoost算法是Freund和schapire[46]根據(jù)在線分配算法提出的,他們詳細分析了Adbaoost算法錯誤率的上界ε,以及為了使強分類器達到錯誤率ε,算法所需要的最多迭代次數(shù)等相關(guān)問題。n 將h1和h2都分錯了的數(shù)據(jù)加上其它的新數(shù)據(jù)構(gòu)成另一個新的有N個訓練數(shù)據(jù)的樣本,通過對這個樣本的學習得到第三個弱分類器h3。在這個過程中,每個訓練示例被賦予一個相應的權(quán)值,如果一個訓練示例被分類器錯誤分類,那么就相應增加該例子的權(quán)值,使得在下一次學習中,分類器對該樣本示例代表的情況更加重視。這樣,新網(wǎng)絡將能夠很好地處理對己有網(wǎng)絡來說很困難的示例。這兩種算法也是被研究得最多的,它們都是通過改造訓練樣本集來構(gòu)造集成學習算法。也許我們選擇的模型能夠很好的解釋訓練數(shù)據(jù)集合,但是卻不能很好的解釋測試數(shù)據(jù)或者其它數(shù)據(jù),也就是說這個模型過于精細的刻畫了訓練數(shù)據(jù),對于測試數(shù)據(jù)或者其它新的數(shù)據(jù)泛化能力不強,這種現(xiàn)象就稱為過擬合。機器學習的一個重要目標就是對新的測試樣本盡可能給出最精確的估計。如神經(jīng)網(wǎng)絡、決策樹。這種方法比較適用于輸入變量集高度冗余的時候,否則的話,選取一個屬性子集,會影響單個算法的性能,最終影響集成的結(jié)果。在1995年,F(xiàn)reund和Schapire[46]做了進一步工作,提出了AdBaoost算法,該算法不再要求事先知道泛化下界,可以非常容易的應用到實際的問題中去。 集成學習算法概述 在機器學習領(lǐng)域,最早的集成學習方法是Bayesian Averaging。于是,分類器的泛化誤差 ()其中下標X,Y代表的是該誤差是在X,Y空間下的。在后驗概率Pi中找出最大的一個,其所對應的預定類別即為隨機決策樹最終的輸出結(jié)果。其中,si表示預測為di類的事例數(shù), 表示決策屬性類別。(1)選擇樹的深度。每個分支對應結(jié)點分裂屬性Fi的可能取值。之所以選取信息增益率大而信息增益不低于平均值的屬性,是因為高信息增益率保證了高分枝屬性不會被選取,從而決策樹的樹型不會因某節(jié)點分枝太多而過于松散。 設屬性X具有v個值,它將S分成v個子集,其中Sj包含S中這樣的一些樣本,它們在屬性X上具有值。[39]獲取大小合適的樹常用的方法是后剪枝。[8] 決策樹算法決策樹學習是一種逼近離散值函數(shù)的算法,對噪聲數(shù)據(jù)有很好的健壯性,且能夠?qū)W習析取表達式,是最流行的歸納推理算法之一,已經(jīng)成功應用到醫(yī)療診斷、評估貸款申請的信用風險、雷達目標識別、字符識別、醫(yī)學診斷和語音識別等廣闊領(lǐng)域[36,37]。本階段的代表性工作是:塞繆爾(Samuel)的下棋程序。 本文的主要內(nèi)容分為三個部分,第一部分介紹了常用的機器學習算法,以及它們的原理。他們用統(tǒng)計方法對實驗數(shù)據(jù)進行歸納總結(jié)并建立結(jié)構(gòu)活性關(guān)系表達式,探討結(jié)構(gòu)變化與生化活性之間的關(guān)系,標志著QSAR時代的開始。化學家們普遍認為,化合物所表現(xiàn)出來的各種性質(zhì)/活性與化合物的結(jié)構(gòu)密不可分,即性質(zhì)/活性是結(jié)構(gòu)的函數(shù)。目前利用機器學習方法預測蛋白質(zhì)空間結(jié)構(gòu)的方法主要有折疊識別以及神經(jīng)網(wǎng)絡、隱馬爾科夫、支持向量機、AdaBoost等方法。生物信息學的方法是發(fā)現(xiàn)新基因的重要手段。目前已用于序列對比分析的方法主要有:NeedlimanWunsch動態(tài)規(guī)劃算法, Smith Waterman算法及Blast Fasta等相似性比較程序。這里的學習意味著從數(shù)據(jù)中學習,它包括有指導學習(Supervised Learning)、無指導學習(UnsupervisedLearning)和半指導學習(SemiSupervised Learning)三種類別。目前生物信息學的主要研究對象是基因和蛋白質(zhì)。目前國際上已建立起許多公共生物分子數(shù)據(jù)庫,包括基因圖譜數(shù)據(jù)庫、核酸序列數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫、生物大分子結(jié)構(gòu)數(shù)據(jù)庫等,由專門的機構(gòu)建立和維護負責收集、組織、管理和發(fā)布生物分子數(shù)據(jù),并提供數(shù)據(jù)檢索和分析工具,向生物學研究人員提供大量有用的信息,最大限度地滿足他們的研究和應用需要,為生物信息學研究服務。建立生物信息學預報模型的目的是為了提供對生物信息中的未知對象進行預報的工具,使得預測結(jié)果能夠為他人所用。在建模過程中,分別嘗試了用4種不同的弱分類器來訓練樣本,并用基于交叉驗證法的建模結(jié)果來對建模參數(shù)進行優(yōu)化。 簽 名: 日 期: 本論文使用授權(quán)說明本人完全了解上海大學有關(guān)保留、使用學位論文的規(guī)定,即:學校有權(quán)保留論文及送交論文復印件,允許論文被查閱和借閱;學校可以公布論文的全部或部分內(nèi)容。參與同一工作的其他同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。本文用基于序列氨基酸組成成分進行蛋白質(zhì)序列特征編碼,選用了AdaBoost與Bagging這兩種最重要的集成學習算法來對訓練數(shù)據(jù)集進行建模。 3. 提出了一種基于MVC架構(gòu)的服務器設計途徑,建立了基于已得模型的在線預報服務器。[1] 目前生物信息學的主要任務是研究生物分子數(shù)據(jù)的獲取、存儲和查詢,發(fā)展數(shù)據(jù)分析方法,研究內(nèi)容主要包括三個方面:第一, 收集和管理生物分子數(shù)據(jù),將各種數(shù)據(jù)以一定的表示形式存放在計算機中,建立數(shù)據(jù)庫系統(tǒng)并提供數(shù)據(jù)查詢和數(shù)據(jù)通訊工具,使得生物學研究人員能夠方便地使用這些數(shù)據(jù),并為信息分析和數(shù)據(jù)挖掘打下基礎。在此基礎上解釋與生物分子信息復制、傳遞、表達有關(guān)的生物過程,并解釋生物過程中出現(xiàn)的故障與疾病的關(guān)系,幫助發(fā)現(xiàn)新藥物作用目標,設計新藥物分子,為進一步的研究和應用打下基礎。 機器學習算法在生物信息學中的應用機器學習的研究主旨是使用計算機模擬人類的學習活動,它是研究計算機識別現(xiàn)有知識、獲取新知識、不斷改善性能和實現(xiàn)自身完善的方法。另外,還有動態(tài)規(guī)劃算法、神經(jīng)網(wǎng)絡和隱馬爾科夫算法。發(fā)現(xiàn)新基因和單核苷酸多態(tài)是當前國際上基因組研究的熱點。b, 蛋白質(zhì)結(jié)構(gòu)預測的目的是利用已知的一級序列來構(gòu)建出蛋白質(zhì)的立體結(jié)構(gòu)模型,對蛋白質(zhì)進行結(jié)構(gòu)預測需要具體問題具體分析,在不同的已知條件下對于不同的蛋白質(zhì)采取不同的策略。 QSAR簡介 化合物的性質(zhì)/活性是化學的基本研究內(nèi)容之一,徐光憲先生將物質(zhì)結(jié)構(gòu)與性能的定量關(guān)系稱為化學的第二根本規(guī)律,并將其列為二十一世紀化學的四大難題(中長期)之一[10]。而后在二十世紀60年代,
點擊復制文檔內(nèi)容
化學相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1