freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機器學習算法在生物信息學中的應用畢業(yè)論文-wenkub.com

2025-04-04 03:36 本頁面
   

【正文】 研究表明[6163],蛋白質(zhì)輸送失敗是幾種人類疾病產(chǎn)生的重要因素,如癌癥和老年癡呆癥(Alzheimer’s disease)?;?、葉、果實的顏色,除綠色以外,其它如藍色、紅色和黃色等都由于液泡中各種高濃度色素所引起的。這是細胞膜最基本的功能之一。它是一種異質(zhì)性的細胞器,不同生物的細胞中,甚至單細胞生物的不同個體中所含酶的種類及其行使的功能都有所不同。此外,在人類細胞的死亡過程中,無論凋亡還是壞死都與線粒體有關(guān),因此它是新藥的一個主要靶體。在酸性條件下,溶酶體對蛋白質(zhì)、膚、糖、中性脂質(zhì)、糖脂、糖蛋白、核酸等多種物質(zhì)起水解作用,這對于維持細胞的正常代謝活動及防御微生物侵染都有重要意義。6. 高爾基體(Golgi apparatus):它主要功能是將內(nèi)質(zhì)網(wǎng)合成的多種蛋白質(zhì)進行加工、分類與包裝,然后分門別類地運送到細胞特定的部位或分泌到細胞外。它在細胞中具有多種重要功能,對細胞的多種重要蛋白的合成和修飾加工,轉(zhuǎn)運或輸出細胞以及對幾乎全部脂類的合成都起著重要作用。在肌肉細胞中,細胞骨架和它的結(jié)合蛋白組成動力系統(tǒng)。對于一個真核細胞來說,其細胞質(zhì)又包括液態(tài)的細胞質(zhì)基質(zhì),各種細胞器和各種內(nèi)含物。 亞細胞定位示意圖圖中給出了12類蛋白質(zhì)亞細胞定位:(1) 葉綠體(chloroplast), (2) 細胞質(zhì)(cytoplasm), (3) 細胞骨架(cytoskeleton), (4) 內(nèi)質(zhì)網(wǎng)(endoplasmic raticulum), (5) 細胞外(extracell), (6) 高爾基體(Golgi apparatus), (7) 溶酶體(lysosomal), (8) 線粒體(mitochondrial), (9) 細胞核(nuclear), (10) 過氧化物酶體(peroxisomal), (11) 原生質(zhì)膜(plasma membrane), (12) 液泡(vacuole)。內(nèi)膜系統(tǒng)將細胞質(zhì)分割成了一些區(qū)間,即所謂的分區(qū)化。除了細胞質(zhì)中各種由膜系統(tǒng)分隔的重要細胞器外,由于真核細胞的結(jié)構(gòu)與功能的復雜化,真核細胞的遺傳信息量較原核細胞大大增多。根據(jù)進化程度與結(jié)構(gòu)的復雜程度,可將細胞劃為原核細胞(prokaryotic)和真核細胞(eukaryotic)兩大類。細胞不僅是有機體的基本結(jié)構(gòu)單位,而且是有機體生長、發(fā)育、繁殖與進化的基礎。[56]在所有的蛋白質(zhì)序列中,只有大約20%擁有可靠的亞細胞定位注釋。例如,2007年3月發(fā)布的Swiss–(),總共包含260175條蛋白質(zhì)序列。為了行使它們的功能,這些蛋白質(zhì)將被分別輸送到細胞的某些指定區(qū)域或細胞器,該過程就稱之為亞細胞定位。生物信息學的一個主要內(nèi)容就是給這些序列進行注釋[53,54],描述每一個蛋白質(zhì)的功能成為了后基因組時代重大挑戰(zhàn)之一。 本章小結(jié) 本章主要介紹了本文工作中用到的常見的幾種機器學習算法的原理和實現(xiàn)算法:、隨機決策樹算法以及隨機森林算法;最有影響力的兩種集成算法,即AdaBoost與Bagging算法;應用極為廣泛的支持向量機算法。由于最終判別函數(shù)中只包含未知向量與支持向量內(nèi)積的線性組合,因此識別時的計算復雜度取決于支持向量個數(shù)。 支持向量機核函數(shù)在推導分類算法之前,其實是假設了分類超平面存在于原始特征空間中。支持向量 支持向量超曲面回歸超平面支持向量 支持向量回歸示意圖不敏感損失函數(shù)可以表示如下: () 線性回歸情況設樣本集為:,回歸函數(shù)用下列線性方程來表示: ()最佳回歸函數(shù)通過求下列函數(shù)的最小極值得出: ()其中C是設定的可調(diào)參數(shù)值,為松弛變量的上限與下限。此法誠然有效,但由此增加的可調(diào)參數(shù)未免增加了過擬合的風險。若將擬合的數(shù)學模型表達為多維空間的某一曲線,則根據(jù)不敏感損失函數(shù)所得的結(jié)果就是包絡該曲線和訓練點的“ 管道”。為此,引入以下目標函數(shù): ()其中C是一個大于零的常數(shù),稱為可調(diào)參數(shù),此時SVM仍可以通過二次規(guī)劃(對偶規(guī)劃)來實現(xiàn): () 支持向量回歸算法 ε不敏感損失函數(shù) 進行建模的訓練樣本數(shù)據(jù)中,必然攜帶有誤差,只是其大小不同而已。把式()分別對w、b、求偏微分并令它們等于0,得:  以上三式加上原約束條件可以把原問題轉(zhuǎn)化為如下凸二次規(guī)劃的對偶問題: ()這是一個不等式約束下二次函數(shù)機制問題,存在唯一最優(yōu)解。HH1H2首先從最為簡單的線性可分的情況入手。圖中空心圓點和實心圓點分別表示兩類訓練樣本,H為把兩類沒有錯誤地分開的分類線,H1和H2分別表示兩類樣本中距離分類線最近的點且平行于分類線的直線,H1和H2之間的距離叫作兩類的分類空隙或分類間隔。顯然這種方法比較費時,當子集數(shù)目很大甚至無窮時不可行。事實上,在傳統(tǒng)方法中,選擇學習模型和算法的過程就是調(diào)整置信范圍的過程,如果模型比較適合現(xiàn)有的訓練樣本,則可以取得比較好的效果。這一結(jié)論從理論上說明了學習機器的實際風險由兩部分組成:一部分是經(jīng)驗風險。在這種情況下,試圖從更本質(zhì)上研究機器學習的統(tǒng)計學習理論體系逐步得到重視?,F(xiàn)今,SVM算法已經(jīng)得到了國際數(shù)據(jù)挖掘?qū)W術(shù)界的重視,并在語音識別、文字識別、藥物設計、組合化學、時間序列預測、蛋白質(zhì)研究等多個研究領域取得了成功的應用,該方法從嚴謹?shù)臄?shù)學理論出發(fā),論證和實現(xiàn)了在小樣本情況下能最大限度地提高預報可靠性的方法,其研究成果令人鼓舞。 SVM算法早在上世紀60年代,以數(shù)學家Vladimir N. Vapnik等為代表的學派就注意到了經(jīng)典統(tǒng)計數(shù)學的這一弱點,并開始努力建立一套能保證從有限樣本得出預報能力最強的數(shù)學模型。設,使。任務是使用來得到一個更好的學習器,它比單個數(shù)據(jù)集學習器要強。對于像神經(jīng)網(wǎng)絡這樣極為耗時的學習方法,Bagging可通過并行訓練節(jié)省大量的時間開銷。學習算法的不穩(wěn)定性是指如果訓練集有較小的變化,學習算法產(chǎn)生的預測函數(shù)將發(fā)生較大的變化。平均來說,%,原始訓練集中的某些樣本可能在新的訓練集中出現(xiàn)多次,而另外一些樣本則可能一次也不出現(xiàn)。弱分類器的選擇應該遵循如下兩個標準:(1)弱分類器有處理數(shù)據(jù)重分配的能力;(2)弱分類器必須不會導致過擬合。每一輪中,分類器ht都專注于那些難分類的實例,并據(jù)此對每一個訓練實例的權(quán)重進行修改。依次類推,經(jīng)過了T次循環(huán),得到了T個弱分類器,把這T個弱分類器按一定的權(quán)重疊加(boost)起來,得到最終想要的強分類器。開始時,每個樣本對應的權(quán)重是相同的,即,其中n為樣本個數(shù),在此樣本分布下訓練出一弱分類器h1。讓分類效果好的弱分類器具有較大的權(quán)重,而分類效果差的分類器具有較小的權(quán)重。 Adaboost算法描述對于Boosting算法,存在兩個問題:1. 如何調(diào)整訓練集,使得在訓練集上訓練弱分類器得以進行。n 將h1分錯的數(shù)據(jù)和其它的新數(shù)據(jù)一起構(gòu)成一個新的有N個訓練數(shù)據(jù)的樣本,通過對這個樣本的學習得到第二個弱分類器h2。強分類器對數(shù)據(jù)進行分類,是通過弱分類器的多數(shù)投票機制進行的。最終的分類器從這一系列的分類器中綜合得出。1995年,F(xiàn)reund和schapire提出了AdaBoost (Adaptive Boosting)算法[46],該算法的效率與Freund[9]算法很接近,而且可以很容易地應用到實際問題中,因此,該算法已成為目前最流行的Boosting算法。在Freund的方法中通過Boosting產(chǎn)生一系列神經(jīng)網(wǎng)絡,各網(wǎng)絡的訓練集決定于在其之前產(chǎn)生的網(wǎng)絡的表現(xiàn),被已有網(wǎng)絡錯誤判斷的示例將以較大的概率出現(xiàn)在新網(wǎng)絡的訓練集中。Kaerns和valiant提出了弱學習算法與強學習算法的等價性問題,即是否可以將弱學習算法提升成強學習算法的問題。集成學習經(jīng)過了十幾年的不斷發(fā)展,各種不同的集成學習算法不斷被提了出來,其中以Boosting和Bagging的影響最大。對于一些算法而言,如神經(jīng)網(wǎng)絡、遺傳算法,在解決實際問題的時候,需要選擇操作參數(shù)。在對己知的數(shù)據(jù)集合進行學習的時候,我們常常選擇擬合度值最好的一個模型作為最后的結(jié)果。2. 提高預測結(jié)果的穩(wěn)定性。集成算法的作用主要體現(xiàn)在如下四個方面:1. 提高預測結(jié)果的準確性。對于許多算法如神經(jīng)網(wǎng)絡、遺傳算法來說,在算法應用的開始首先要解決的就是要選擇算法參數(shù)。不穩(wěn)定的算法指的是當訓練數(shù)據(jù)發(fā)生很小變化的時候,結(jié)果就能產(chǎn)生很大變化的算法。3. 樣本集重新抽樣法。這種構(gòu)成方法,用于集成的每個算法的輸入變量是原變量集的一個子集。廣義地來說,只要是使用多個學習器來解決問題,就是集成學習[47,48]。但是這個算法存在著一個重大的缺陷,就是必須知道學習算法正確率的下限,這在實際中很難做到。他們的實驗結(jié)果表明,這一組神經(jīng)網(wǎng)絡形成的集成,比最好的個體神經(jīng)網(wǎng)絡的性能還好。由于集成學習可以有效地提高學習系統(tǒng)的泛化能力,因此它成為國際機器學習界的研究熱點。隨機森林的泛化誤差上界的定義為 ()其中是相關(guān)系數(shù)的均值,s是樹的分類強度??梢钥闯?邊際越大分類的置信度就越高。最新的研究表明[6],構(gòu)造多分類器的集成,. 為了構(gòu)造k棵樹,我們得先產(chǎn)生k個隨機向量,這些隨機向量是相互獨立并且是同分布。Si為該葉子結(jié)點處訓練數(shù)據(jù)集中標記為di類的數(shù)目。當對事例進行分類時,預測為預定類別di的概率。非葉子結(jié)點不記錄經(jīng)過分支的事例數(shù)目,葉子中信息形式如:。(2)選擇隨機決策樹的個數(shù)。下面詳細介紹隨機決策樹的深度選擇和數(shù)目的選擇及其分類。分支結(jié)點的事例數(shù)太小以至于不能給出一個有統(tǒng)計意義的測試。表示記錄x的屬性Fi的值,具體結(jié)構(gòu)描述如下:樹中的每個結(jié)點表示一個問題。對決策樹上的每個非葉子結(jié)點,計算該分枝節(jié)點上的子樹被剪枝可能出現(xiàn)的期望錯誤率。另外,在節(jié)點處記下符合條件的統(tǒng)計數(shù)據(jù):該分枝總數(shù)、有效數(shù)、中止數(shù)和失效數(shù)。使用“信息增益率函數(shù)”,它同時考慮了每一次劃分所產(chǎn)生的子結(jié)點的個數(shù)和每個子結(jié)點的大小(包含的數(shù)據(jù)實例的個數(shù)),考慮的對象主要是一個個地劃分,而不再考慮分類所蘊涵的信息量,屬性X的信息增益函數(shù)為: ()其中v為該節(jié)點的分枝數(shù),si為第i個分枝下的記錄個數(shù)。 [41]設S為訓練集樣本總數(shù),共有m類樣本,Si為類Ci中的樣本數(shù),計算公式為: () 其中,其中pi是任意樣本屬于Ci的概率,可用Si/S來估計。沒有一種剪枝方法明顯優(yōu)于其它方法。決策樹的質(zhì)量更加依靠好的停止規(guī)則而不是劃分規(guī)則。例如,它將整個樣本空間分為三類。1980年,在美國的卡內(nèi)基—梅隆(CMU)召開了第一屆機器學習國際研討會,標志著機器學習研究已在全世界興起。本階段的研究目標是模擬人類的概念學習過程,并采用邏輯結(jié)構(gòu)或圖結(jié)構(gòu)作為機器內(nèi)部描述。其研究目標是各類自組織系統(tǒng)和自適應系統(tǒng),其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)和改進系統(tǒng)的執(zhí)行能力,不涉及與具體任務有關(guān)的知識。 本文的主要工作成果在于:;,使預報模型能夠為領域?qū)<遥貏e是實驗工作者所用。并運用J2EE技術(shù),實現(xiàn)基于上述模型的在線預報功能。二十世紀80年代后,考慮分子三維構(gòu)象的3DQSAR也逐步引起了研究者的關(guān)注。而后在二十世紀60年代,Hansch[16,17]和Free、Wilson[18,19]的研究開始建立在定量的基礎之上。后來人們發(fā)現(xiàn),化合物拓撲結(jié)構(gòu)是決定其化學性質(zhì)的重要因素。 QSAR簡介 化合物的性質(zhì)/活性是化學的基本研究內(nèi)容之一,徐光憲先生將物質(zhì)結(jié)構(gòu)與性能的定量關(guān)系稱為化學的第二根本規(guī)律,并將其列為二十一世紀化學的四大難題(中長期)之一[10]。生物芯片技術(shù)檢測及分析技術(shù)是生物信息學中目前實用性較強的研究領域。b, 蛋白質(zhì)結(jié)構(gòu)預測的目的是利用已知的一級序列來構(gòu)建出蛋白質(zhì)的立體結(jié)構(gòu)模型,對蛋白質(zhì)進行結(jié)構(gòu)預測需要具體問題具體分析,在不同的已知條件下對于不同的蛋白質(zhì)采取不同的策略。一般步驟為先通過蛋白質(zhì)序列數(shù)據(jù)庫比較來確定其功能。發(fā)現(xiàn)新基因和單核苷酸多態(tài)是當前國際上基因組研究的熱點。第二, 在人類基因組研究中的應用。另外,還有動態(tài)規(guī)劃算法、神經(jīng)網(wǎng)絡和隱馬爾科夫算法。序列比對是生物信息學的基礎。 機器學習算法在生物信息學中的應用機器學習的研究主旨是使用計算機模擬人類的學習活動,它是研究計算機識別現(xiàn)有知識、獲取新知識、不斷改善性能和實現(xiàn)自身完善的方法。本論文研究基于機器學習理論和算法,通過對蛋白質(zhì)序列分析,進而實現(xiàn)亞細胞位置預測的工作。在此基礎上解釋與生物分子信息復制、傳遞、表達有關(guān)的生物過程,并解釋生物過程中出現(xiàn)的故障與疾病的關(guān)系,幫助發(fā)現(xiàn)新藥物作用目標,設計新藥物分子,為進一步的研究和應用打下基礎。在蛋白質(zhì)一級結(jié)構(gòu)方面有SWISSPROT、PIR和MIPS等。[1] 目前生物信息學的主要任務是研究生物分子數(shù)據(jù)的獲取、存儲和查詢,發(fā)展數(shù)據(jù)分析方法,研究內(nèi)容主要包括三個方面:第一, 收集和管理生物分子數(shù)據(jù),將各種數(shù)據(jù)以一定的表示形式存放在計算機中,建立數(shù)據(jù)庫系統(tǒng)并提供數(shù)據(jù)查詢和數(shù)據(jù)通訊工具,使得生物學研究人員能夠方便地使用這些數(shù)據(jù),并為信息分析和數(shù)據(jù)挖掘打下基礎。 Bagging got the best model with a correct rate of % in crossvalidation prediction, when KNN was selected as the weak classifer. Then, independent dataset test was used to validate the trained model, the result of AdaBoost and Bagging were % and % of prediction correct rate. As parison, SVM was used, and the result of training crossvalidation was % of correct rate, and the independent dataset test was % of correct rat
點擊復制文檔內(nèi)容
化學相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1