freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

碩士畢業(yè)論文-機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用-閱讀頁

2025-02-01 03:10本頁面
  

【正文】 所表現(xiàn)出來的各種性質(zhì) /活性與化合物的結(jié)構(gòu)密不可分,即性質(zhì) /活性是結(jié)構(gòu)的函數(shù)。 早在 1868 年, CrumBrown 和 Fraser 提出了化合物的分子結(jié)構(gòu) C 和生物活性? 可由方程表示: ()fC?? ,這是 QSAR 方面的第一個(gè)方程 [11]。當(dāng)時(shí)只研究了少部分的化合物結(jié)構(gòu)參數(shù)與其活性關(guān)系,如取代基的電子效應(yīng) (Hammett 的 σ 常數(shù) ),立體參數(shù) (Taft參數(shù) )以及疏水性參 數(shù) (Hansch 的分配常數(shù) )。 20 世紀(jì) 40年代起,化學(xué)家開始發(fā)現(xiàn)分子和其它化學(xué)物質(zhì)可以很方便地用多種不同 的 矩陣表示 [12,13],化學(xué)圖的概念及拓?fù)渲笖?shù)(圖論指數(shù)) [14,15]的引入使表征分子結(jié)構(gòu)并進(jìn)行化合物的構(gòu)效關(guān)系研究有了一個(gè)基本工具。他們用統(tǒng)計(jì)方法對(duì)實(shí)驗(yàn)數(shù)據(jù) 進(jìn)行 歸納總結(jié)并建立結(jié)構(gòu) 活性關(guān)系表達(dá)式,探討結(jié)構(gòu)變化與生化活性之間的關(guān)系,標(biāo)志著 QSAR 時(shí)代的開始。 一方面,表征分子的結(jié)構(gòu)上海大學(xué)碩士學(xué)位論文 2022 年 5 月 5 參數(shù)不斷豐富, 在傳統(tǒng)物理化學(xué)參數(shù)以外,更多地使用拓?fù)鋮?shù) [15,2023]、電子參數(shù) [2426]來表征基團(tuán)結(jié)構(gòu) ;另一方面,一些新的建模方法也被引入到 SPR/SAR 的研究中,除了傳統(tǒng)的多元線性回歸、 偏最小二乘回歸和主成分分析等算法以外,遺傳算法 [27,28]、人工神經(jīng)網(wǎng)絡(luò) [29,30]和支持向量機(jī)方法 [31,32]等逐步引入了定量構(gòu)效關(guān)系研究。 1979 年 Crippen 提出的距離幾何學(xué)方法 [33]、 1980 年 Hopfinger等人提出的分子形狀分析方法 [34]、 1988 年 Cramer 等人提出的比較分子場(chǎng)方法(CoMFA) [35]是 3DQSAR 中最常用的手段。 論文的主要內(nèi)容 本文運(yùn)用機(jī)器學(xué)習(xí)技術(shù)對(duì)蛋白質(zhì)序列的亞細(xì)胞定位數(shù)據(jù)集以及一類有機(jī)同系物進(jìn)行研究,建立起了用于蛋白質(zhì)序列亞細(xì)胞定位的預(yù)測(cè)模型和用于 5脂氧化酶抑制活性預(yù)測(cè)的 QSAR 模型。 本文的主要內(nèi)容分為 三 個(gè)部分,第一部分介紹了常用的機(jī)器學(xué)習(xí)算法,以及它們的原理。第三部分介紹了 在線預(yù)報(bào)系統(tǒng)的實(shí)現(xiàn)原理與具體實(shí)現(xiàn)方法。上海大學(xué)碩士學(xué)位論文 2022 年 5 月 6 第二章 機(jī)器學(xué)習(xí)算法 機(jī)器學(xué)習(xí)是人工智能研究較為年輕的分支 ,它的發(fā)展過程大體上分為四個(gè)時(shí)期。在這個(gè)時(shí)期 ,所研究的是“沒有知識(shí)”的學(xué)習(xí) ,即“無知”學(xué)習(xí)。本階段的代表性工作 是 :塞繆爾 (Samuel)的下棋程序。第二階段是在 60 年代中葉到 70 年代中葉 ,被稱為機(jī)器學(xué)習(xí)的冷靜時(shí)期。本階段的代表性工作有溫斯頓 (Winston)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯羅思 (HayesRoth)等的基本邏輯的歸納學(xué)習(xí)系統(tǒng)。在此期間 ,人們從學(xué)習(xí)單個(gè)概念擴(kuò)展到學(xué)習(xí)多個(gè)概念 ,探索不同的學(xué)習(xí)策略和方法 ,且在本階段已開始把學(xué) 習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來 ,并取得很大的成功 ,促進(jìn)機(jī)器學(xué)習(xí)的發(fā)展。 [8] 決策樹 算法 決策樹學(xué)習(xí)是一種逼近離散值函數(shù)的算法,對(duì)噪聲數(shù)據(jù)有很好的健壯性,且能夠?qū)W習(xí)析取表達(dá)式,是最流行的歸納推理算法之一,已經(jīng)成功應(yīng)用到醫(yī)療診斷、評(píng)估貸款申請(qǐng)的信用風(fēng)險(xiǎn)、雷達(dá)目標(biāo)識(shí)別、字符識(shí)別、醫(yī)學(xué)診斷和語音識(shí)別等廣闊領(lǐng)域 [36,37]。當(dāng)使 用決策樹對(duì)未知樣本進(jìn)行分類時(shí),由根結(jié)點(diǎn)開始對(duì)該樣本的屬性逐漸測(cè)試其值,并且順著分枝向下走,直到到達(dá)某個(gè)葉結(jié)點(diǎn),此葉結(jié)點(diǎn)代表的類即為該樣本的類。如果一個(gè)樣本屬性 A 的取值為 a2,屬性 B 的取值為 b2,屬性 C 的取值為 c1 那么上海大學(xué)碩士學(xué)位論文 2022 年 5 月 7 它屬于類 1[38]。常用的修剪技術(shù)有預(yù)修剪 (prepruning)和后修剪 (postpruning)兩種。 [39]獲取大小合適的樹常用的方法是后剪枝。 其它 的剪枝方法有:①限制最小結(jié)點(diǎn)規(guī)模,②兩階段研究,③不純度的閥值,④將樹轉(zhuǎn)變?yōu)橐?guī)則,⑤ Tree reduction。 尋找一棵最優(yōu)決策樹主要解決以下三個(gè)最優(yōu)化問題 :①生成最少數(shù)目的葉子,②生成的每個(gè)葉子的深度最小,③生成的決策樹葉子最少且每個(gè)葉子的深度最小。 常用的決策樹算法由 CART, ID3, 算法,隨機(jī)樹算法,在下面,對(duì)本文中用到的決策樹算法進(jìn)行了詳細(xì)介紹。 設(shè)屬性 X 具有 v 個(gè)值 12{ , ,..., }vx x x ,它將 S 分成 v 個(gè)子集 12{ , ,..., }vs s s ,其中Sj 包含 S 中這樣的一些樣本,它們?cè)趯傩?X 上具有值 ( 1, 2,..., )jX j v? 。 屬性 X 的信息增益函數(shù)為: 12( ) ( , , .. ., ) ( )mG ain X I s s s E X?? () 信息增益函數(shù)對(duì)于那些可能產(chǎn)生多分枝的測(cè)試傾向于生產(chǎn)大的函數(shù)值,但是輸出分枝多,并不表示該測(cè)試對(duì)末知的對(duì)象具有更好的預(yù)測(cè)效果,信息增益率函數(shù)可以彌補(bǔ)這個(gè)缺陷“信息增益率”是為了去除多分枝屬性的影響而對(duì)信息增益的一種改進(jìn)。 依次計(jì)算每個(gè)屬性的信息增益 Gain(X)以及信息增益率 A(X),選取信息增益率最大的,但同時(shí)獲取的信息增益又不低于所有屬性平均值的屬性作為測(cè)試屬性,以該屬性作為結(jié)點(diǎn),屬性的每一個(gè)分布引出一個(gè)分枝,據(jù)此劃分樣本。如此類推,直到子集中的數(shù)據(jù)記錄在主屬性上取值都相同,或沒有屬性可再供劃上海大學(xué)碩士學(xué)位論文 2022 年 5 月 9 分使用,遞歸地形成初始決策樹。 之所以選取信息增益率大而信息增益不低于平均值的屬性,是因?yàn)楦咝畔⒃鲆媛时WC了高分枝屬性不會(huì)被選取,從而決策樹的樹型不會(huì)因某節(jié)點(diǎn)分枝太多而過于松散。 得到了完全生長的初始決策樹后,為了除去噪聲數(shù)據(jù)和孤立點(diǎn)引起的分枝異常,可采用后剪枝算法對(duì)生成的初始決策樹進(jìn)行剪枝,并在剪枝過程中使用一種悲觀估計(jì)來補(bǔ)償樹生成時(shí)的樂觀偏差。然后,使用每個(gè)分枝的錯(cuò)誤率,結(jié)合沿每個(gè)分枝觀察的權(quán)重評(píng)估,計(jì)算不對(duì)該節(jié)點(diǎn)剪枝的期望錯(cuò)誤率。 隨機(jī) 決策 樹算法 [42] 設(shè)屬性集 1{ ,..., , }kX F F D? 為建樹提供結(jié)構(gòu),其中 ( 1, 2,..., )iF i k? 是非決策屬性,決策屬性 12( , ,..., )mD d d d 是一列有效的類別 。每個(gè)分支對(duì)應(yīng)結(jié)點(diǎn)分裂屬性 Fi 的可能取值 ()iFx。且在以下 3 種情況下停止樹的構(gòu)造:樹的高度滿足預(yù)先設(shè)定的閾值 。其它 任何一個(gè)屬性測(cè)試都不能更好地分類。當(dāng)對(duì)事例 X 進(jìn)行分類時(shí) ,以各隨機(jī)樹輸出的后驗(yàn)概率均值最大的類 ( 1, 2,..., )id i m? 為預(yù)測(cè)類。 (1)選擇樹的深度。研究表明 ,當(dāng) i=k/2 時(shí)得到最大路徑數(shù) ,隨機(jī)決策上海大學(xué)碩士學(xué)位論文 2022 年 5 月 10 樹有最佳的效果。樹的個(gè)數(shù) N=10 時(shí)有較低的分類錯(cuò)誤率 ,且可信度大于 %。在樹的結(jié)構(gòu)建好后對(duì)樹結(jié)點(diǎn)更新 ,其中葉子結(jié)點(diǎn)記錄事例被分類為某一預(yù)定類別的個(gè)數(shù) 。其中 ,si 表示預(yù)測(cè)為 di 類的事例數(shù) , ( 1, 2,..., )id i m? 表示決策屬性類別。 (4) 分類。其中 ,N 表示隨機(jī)決策樹的數(shù)目 。S 為從根結(jié)點(diǎn)開始搜索到合適葉子結(jié)點(diǎn)處的事例個(gè)數(shù) 。在后驗(yàn)概率 Pi 中找出最大的一個(gè) m ax( )( 1,..., )iP i m? ,其所對(duì)應(yīng)的預(yù)定類別即為隨機(jī)決策樹最終的輸出結(jié)果。 隨機(jī)森林算法 [43] 在決策樹算法中 ,一般用選擇分裂屬性和剪枝來控制樹的生成 ,但是當(dāng)數(shù)據(jù)中噪聲或分裂屬性過多時(shí) ,它們也解決不了樹不平衡 。隨機(jī)向量 i? 可構(gòu)造決策分類樹 ( , )ihX? ,簡化為 ()hX 。該邊緣函數(shù)刻畫了對(duì)向量 X 正確分類 y 的平均得票數(shù)上海大學(xué)碩士學(xué)位論文 2022 年 5 月 11 超過其它任何類平均得票數(shù)的程度。于是, 分類器的泛化誤差 * , ( ( , ) 0)xyP E P m g x y?? () 其中下標(biāo) X,Y 代表的是該誤差是在 X,Y 空間下的。如果森林中的樹的數(shù)目較大,隨著樹的數(shù)目增加 ,對(duì)所有隨機(jī)向量 *,...,PE? 趨向于 , ( ( ( , ) ) m a x ( ( , ) ) 0 )xy jyP p h x y p h x j?????? ? ? ? () 這是隨機(jī)森林的一個(gè)重要特點(diǎn) , 并且隨著樹的增加 , 泛化誤差 *PE 將趨向一上界 , 這表明隨機(jī)森林對(duì)未知的實(shí)例有很好的擴(kuò)展 。隨機(jī)森林的泛化誤差上界可以根據(jù)兩個(gè)參數(shù)推導(dǎo)出來:森林中每棵決策樹的分類精度即樹的強(qiáng)度 S,和這些樹之間的相互依賴程度 _? 。正確理解這兩者之間的相互影響是我們理解隨機(jī)森林工作原理的基礎(chǔ) . . 集成學(xué)習(xí) 算法 集成學(xué)習(xí) (Ensemble Learning)是一種新的機(jī)器學(xué)習(xí)范式,它使用多個(gè) (通常是同質(zhì)的 )學(xué)習(xí)器來解決同一個(gè)問題。 集成學(xué)習(xí)算法概述 在機(jī)器學(xué)習(xí)領(lǐng)域,最早的集成學(xué)習(xí)方法是 Bayesian Averaging。 和 [44]使用一組神經(jīng)網(wǎng)絡(luò)來解決問題,除了按常規(guī)的做法選擇出最好的神經(jīng)網(wǎng)絡(luò)之外,他們還嘗試上海大學(xué)碩士學(xué)位論文 2022 年 5 月 12 通過投票法將所有的神經(jīng)網(wǎng)絡(luò)結(jié)合起來求解。正是這一超乎人們直覺的結(jié)果,使得集成學(xué)習(xí)引起了很多學(xué)者的重視。這個(gè)構(gòu)造性方法就是 Boosting 算法的雛形。在 1995 年, Freund和 Schapire[46]做了進(jìn)一步工作,提出了 AdBaoost 算法,該算法不再要求事先知道泛化下界,可以非常容易的應(yīng)用到實(shí)際的問題中去。 狹義地說,集成學(xué)習(xí)是指利用多個(gè)同質(zhì)的學(xué)習(xí)器來對(duì)同一個(gè)問題進(jìn)行學(xué)習(xí),這里的“同質(zhì)”是指所使用的學(xué)習(xí)器屬于同一種類型,例如所有的學(xué)習(xí)器都是決策樹、都是神經(jīng)網(wǎng)絡(luò)等等。在集成學(xué)習(xí)的早期研究中,狹義定義采用得比較多,而隨著該領(lǐng)域的發(fā)展,越來越多的學(xué)者傾向于接受廣義定義。 大致上來說,集成學(xué)習(xí)的構(gòu)成方法可以分為四種 : 1. 輸入變量集重構(gòu)法。這種方法比較適用于輸入變量集高度冗余的時(shí)候,否則的話,選取一個(gè)屬性子集,會(huì)影響單個(gè)算法的性能,最終影響集成的結(jié)果。這種構(gòu)成方法,主要是通過改變輸出變量集,將多分類問題轉(zhuǎn)換為二分類問題來解決。在這種構(gòu)成方法中,用于集成的每個(gè)算法所對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)都是原來訓(xùn)練數(shù)據(jù)的一個(gè)子集。樣本集重新抽樣法對(duì)于不穩(wěn)定的算法來說,能夠取得很好的 效果。如神經(jīng)網(wǎng)絡(luò)、決策樹。 上海大學(xué)碩士學(xué)位論文 2022 年 5 月 13 4. 參數(shù)選擇法。而且,由于這些算法操作過程的解釋性很差,對(duì)于算法參數(shù)的選擇沒有確定的規(guī)則可依。在這樣的情況下,不同的參數(shù)選擇,最終的結(jié)果可能會(huì)有很大的區(qū)別,具有很大的不穩(wěn)定性。機(jī)器學(xué)習(xí)的一個(gè)重要目標(biāo)就是對(duì)新的測(cè)試樣本盡可能給出最精確的估計(jì)。研究者們?cè)趹?yīng)用研究中發(fā)現(xiàn),將多個(gè)學(xué)習(xí)器進(jìn)行集成后得到的預(yù)測(cè)精度明顯高于單個(gè)學(xué)習(xí)器的精度,甚至比單個(gè)最好的學(xué)習(xí)器的精度更高。有些學(xué)習(xí)算法單一的預(yù)測(cè)結(jié)果時(shí)好時(shí)壞,不具有穩(wěn)定性,不能一直保持高精度的預(yù)測(cè)。 3. 解決過擬合問題。也許我們選擇的模型能夠很好的解釋訓(xùn)練數(shù)據(jù)集合,但是卻不能很好的解釋測(cè)試數(shù)據(jù)或者 其它數(shù)據(jù),也就是說這個(gè)模型過于精細(xì)的刻畫了訓(xùn)練數(shù)據(jù),對(duì)于測(cè)試數(shù)據(jù)或者 其它 新的數(shù)據(jù)泛化能力不強(qiáng),這種現(xiàn)象就稱為過擬合。 4. 改進(jìn)參數(shù)選擇。但是這些操作參數(shù)的選取沒有確定性的規(guī)則可以依據(jù),只能憑 借經(jīng)驗(yàn)來選取,對(duì)于非專業(yè)的一般操作人員會(huì)有一定的難度。通過建立多個(gè)不同操作參數(shù)的模型,可以解決選取參數(shù)的難題,同時(shí)將不同模型的結(jié)果按照一定的方式集成就可以生成我們想要的結(jié)果。這兩種算法也是被研究得最多上海大學(xué)碩士學(xué)位論文 2022 年 5 月 14 的,它們都是通過改造訓(xùn)練樣本集來構(gòu)造集成學(xué)習(xí)算法。 AdaBoost 算法 Kearns 和 Valiant 指出 [48],在 PCA 學(xué)習(xí)模型中,若存在一個(gè)多項(xiàng)式級(jí)學(xué)習(xí)算法來識(shí)別一組概念,并且識(shí)別正確率很高,那么這組概念是強(qiáng)可學(xué)習(xí)的;而如果學(xué)習(xí)算法識(shí)別一組概念的正確率僅比隨機(jī)猜測(cè)略好,那么這組概念是弱可學(xué)習(xí)的。如果兩者等價(jià),那么在學(xué)習(xí)概念時(shí),只要找到一個(gè)比隨機(jī)猜測(cè)略好的弱學(xué)習(xí)算法,就可以將其提升為強(qiáng)學(xué)習(xí)算法,而不必直接去找通常情況下很難獲得的強(qiáng)學(xué)習(xí)算法。 1995 年Freund[50]對(duì)其進(jìn)行了改進(jìn)。這樣,新網(wǎng)絡(luò)將能夠很好地處理對(duì)己有網(wǎng)絡(luò)來說很困難的示例。因此,該方法不太穩(wěn)定,有時(shí)能起到很好的作用,有時(shí) 卻沒有效果。 Boosting 算法介紹 Boosting[49]方法總的思想是學(xué)習(xí)一系列分類器,在這個(gè)系列中每一個(gè)分類器對(duì)它前一個(gè)分類器導(dǎo)致的錯(cuò)誤分類例子給予更大的重視。這個(gè)訓(xùn)練過程重復(fù)了次。在這個(gè)過程中,每個(gè)訓(xùn)練示例被賦予一個(gè)相應(yīng)的權(quán)值,如果一個(gè)訓(xùn)練示例被分類器錯(cuò)誤分類,那么就相應(yīng)增加該例子的權(quán)值,使得在下一次上海大學(xué)碩士學(xué)位論文 2022 年 5 月 15 學(xué)習(xí)中,分類器對(duì)該樣本示例代表的情況更加重視。這種方法將一些粗略的經(jīng)驗(yàn)規(guī)則轉(zhuǎn)變?yōu)楦叨葴?zhǔn)確的預(yù)測(cè)法則。已經(jīng)有理論證明任何弱分類算法都能夠被有效地轉(zhuǎn)變或者提升為強(qiáng)學(xué)習(xí)分類算法。整個(gè)過程如下所示 : ? 先通過對(duì) N 個(gè)訓(xùn)練數(shù)據(jù)的學(xué)習(xí)得到第一個(gè)弱分類器 h1。 ? 將 h1 和 h2 都分錯(cuò)了的數(shù)據(jù)加上 其它 的新數(shù)據(jù)構(gòu)成另一個(gè)新的有 N 個(gè)訓(xùn)練數(shù)據(jù)的樣本,通過對(duì)這個(gè)樣本的學(xué)習(xí)得到第三個(gè)弱分類器 h3。即某個(gè)數(shù)據(jù)被分為哪一類要通過 1 2 3,h h h 的多數(shù)表決。 2. 如何將訓(xùn)練得到的各個(gè)弱分類器
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1