【正文】
者等價(jià),那么在學(xué)習(xí)概念時(shí),只要找到一個(gè)比隨機(jī)猜測略好的弱學(xué)習(xí)算法,就可以將其提升為強(qiáng)學(xué)習(xí)算法,而不必直接去找通常情況下很難獲得的強(qiáng)學(xué)習(xí)算法。 AdaBoost算法 Kearns和Valiant指出[48],在PCA學(xué)習(xí)模型中,若存在一個(gè)多項(xiàng)式級(jí)學(xué)習(xí)算法來識(shí)別一組概念,并且識(shí)別正確率很高,那么這組概念是強(qiáng)可學(xué)習(xí)的;而如果學(xué)習(xí)算法識(shí)別一組概念的正確率僅比隨機(jī)猜測略好,那么這組概念是弱可學(xué)習(xí)的。這兩種算法也是被研究得最多的,它們都是通過改造訓(xùn)練樣本集來構(gòu)造集成學(xué)習(xí)算法。通過建立多個(gè)不同操作參數(shù)的模型,可以解決選取參數(shù)的難題,同時(shí)將不同模型的結(jié)果按照一定的方式集成就可以生成我們想要的結(jié)果。但是這些操作參數(shù)的選取沒有確定性的規(guī)則可以依據(jù),只能憑借經(jīng)驗(yàn)來選取,對(duì)于非專業(yè)的一般操作人員會(huì)有一定的難度。4. 改進(jìn)參數(shù)選擇。也許我們選擇的模型能夠很好的解釋訓(xùn)練數(shù)據(jù)集合,但是卻不能很好的解釋測試數(shù)據(jù)或者其它數(shù)據(jù),也就是說這個(gè)模型過于精細(xì)的刻畫了訓(xùn)練數(shù)據(jù),對(duì)于測試數(shù)據(jù)或者其它新的數(shù)據(jù)泛化能力不強(qiáng),這種現(xiàn)象就稱為過擬合。3. 解決過擬合問題。有些學(xué)習(xí)算法單一的預(yù)測結(jié)果時(shí)好時(shí)壞,不具有穩(wěn)定性,不能一直保持高精度的預(yù)測。研究者們?cè)趹?yīng)用研究中發(fā)現(xiàn),將多個(gè)學(xué)習(xí)器進(jìn)行集成后得到的預(yù)測精度明顯高于單個(gè)學(xué)習(xí)器的精度,甚至比單個(gè)最好的學(xué)習(xí)器的精度更高。機(jī)器學(xué)習(xí)的一個(gè)重要目標(biāo)就是對(duì)新的測試樣本盡可能給出最精確的估計(jì)。在這樣的情況下,不同的參數(shù)選擇,最終的結(jié)果可能會(huì)有很大的區(qū)別,具有很大的不穩(wěn)定性。而且,由于這些算法操作過程的解釋性很差,對(duì)于算法參數(shù)的選擇沒有確定的規(guī)則可依。4. 參數(shù)選擇法。如神經(jīng)網(wǎng)絡(luò)、決策樹。樣本集重新抽樣法對(duì)于不穩(wěn)定的算法來說,能夠取得很好的效果。在這種構(gòu)成方法中,用于集成的每個(gè)算法所對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)都是原來訓(xùn)練數(shù)據(jù)的一個(gè)子集。這種構(gòu)成方法,主要是通過改變輸出變量集,將多分類問題轉(zhuǎn)換為二分類問題來解決。這種方法比較適用于輸入變量集高度冗余的時(shí)候,否則的話,選取一個(gè)屬性子集,會(huì)影響單個(gè)算法的性能,最終影響集成的結(jié)果。 大致上來說,集成學(xué)習(xí)的構(gòu)成方法可以分為四種:1. 輸入變量集重構(gòu)法。在集成學(xué)習(xí)的早期研究中,狹義定義采用得比較多,而隨著該領(lǐng)域的發(fā)展,越來越多的學(xué)者傾向于接受廣義定義。 狹義地說,集成學(xué)習(xí)是指利用多個(gè)同質(zhì)的學(xué)習(xí)器來對(duì)同一個(gè)問題進(jìn)行學(xué)習(xí),這里的“同質(zhì)”是指所使用的學(xué)習(xí)器屬于同一種類型,例如所有的學(xué)習(xí)器都是決策樹、都是神經(jīng)網(wǎng)絡(luò)等等。在1995年,F(xiàn)reund和Schapire[46]做了進(jìn)一步工作,提出了AdBaoost算法,該算法不再要求事先知道泛化下界,可以非常容易的應(yīng)用到實(shí)際的問題中去。這個(gè)構(gòu)造性方法就是Boosting算法的雛形。正是這一超乎人們直覺的結(jié)果,使得集成學(xué)習(xí)引起了很多學(xué)者的重視。[44]使用一組神經(jīng)網(wǎng)絡(luò)來解決問題,除了按常規(guī)的做法選擇出最好的神經(jīng)網(wǎng)絡(luò)之外,他們還嘗試通過投票法將所有的神經(jīng)網(wǎng)絡(luò)結(jié)合起來求解。 集成學(xué)習(xí)算法概述 在機(jī)器學(xué)習(xí)領(lǐng)域,最早的集成學(xué)習(xí)方法是Bayesian Averaging。正確理解這兩者之間的相互影響是我們理解隨機(jī)森林工作原理的基礎(chǔ).. 集成學(xué)習(xí)算法 集成學(xué)習(xí)(Ensemble Learning)是一種新的機(jī)器學(xué)習(xí)范式,它使用多個(gè)(通常是同質(zhì)的)學(xué)習(xí)器來解決同一個(gè)問題。隨機(jī)森林的泛化誤差上界可以根據(jù)兩個(gè)參數(shù)推導(dǎo)出來:森林中每棵決策樹的分類精度即樹的強(qiáng)度S,和這些樹之間的相互依賴程度。如果森林中的樹的數(shù)目較大,隨著樹的數(shù)目增加,對(duì)所有隨機(jī)向量趨向于 ()這是隨機(jī)森林的一個(gè)重要特點(diǎn),并且隨著樹的增加,泛化誤差將趨向一上界,這表明隨機(jī)森林對(duì)未知的實(shí)例有很好的擴(kuò)展。于是,分類器的泛化誤差 ()其中下標(biāo)X,Y代表的是該誤差是在X,Y空間下的。該邊緣函數(shù)刻畫了對(duì)向量X正確分類y的平均得票數(shù)超過其它任何類平均得票數(shù)的程度。隨機(jī)向量可構(gòu)造決策分類樹,簡化為。 隨機(jī)森林算法[43] 在決策樹算法中,一般用選擇分裂屬性和剪枝來控制樹的生成,但是當(dāng)數(shù)據(jù)中噪聲或分裂屬性過多時(shí),它們也解決不了樹不平衡。在后驗(yàn)概率Pi中找出最大的一個(gè),其所對(duì)應(yīng)的預(yù)定類別即為隨機(jī)決策樹最終的輸出結(jié)果。S為從根結(jié)點(diǎn)開始搜索到合適葉子結(jié)點(diǎn)處的事例個(gè)數(shù)。其中,N表示隨機(jī)決策樹的數(shù)目。 (4)分類。其中,si表示預(yù)測為di類的事例數(shù), 表示決策屬性類別。在樹的結(jié)構(gòu)建好后對(duì)樹結(jié)點(diǎn)更新,其中葉子結(jié)點(diǎn)記錄事例被分類為某一預(yù)定類別的個(gè)數(shù)。樹的個(gè)數(shù)N=10時(shí)有較低的分類錯(cuò)誤率,%。研究表明,當(dāng)i=k/2時(shí)得到最大路徑數(shù),隨機(jī)決策樹有最佳的效果。(1)選擇樹的深度。當(dāng)對(duì)事例X進(jìn)行分類時(shí),以各隨機(jī)樹輸出的后驗(yàn)概率均值最大的類為預(yù)測類。其它任何一個(gè)屬性測試都不能更好地分類。且在以下3種情況下停止樹的構(gòu)造:樹的高度滿足預(yù)先設(shè)定的閾值。每個(gè)分支對(duì)應(yīng)結(jié)點(diǎn)分裂屬性Fi的可能取值。 隨機(jī)決策樹算法[42] 設(shè)屬性集為建樹提供結(jié)構(gòu),其中是非決策屬性,決策屬性是一列有效的類別。然后,使用每個(gè)分枝的錯(cuò)誤率,結(jié)合沿每個(gè)分枝觀察的權(quán)重評(píng)估,計(jì)算不對(duì)該節(jié)點(diǎn)剪枝的期望錯(cuò)誤率。得到了完全生長的初始決策樹后,為了除去噪聲數(shù)據(jù)和孤立點(diǎn)引起的分枝異常,可采用后剪枝算法對(duì)生成的初始決策樹進(jìn)行剪枝,并在剪枝過程中使用一種悲觀估計(jì)來補(bǔ)償樹生成時(shí)的樂觀偏差。之所以選取信息增益率大而信息增益不低于平均值的屬性,是因?yàn)楦咝畔⒃鲆媛时WC了高分枝屬性不會(huì)被選取,從而決策樹的樹型不會(huì)因某節(jié)點(diǎn)分枝太多而過于松散。如此類推,直到子集中的數(shù)據(jù)記錄在主屬性上取值都相同,或沒有屬性可再供劃分使用,遞歸地形成初始決策樹。依次計(jì)算每個(gè)屬性的信息增益Gain(X)以及信息增益率A(X),選取信息增益率最大的,但同時(shí)獲取的信息增益又不低于所有屬性平均值的屬性作為測試屬性,以該屬性作為結(jié)點(diǎn),屬性的每一個(gè)分布引出一個(gè)分枝,據(jù)此劃分樣本。屬性X的信息增益函數(shù)為: ()信息增益函數(shù)對(duì)于那些可能產(chǎn)生多分枝的測試傾向于生產(chǎn)大的函數(shù)值,但是輸出分枝多,并不表示該測試對(duì)末知的對(duì)象具有更好的預(yù)測效果,信息增益率函數(shù)可以彌補(bǔ)這個(gè)缺陷“信息增益率”是為了去除多分枝屬性的影響而對(duì)信息增益的一種改進(jìn)。 設(shè)屬性X具有v個(gè)值,它將S分成v個(gè)子集,其中Sj包含S中這樣的一些樣本,它們?cè)趯傩訶上具有值。常用的決策樹算法由CART,ID3,隨機(jī)樹算法,在下面,對(duì)本文中用到的決策樹算法進(jìn)行了詳細(xì)介紹。尋找一棵最優(yōu)決策樹主要解決以下三個(gè)最優(yōu)化問題:①生成最少數(shù)目的葉子,②生成的每個(gè)葉子的深度最小,③生成的決策樹葉子最少且每個(gè)葉子的深度最小。其它的剪枝方法有:①限制最小結(jié)點(diǎn)規(guī)模,②兩階段研究,③不純度的閥值,④將樹轉(zhuǎn)變?yōu)橐?guī)則,⑤Tree reduction。[39]獲取大小合適的樹常用的方法是后剪枝。常用的修剪技術(shù)有預(yù)修剪(prepruning)和后修剪(postpruning)兩種。如果一個(gè)樣本屬性A的取值為a2,屬性B的取值為b2,屬性C的取值為c1那么它屬于類1[38]。當(dāng)使用決策樹對(duì)未知樣本進(jìn)行分類時(shí),由根結(jié)點(diǎn)開始對(duì)該樣本的屬性逐漸測試其值,并且順著分枝向下走,直到到達(dá)某個(gè)葉結(jié)點(diǎn),此葉結(jié)點(diǎn)代表的類即為該樣本的類。[8] 決策樹算法決策樹學(xué)習(xí)是一種逼近離散值函數(shù)的算法,對(duì)噪聲數(shù)據(jù)有很好的健壯性,且能夠?qū)W習(xí)析取表達(dá)式,是最流行的歸納推理算法之一,已經(jīng)成功應(yīng)用到醫(yī)療診斷、評(píng)估貸款申請(qǐng)的信用風(fēng)險(xiǎn)、雷達(dá)目標(biāo)識(shí)別、字符識(shí)別、醫(yī)學(xué)診斷和語音識(shí)別等廣闊領(lǐng)域[36,37]。在此期間,人們從學(xué)習(xí)單個(gè)概念擴(kuò)展到學(xué)習(xí)多個(gè)概念,探索不同的學(xué)習(xí)策略和方法,且在本階段已開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來,并取得很大的成功,促進(jìn)機(jī)器學(xué)習(xí)的發(fā)展。本階段的代表性工作有溫斯頓(Winston)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯羅思(HayesRoth)等的基本邏輯的歸納學(xué)習(xí)系統(tǒng)。第二階段是在60年代中葉到70年代中葉,被稱為機(jī)器學(xué)習(xí)的冷靜時(shí)期。本階段的代表性工作是:塞繆爾(Samuel)的下棋程序。在這個(gè)時(shí)期,所研究的是“沒有知識(shí)”的學(xué)習(xí),即“無知”學(xué)習(xí)。第二章 機(jī)器學(xué)習(xí)算法機(jī)器學(xué)習(xí)是人工智能研究較為年輕的分支,它的發(fā)展過程大體上分為四個(gè)時(shí)期。第三部分介紹了在線預(yù)報(bào)系統(tǒng)的實(shí)現(xiàn)原理與具體實(shí)現(xiàn)方法。 本文的主要內(nèi)容分為三個(gè)部分,第一部分介紹了常用的機(jī)器學(xué)習(xí)算法,以及它們的原理。 論文的主要內(nèi)容本文運(yùn)用機(jī)器學(xué)習(xí)技術(shù)對(duì)蛋白質(zhì)序列的亞細(xì)胞定位數(shù)據(jù)集以及一類有機(jī)同系物進(jìn)行研究,建立起了用于蛋白質(zhì)序列亞細(xì)胞定位的預(yù)測模型和用于5脂氧化酶抑制活性預(yù)測的QSAR模型。1979年Crippen提出的距離幾何學(xué)方法[33]、1980年Hopfinger等人提出的分子形狀分析方法[34]、1988年Cramer等人提出的比較分子場方法(CoMFA) [35]是3DQSAR中最常用的手段。一方面,表征分子的結(jié)構(gòu)參數(shù)不斷豐富,在傳統(tǒng)物理化學(xué)參數(shù)以外,更多地使用拓?fù)鋮?shù)[15,2023]、電子參數(shù)[2426]來表征基團(tuán)結(jié)構(gòu);另一方面,一些新的建模方法也被引入到SPR/SAR的研究中,除了傳統(tǒng)的多元線性回歸、偏最小二乘回歸和主成分分析等算法以外,遺傳算法[27,28]、人工神經(jīng)網(wǎng)絡(luò)[29,30]和支持向量機(jī)方法[31,32]等逐步引入了定量構(gòu)效關(guān)系研究。他們用統(tǒng)計(jì)方法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行歸納總結(jié)并建立結(jié)構(gòu)活性關(guān)系表達(dá)式,探討結(jié)構(gòu)變化與生化活性之間的關(guān)系,標(biāo)志著QSAR時(shí)代的開始。20世紀(jì)40年代起,化學(xué)家開始發(fā)現(xiàn)分子和其它化學(xué)物質(zhì)可以很方便地用多種不同的矩陣表示[12,13],化學(xué)圖的概念及拓?fù)渲笖?shù)(圖論指數(shù))[14,15]的引入使表征分子結(jié)構(gòu)并進(jìn)行化合物的構(gòu)效關(guān)系研究有了一個(gè)基本工具。當(dāng)時(shí)只研究了少部分的化合物結(jié)構(gòu)參數(shù)與其活性關(guān)系,如取代基的電子效應(yīng)(Hammett的σ常數(shù)),立體參數(shù)(Taft參數(shù))以及疏水性參數(shù)(Hansch的分配常數(shù))。 早在1868年,CrumBrown和Fraser提出了化合物的分子結(jié)構(gòu)C和生物活性可由方程表示:,這是QSAR方面的第一個(gè)方程[11]?;瘜W(xué)家們普遍認(rèn)為,化合物所表現(xiàn)出來的各種性質(zhì)/活性與化合物的結(jié)構(gòu)密不可分,即性質(zhì)/活性是結(jié)構(gòu)的函數(shù)。機(jī)器學(xué)習(xí)的許多方法都可以直接應(yīng)用于基因芯片分析,如序列比較方法、貝葉斯神經(jīng)網(wǎng)絡(luò)方法和聚類方法等。生物芯片主要包括基因芯片(GeneChip)或稱DNA芯片(DNAChip)、蛋白芯片(ProteinChip)和芯片實(shí)驗(yàn)室(Labona Chip)等。第四, 在生物芯片研究中的應(yīng)用。目前利用機(jī)器學(xué)習(xí)方法預(yù)測蛋白質(zhì)空間結(jié)構(gòu)的方法主要有折疊識(shí)別以及神經(jīng)網(wǎng)絡(luò)、隱馬爾科夫、支持向量機(jī)、AdaBoost等方法。最后與保守的基序和圖形數(shù)據(jù)庫比較判斷功能。利用Blast和Fasta工具與蛋白質(zhì)序列庫中的序列進(jìn)行同源性比較。這里包含兩個(gè)方面,蛋白質(zhì)功能預(yù)測和蛋白質(zhì)結(jié)構(gòu)預(yù)測:a, 蛋白質(zhì)功能預(yù)測主要是分析目標(biāo)蛋白質(zhì)是否和具有功能信息的已知蛋白質(zhì)的相似性。生物信息學(xué)的方法是發(fā)現(xiàn)新基因的重要手段。此外,基于隱馬爾科夫模型EM訓(xùn)練算法、Viterbi序列分析算法以及FDR(False DiscoveryRate)方法都有成功的應(yīng)用成果。隨著人類基因組研究的發(fā)展,利用機(jī)器學(xué)習(xí)方法進(jìn)行基因識(shí)別被廣泛使用。目前,基因的比較研究也必須從基因的比較上升到對(duì)不同進(jìn)化水平的生物在整個(gè)基因?qū)用嫔系谋容^研究。目前已用于序列對(duì)比分析的方法主要有:NeedlimanWunsch動(dòng)態(tài)規(guī)劃算法, Smith Waterman算法及Blast Fasta等相似性比較程序。它們可以很快地給出較好的結(jié)果,但不能保證所得結(jié)果是最優(yōu)的?;締栴}是比較兩個(gè)或兩個(gè)以上符號(hào)序列的相似性。[8]機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用主要包括四個(gè)方面:[9]第一, 在序列比對(duì)分析中的應(yīng)用。這里的學(xué)習(xí)意味著從數(shù)據(jù)中學(xué)習(xí),它包括有指導(dǎo)學(xué)習(xí)(Supervised Learning)、無指導(dǎo)學(xué)習(xí)(UnsupervisedLearning)和半指導(dǎo)學(xué)習(xí)(SemiSupervised Learning)三種類別。為方便同行使用,本論文的部分研究工作已經(jīng)通過Internet向全世界生物學(xué)家提供開放性服務(wù)。第三, 開發(fā)分析工具和實(shí)用軟件解決具體問題,為生物信息學(xué)的應(yīng)用服務(wù),如生物分子序列比較工具、基因識(shí)別工具、生物分子結(jié)構(gòu)預(yù)測工具、基因表達(dá)數(shù)據(jù)分析工具等。面對(duì)大量蛋白質(zhì)序列數(shù)據(jù),傳統(tǒng)的計(jì)算方法越來越顯示出不足,借助機(jī)器學(xué)習(xí)模式識(shí)別的方法彌補(bǔ)傳統(tǒng)試驗(yàn)方法的不足,是目前生物信息學(xué)領(lǐng)域普遍使用的方法[2]。目前生物信息學(xué)的主要研究對(duì)象是基因和蛋白質(zhì)。[1]第二, 進(jìn)行數(shù)據(jù)處理和分析,通過信息分析發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系提取本質(zhì)規(guī)律,進(jìn)而上升為生物學(xué)知識(shí)。在蛋白質(zhì)和其它生物大分子的結(jié)構(gòu)方面有PDB等。在DNA序列方面有GenBank、EMBL和DDBJ等。目前國際上已建立起許多公共生物分子數(shù)據(jù)庫,包括基因圖譜數(shù)據(jù)庫、核酸序列數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫、生物大分子結(jié)構(gòu)數(shù)據(jù)庫等,由專門的機(jī)構(gòu)建立和維護(hù)負(fù)責(zé)收集、組織、管理和發(fā)布生物分子數(shù)據(jù),并提供數(shù)據(jù)檢索和分析工具,向生物學(xué)研究人員提供大量有用的信息,最大限度地滿足他們的研究和應(yīng)用需要,為生物信息學(xué)研究服務(wù)。美國人類基因組計(jì)劃實(shí)施五年后的總結(jié)報(bào)告中,對(duì)生物信息學(xué)作了以下的定義:生物信息學(xué)是一門交叉學(xué)科,它包含了生物信息的獲取、處理、儲(chǔ)存、分發(fā)、分析和解釋等在內(nèi)的所有方面,它綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具,來闡明和理解大量數(shù)據(jù)所包含的生物學(xué)意義。數(shù)據(jù)資源的急劇膨脹迫使人們尋求一種強(qiáng)有力的工具,運(yùn)用新的技術(shù)手段對(duì)復(fù)雜的海量生物信息進(jìn)行儲(chǔ)存、管理、分析和研究,并組織好這些數(shù)據(jù),以利于儲(chǔ)存、加工和利用,進(jìn)而達(dá)到有效管理、準(zhǔn)確解讀、充分使用這些信息的目的。關(guān)鍵詞:生物信息學(xué),定量構(gòu)效關(guān)系(QSAR),機(jī)器學(xué)習(xí),集成學(xué)習(xí),支持向量機(jī)(SVM),支持向量回歸算法(SVR),AdaBoost,Bagging,亞細(xì)胞位置定位,5脂抗氧化酶抑制劑,在線預(yù)報(bào)服務(wù)器AbstractIn the late 20th century, genomics research in human and other living species had been developed rapidly, and the information of biology inc