【正文】
研究表明[6163],蛋白質(zhì)輸送失敗是幾種人類疾病產(chǎn)生的重要因素,如癌癥和老年癡呆癥(Alzheimer’s disease)。花、葉、果實(shí)的顏色,除綠色以外,其它如藍(lán)色、紅色和黃色等都由于液泡中各種高濃度色素所引起的。這是細(xì)胞膜最基本的功能之一。它是一種異質(zhì)性的細(xì)胞器,不同生物的細(xì)胞中,甚至單細(xì)胞生物的不同個(gè)體中所含酶的種類及其行使的功能都有所不同。此外,在人類細(xì)胞的死亡過程中,無論凋亡還是壞死都與線粒體有關(guān),因此它是新藥的一個(gè)主要靶體。在酸性條件下,溶酶體對(duì)蛋白質(zhì)、膚、糖、中性脂質(zhì)、糖脂、糖蛋白、核酸等多種物質(zhì)起水解作用,這對(duì)于維持細(xì)胞的正常代謝活動(dòng)及防御微生物侵染都有重要意義。6. 高爾基體(Golgi apparatus):它主要功能是將內(nèi)質(zhì)網(wǎng)合成的多種蛋白質(zhì)進(jìn)行加工、分類與包裝,然后分門別類地運(yùn)送到細(xì)胞特定的部位或分泌到細(xì)胞外。它在細(xì)胞中具有多種重要功能,對(duì)細(xì)胞的多種重要蛋白的合成和修飾加工,轉(zhuǎn)運(yùn)或輸出細(xì)胞以及對(duì)幾乎全部脂類的合成都起著重要作用。在肌肉細(xì)胞中,細(xì)胞骨架和它的結(jié)合蛋白組成動(dòng)力系統(tǒng)。對(duì)于一個(gè)真核細(xì)胞來說,其細(xì)胞質(zhì)又包括液態(tài)的細(xì)胞質(zhì)基質(zhì),各種細(xì)胞器和各種內(nèi)含物。 亞細(xì)胞定位示意圖圖中給出了12類蛋白質(zhì)亞細(xì)胞定位:(1) 葉綠體(chloroplast), (2) 細(xì)胞質(zhì)(cytoplasm), (3) 細(xì)胞骨架(cytoskeleton), (4) 內(nèi)質(zhì)網(wǎng)(endoplasmic raticulum), (5) 細(xì)胞外(extracell), (6) 高爾基體(Golgi apparatus), (7) 溶酶體(lysosomal), (8) 線粒體(mitochondrial), (9) 細(xì)胞核(nuclear), (10) 過氧化物酶體(peroxisomal), (11) 原生質(zhì)膜(plasma membrane), (12) 液泡(vacuole)。內(nèi)膜系統(tǒng)將細(xì)胞質(zhì)分割成了一些區(qū)間,即所謂的分區(qū)化。除了細(xì)胞質(zhì)中各種由膜系統(tǒng)分隔的重要細(xì)胞器外,由于真核細(xì)胞的結(jié)構(gòu)與功能的復(fù)雜化,真核細(xì)胞的遺傳信息量較原核細(xì)胞大大增多。根據(jù)進(jìn)化程度與結(jié)構(gòu)的復(fù)雜程度,可將細(xì)胞劃為原核細(xì)胞(prokaryotic)和真核細(xì)胞(eukaryotic)兩大類。細(xì)胞不僅是有機(jī)體的基本結(jié)構(gòu)單位,而且是有機(jī)體生長(zhǎng)、發(fā)育、繁殖與進(jìn)化的基礎(chǔ)。[56]在所有的蛋白質(zhì)序列中,只有大約20%擁有可靠的亞細(xì)胞定位注釋。例如,2007年3月發(fā)布的Swiss–(),總共包含260175條蛋白質(zhì)序列。為了行使它們的功能,這些蛋白質(zhì)將被分別輸送到細(xì)胞的某些指定區(qū)域或細(xì)胞器,該過程就稱之為亞細(xì)胞定位。生物信息學(xué)的一個(gè)主要內(nèi)容就是給這些序列進(jìn)行注釋[53,54],描述每一個(gè)蛋白質(zhì)的功能成為了后基因組時(shí)代重大挑戰(zhàn)之一。 本章小結(jié) 本章主要介紹了本文工作中用到的常見的幾種機(jī)器學(xué)習(xí)算法的原理和實(shí)現(xiàn)算法:、隨機(jī)決策樹算法以及隨機(jī)森林算法;最有影響力的兩種集成算法,即AdaBoost與Bagging算法;應(yīng)用極為廣泛的支持向量機(jī)算法。由于最終判別函數(shù)中只包含未知向量與支持向量?jī)?nèi)積的線性組合,因此識(shí)別時(shí)的計(jì)算復(fù)雜度取決于支持向量個(gè)數(shù)。 支持向量機(jī)核函數(shù)在推導(dǎo)分類算法之前,其實(shí)是假設(shè)了分類超平面存在于原始特征空間中。支持向量 支持向量超曲面回歸超平面支持向量 支持向量回歸示意圖不敏感損失函數(shù)可以表示如下: () 線性回歸情況設(shè)樣本集為:,回歸函數(shù)用下列線性方程來表示: ()最佳回歸函數(shù)通過求下列函數(shù)的最小極值得出: ()其中C是設(shè)定的可調(diào)參數(shù)值,為松弛變量的上限與下限。此法誠(chéng)然有效,但由此增加的可調(diào)參數(shù)未免增加了過擬合的風(fēng)險(xiǎn)。若將擬合的數(shù)學(xué)模型表達(dá)為多維空間的某一曲線,則根據(jù)不敏感損失函數(shù)所得的結(jié)果就是包絡(luò)該曲線和訓(xùn)練點(diǎn)的“ 管道”。為此,引入以下目標(biāo)函數(shù): ()其中C是一個(gè)大于零的常數(shù),稱為可調(diào)參數(shù),此時(shí)SVM仍可以通過二次規(guī)劃(對(duì)偶規(guī)劃)來實(shí)現(xiàn): () 支持向量回歸算法 ε不敏感損失函數(shù) 進(jìn)行建模的訓(xùn)練樣本數(shù)據(jù)中,必然攜帶有誤差,只是其大小不同而已。把式()分別對(duì)w、b、求偏微分并令它們等于0,得: 以上三式加上原約束條件可以把原問題轉(zhuǎn)化為如下凸二次規(guī)劃的對(duì)偶問題: ()這是一個(gè)不等式約束下二次函數(shù)機(jī)制問題,存在唯一最優(yōu)解。HH1H2首先從最為簡(jiǎn)單的線性可分的情況入手。圖中空心圓點(diǎn)和實(shí)心圓點(diǎn)分別表示兩類訓(xùn)練樣本,H為把兩類沒有錯(cuò)誤地分開的分類線,H1和H2分別表示兩類樣本中距離分類線最近的點(diǎn)且平行于分類線的直線,H1和H2之間的距離叫作兩類的分類空隙或分類間隔。顯然這種方法比較費(fèi)時(shí),當(dāng)子集數(shù)目很大甚至無窮時(shí)不可行。事實(shí)上,在傳統(tǒng)方法中,選擇學(xué)習(xí)模型和算法的過程就是調(diào)整置信范圍的過程,如果模型比較適合現(xiàn)有的訓(xùn)練樣本,則可以取得比較好的效果。這一結(jié)論從理論上說明了學(xué)習(xí)機(jī)器的實(shí)際風(fēng)險(xiǎn)由兩部分組成:一部分是經(jīng)驗(yàn)風(fēng)險(xiǎn)。在這種情況下,試圖從更本質(zhì)上研究機(jī)器學(xué)習(xí)的統(tǒng)計(jì)學(xué)習(xí)理論體系逐步得到重視?,F(xiàn)今,SVM算法已經(jīng)得到了國(guó)際數(shù)據(jù)挖掘?qū)W術(shù)界的重視,并在語音識(shí)別、文字識(shí)別、藥物設(shè)計(jì)、組合化學(xué)、時(shí)間序列預(yù)測(cè)、蛋白質(zhì)研究等多個(gè)研究領(lǐng)域取得了成功的應(yīng)用,該方法從嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)理論出發(fā),論證和實(shí)現(xiàn)了在小樣本情況下能最大限度地提高預(yù)報(bào)可靠性的方法,其研究成果令人鼓舞。 SVM算法早在上世紀(jì)60年代,以數(shù)學(xué)家Vladimir N. Vapnik等為代表的學(xué)派就注意到了經(jīng)典統(tǒng)計(jì)數(shù)學(xué)的這一弱點(diǎn),并開始努力建立一套能保證從有限樣本得出預(yù)報(bào)能力最強(qiáng)的數(shù)學(xué)模型。設(shè),使。任務(wù)是使用來得到一個(gè)更好的學(xué)習(xí)器,它比單個(gè)數(shù)據(jù)集學(xué)習(xí)器要強(qiáng)。對(duì)于像神經(jīng)網(wǎng)絡(luò)這樣極為耗時(shí)的學(xué)習(xí)方法,Bagging可通過并行訓(xùn)練節(jié)省大量的時(shí)間開銷。學(xué)習(xí)算法的不穩(wěn)定性是指如果訓(xùn)練集有較小的變化,學(xué)習(xí)算法產(chǎn)生的預(yù)測(cè)函數(shù)將發(fā)生較大的變化。平均來說,%,原始訓(xùn)練集中的某些樣本可能在新的訓(xùn)練集中出現(xiàn)多次,而另外一些樣本則可能一次也不出現(xiàn)。弱分類器的選擇應(yīng)該遵循如下兩個(gè)標(biāo)準(zhǔn):(1)弱分類器有處理數(shù)據(jù)重分配的能力;(2)弱分類器必須不會(huì)導(dǎo)致過擬合。每一輪中,分類器ht都專注于那些難分類的實(shí)例,并據(jù)此對(duì)每一個(gè)訓(xùn)練實(shí)例的權(quán)重進(jìn)行修改。依次類推,經(jīng)過了T次循環(huán),得到了T個(gè)弱分類器,把這T個(gè)弱分類器按一定的權(quán)重疊加(boost)起來,得到最終想要的強(qiáng)分類器。開始時(shí),每個(gè)樣本對(duì)應(yīng)的權(quán)重是相同的,即,其中n為樣本個(gè)數(shù),在此樣本分布下訓(xùn)練出一弱分類器h1。讓分類效果好的弱分類器具有較大的權(quán)重,而分類效果差的分類器具有較小的權(quán)重。 Adaboost算法描述對(duì)于Boosting算法,存在兩個(gè)問題:1. 如何調(diào)整訓(xùn)練集,使得在訓(xùn)練集上訓(xùn)練弱分類器得以進(jìn)行。n 將h1分錯(cuò)的數(shù)據(jù)和其它的新數(shù)據(jù)一起構(gòu)成一個(gè)新的有N個(gè)訓(xùn)練數(shù)據(jù)的樣本,通過對(duì)這個(gè)樣本的學(xué)習(xí)得到第二個(gè)弱分類器h2。強(qiáng)分類器對(duì)數(shù)據(jù)進(jìn)行分類,是通過弱分類器的多數(shù)投票機(jī)制進(jìn)行的。最終的分類器從這一系列的分類器中綜合得出。1995年,F(xiàn)reund和schapire提出了AdaBoost (Adaptive Boosting)算法[46],該算法的效率與Freund[9]算法很接近,而且可以很容易地應(yīng)用到實(shí)際問題中,因此,該算法已成為目前最流行的Boosting算法。在Freund的方法中通過Boosting產(chǎn)生一系列神經(jīng)網(wǎng)絡(luò),各網(wǎng)絡(luò)的訓(xùn)練集決定于在其之前產(chǎn)生的網(wǎng)絡(luò)的表現(xiàn),被已有網(wǎng)絡(luò)錯(cuò)誤判斷的示例將以較大的概率出現(xiàn)在新網(wǎng)絡(luò)的訓(xùn)練集中。Kaerns和valiant提出了弱學(xué)習(xí)算法與強(qiáng)學(xué)習(xí)算法的等價(jià)性問題,即是否可以將弱學(xué)習(xí)算法提升成強(qiáng)學(xué)習(xí)算法的問題。集成學(xué)習(xí)經(jīng)過了十幾年的不斷發(fā)展,各種不同的集成學(xué)習(xí)算法不斷被提了出來,其中以Boosting和Bagging的影響最大。對(duì)于一些算法而言,如神經(jīng)網(wǎng)絡(luò)、遺傳算法,在解決實(shí)際問題的時(shí)候,需要選擇操作參數(shù)。在對(duì)己知的數(shù)據(jù)集合進(jìn)行學(xué)習(xí)的時(shí)候,我們常常選擇擬合度值最好的一個(gè)模型作為最后的結(jié)果。2. 提高預(yù)測(cè)結(jié)果的穩(wěn)定性。集成算法的作用主要體現(xiàn)在如下四個(gè)方面:1. 提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。對(duì)于許多算法如神經(jīng)網(wǎng)絡(luò)、遺傳算法來說,在算法應(yīng)用的開始首先要解決的就是要選擇算法參數(shù)。不穩(wěn)定的算法指的是當(dāng)訓(xùn)練數(shù)據(jù)發(fā)生很小變化的時(shí)候,結(jié)果就能產(chǎn)生很大變化的算法。3. 樣本集重新抽樣法。這種構(gòu)成方法,用于集成的每個(gè)算法的輸入變量是原變量集的一個(gè)子集。廣義地來說,只要是使用多個(gè)學(xué)習(xí)器來解決問題,就是集成學(xué)習(xí)[47,48]。但是這個(gè)算法存在著一個(gè)重大的缺陷,就是必須知道學(xué)習(xí)算法正確率的下限,這在實(shí)際中很難做到。他們的實(shí)驗(yàn)結(jié)果表明,這一組神經(jīng)網(wǎng)絡(luò)形成的集成,比最好的個(gè)體神經(jīng)網(wǎng)絡(luò)的性能還好。由于集成學(xué)習(xí)可以有效地提高學(xué)習(xí)系統(tǒng)的泛化能力,因此它成為國(guó)際機(jī)器學(xué)習(xí)界的研究熱點(diǎn)。隨機(jī)森林的泛化誤差上界的定義為 ()其中是相關(guān)系數(shù)的均值,s是樹的分類強(qiáng)度。可以看出,邊際越大分類的置信度就越高。最新的研究表明[6],構(gòu)造多分類器的集成,. 為了構(gòu)造k棵樹,我們得先產(chǎn)生k個(gè)隨機(jī)向量,這些隨機(jī)向量是相互獨(dú)立并且是同分布。Si為該葉子結(jié)點(diǎn)處訓(xùn)練數(shù)據(jù)集中標(biāo)記為di類的數(shù)目。當(dāng)對(duì)事例進(jìn)行分類時(shí),預(yù)測(cè)為預(yù)定類別di的概率。非葉子結(jié)點(diǎn)不記錄經(jīng)過分支的事例數(shù)目,葉子中信息形式如:。(2)選擇隨機(jī)決策樹的個(gè)數(shù)。下面詳細(xì)介紹隨機(jī)決策樹的深度選擇和數(shù)目的選擇及其分類。分支結(jié)點(diǎn)的事例數(shù)太小以至于不能給出一個(gè)有統(tǒng)計(jì)意義的測(cè)試。表示記錄x的屬性Fi的值,具體結(jié)構(gòu)描述如下:樹中的每個(gè)結(jié)點(diǎn)表示一個(gè)問題。對(duì)決策樹上的每個(gè)非葉子結(jié)點(diǎn),計(jì)算該分枝節(jié)點(diǎn)上的子樹被剪枝可能出現(xiàn)的期望錯(cuò)誤率。另外,在節(jié)點(diǎn)處記下符合條件的統(tǒng)計(jì)數(shù)據(jù):該分枝總數(shù)、有效數(shù)、中止數(shù)和失效數(shù)。使用“信息增益率函數(shù)”,它同時(shí)考慮了每一次劃分所產(chǎn)生的子結(jié)點(diǎn)的個(gè)數(shù)和每個(gè)子結(jié)點(diǎn)的大?。ò臄?shù)據(jù)實(shí)例的個(gè)數(shù)),考慮的對(duì)象主要是一個(gè)個(gè)地劃分,而不再考慮分類所蘊(yùn)涵的信息量,屬性X的信息增益函數(shù)為: ()其中v為該節(jié)點(diǎn)的分枝數(shù),si為第i個(gè)分枝下的記錄個(gè)數(shù)。 [41]設(shè)S為訓(xùn)練集樣本總數(shù),共有m類樣本,Si為類Ci中的樣本數(shù),計(jì)算公式為: () 其中,其中pi是任意樣本屬于Ci的概率,可用Si/S來估計(jì)。沒有一種剪枝方法明顯優(yōu)于其它方法。決策樹的質(zhì)量更加依靠好的停止規(guī)則而不是劃分規(guī)則。例如,它將整個(gè)樣本空間分為三類。1980年,在美國(guó)的卡內(nèi)基—梅隆(CMU)召開了第一屆機(jī)器學(xué)習(xí)國(guó)際研討會(huì),標(biāo)志著機(jī)器學(xué)習(xí)研究已在全世界興起。本階段的研究目標(biāo)是模擬人類的概念學(xué)習(xí)過程,并采用邏輯結(jié)構(gòu)或圖結(jié)構(gòu)作為機(jī)器內(nèi)部描述。其研究目標(biāo)是各類自組織系統(tǒng)和自適應(yīng)系統(tǒng),其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)和改進(jìn)系統(tǒng)的執(zhí)行能力,不涉及與具體任務(wù)有關(guān)的知識(shí)。 本文的主要工作成果在于:;,使預(yù)報(bào)模型能夠?yàn)轭I(lǐng)域?qū)<?,特別是實(shí)驗(yàn)工作者所用。并運(yùn)用J2EE技術(shù),實(shí)現(xiàn)基于上述模型的在線預(yù)報(bào)功能。二十世紀(jì)80年代后,考慮分子三維構(gòu)象的3DQSAR也逐步引起了研究者的關(guān)注。而后在二十世紀(jì)60年代,Hansch[16,17]和Free、Wilson[18,19]的研究開始建立在定量的基礎(chǔ)之上。后來人們發(fā)現(xiàn),化合物拓?fù)浣Y(jié)構(gòu)是決定其化學(xué)性質(zhì)的重要因素。 QSAR簡(jiǎn)介 化合物的性質(zhì)/活性是化學(xué)的基本研究?jī)?nèi)容之一,徐光憲先生將物質(zhì)結(jié)構(gòu)與性能的定量關(guān)系稱為化學(xué)的第二根本規(guī)律,并將其列為二十一世紀(jì)化學(xué)的四大難題(中長(zhǎng)期)之一[10]。生物芯片技術(shù)檢測(cè)及分析技術(shù)是生物信息學(xué)中目前實(shí)用性較強(qiáng)的研究領(lǐng)域。b, 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的目的是利用已知的一級(jí)序列來構(gòu)建出蛋白質(zhì)的立體結(jié)構(gòu)模型,對(duì)蛋白質(zhì)進(jìn)行結(jié)構(gòu)預(yù)測(cè)需要具體問題具體分析,在不同的已知條件下對(duì)于不同的蛋白質(zhì)采取不同的策略。一般步驟為先通過蛋白質(zhì)序列數(shù)據(jù)庫比較來確定其功能。發(fā)現(xiàn)新基因和單核苷酸多態(tài)是當(dāng)前國(guó)際上基因組研究的熱點(diǎn)。第二, 在人類基因組研究中的應(yīng)用。另外,還有動(dòng)態(tài)規(guī)劃算法、神經(jīng)網(wǎng)絡(luò)和隱馬爾科夫算法。序列比對(duì)是生物信息學(xué)的基礎(chǔ)。 機(jī)器學(xué)習(xí)算法在生物信息學(xué)中的應(yīng)用機(jī)器學(xué)習(xí)的研究主旨是使用計(jì)算機(jī)模擬人類的學(xué)習(xí)活動(dòng),它是研究計(jì)算機(jī)識(shí)別現(xiàn)有知識(shí)、獲取新知識(shí)、不斷改善性能和實(shí)現(xiàn)自身完善的方法。本論文研究基于機(jī)器學(xué)習(xí)理論和算法,通過對(duì)蛋白質(zhì)序列分析,進(jìn)而實(shí)現(xiàn)亞細(xì)胞位置預(yù)測(cè)的工作。在此基礎(chǔ)上解釋與生物分子信息復(fù)制、傳遞、表達(dá)有關(guān)的生物過程,并解釋生物過程中出現(xiàn)的故障與疾病的關(guān)系,幫助發(fā)現(xiàn)新藥物作用目標(biāo),設(shè)計(jì)新藥物分子,為進(jìn)一步的研究和應(yīng)用打下基礎(chǔ)。在蛋白質(zhì)一級(jí)結(jié)構(gòu)方面有SWISSPROT、PIR和MIPS等。[1] 目前生物信息學(xué)的主要任務(wù)是研究生物分子數(shù)據(jù)的獲取、存儲(chǔ)和查詢,發(fā)展數(shù)據(jù)分析方法,研究?jī)?nèi)容主要包括三個(gè)方面:第一, 收集和管理生物分子數(shù)據(jù),將各種數(shù)據(jù)以一定的表示形式存放在計(jì)算機(jī)中,建立數(shù)據(jù)庫系統(tǒng)并提供數(shù)據(jù)查詢和數(shù)據(jù)通訊工具,使得生物學(xué)研究人員能夠方便地使用這些數(shù)據(jù),并為信息分析和數(shù)據(jù)挖掘打下基礎(chǔ)。 Bagging got the best model with a correct rate of % in crossvalidation prediction, when KNN was selected as the weak classifer. Then, independent dataset test was used to validate the trained model, the result of AdaBoost and Bagging were % and % of prediction correct rate. As parison, SVM was used, and the result of training crossvalidation was % of correct rate, and the independent dataset test was % of correct rat