freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(已修改)

2025-04-16 23:46 本頁面
 

【正文】 真核生物5’端外顯子和翻譯起始位點(diǎn)的預(yù)測Prediction of First Exons and Translation Initiation Sites in Eukaryotic Genomes力學(xué)與工程科學(xué)系 00級 胡鋼清Gangqing HuDept. of Mechanics and Engineering Science摘 要真核生物翻譯起始位點(diǎn)(TIS,translation initiation sites)的正確預(yù)測對于基因的正確注釋有著重大的意義。本文試圖通過發(fā)展和結(jié)合一些現(xiàn)有的算法來較好地預(yù)測出真核生物翻譯起始位點(diǎn)。本文算法的得出主要基于三種方法自然結(jié)合。我們首先基于簡單的權(quán)重矩陣方法(WMM,Weight Matrix Method)【1】,發(fā)展了多狀態(tài)信號的熵距離判別分析方法,由此可以得到一些待定ATG信號,這些信號包含了大部分的翻譯起始位點(diǎn)。接下來,我們采用WMM找出與該ATG對應(yīng)的GT信號并將它們之間的序列提出(這里ATG信號以及GT信號的定義詳見正文)。通過引入模糊詞匯的概念,我們發(fā)現(xiàn)翻譯起始位點(diǎn)前存在某些模糊詞匯,這樣可以通過判斷ATG信號前是否含有某個(gè)“模糊詞匯”進(jìn)一步選出待定ATG信號。最終我們結(jié)合了佘振蘇教授提出的以統(tǒng)計(jì)語言學(xué)為特色的多元熵距離(multivariate entropy distance,MED)方法【2】對這些ATG信號對應(yīng)的閱讀框在20維空間中進(jìn)行多中心聚類形成了預(yù)測翻譯起始位點(diǎn)的完整算法并達(dá)到了較好的結(jié)果。 1 引言 2001年2月,人類基因組計(jì)劃的相關(guān)組織和機(jī)構(gòu)公布了人類基因組測序草圖【3】,人類基因組計(jì)劃的提前完成,基因組的研究熱點(diǎn)已轉(zhuǎn)向揭示基因信息結(jié)構(gòu)的復(fù)雜性與遺傳語言的根本規(guī)律。其中,基因預(yù)測算法的研究也成為對基因組序列進(jìn)行統(tǒng)計(jì)分析的重要目標(biāo)。所謂基因預(yù)測,就是在對DNA序列編碼潛能(coding potentials)提出某種模式(pattern)描述的基礎(chǔ)上,對一未知的DNA序列上完整的基因結(jié)構(gòu)進(jìn)行注釋。對于原核生物,由于其基因結(jié)構(gòu)較為簡單,在基因組的DNA鏈上表現(xiàn)為一個(gè)編碼蛋白質(zhì)的基因?qū)?yīng)為一段連續(xù)的開放閱讀框(open reading frame,ORF),因此,基因預(yù)測的問題也相對簡單,本人所在的佘振蘇教授研究小組已經(jīng)在這方面取得了很好的結(jié)果【4】。但是對于真核生物,它們的基因結(jié)構(gòu)遠(yuǎn)比原核生物的復(fù)雜,許多基因是斷裂基因,間斷成外顯子(exon)和內(nèi)含子(intron),并且exon在序列中長度比例極小【5】。生物體通過對剪接位點(diǎn)(Splice Site)的剪接等過程最終構(gòu)成蛋白質(zhì)?,F(xiàn)有很多真核生物基因結(jié)構(gòu)的預(yù)測算法就是針對Splice Site的預(yù)測,即對外顯子的預(yù)測,著名的有Genescan,GeneMark等。本質(zhì)上可以將外顯子分為4類:包含起始編碼子(start codon)和終止編碼子(termination codon)的single exon,包含起始編碼子和供體位點(diǎn)(donor site)的first exon,包含受體位點(diǎn)(acceptor cite)和供體位點(diǎn)的internal exon,以及包含受體位點(diǎn)和終止編碼子的terminal exon【6】?,F(xiàn)有基因預(yù)測軟件中對于first exon、terminal exon以及single exon,它們的識(shí)別精度通常都大大低于internal exon的識(shí)別精度【7】。First exon的預(yù)測實(shí)際上包含了對翻譯起始位點(diǎn)的預(yù)測。本文重點(diǎn)在于翻譯起始位點(diǎn)的預(yù)測算法設(shè)計(jì),同時(shí)也給出了5’端外顯子(即first exon)的預(yù)測結(jié)果。 一般認(rèn)為,對基因結(jié)構(gòu)預(yù)測所用到的信息有三部分組成:序列上的信號(signal),內(nèi)容(content)統(tǒng)計(jì)以及與已知基因的相似度(similarity)【8】。我們用到的信息只是包含了前兩部分,對ATG信號的多狀態(tài)熵距離判別分析以及找出模糊詞匯是屬于信號的范疇,而對閱讀框運(yùn)用MED方法實(shí)際上關(guān)系到了內(nèi)容統(tǒng)計(jì)。在預(yù)測時(shí),我們采用的算法是簡單的線性判別。2 材料我們采用了Kulp amp。 Reese(1995)、ALLSEQ【9】以及HMR195【7】三部分?jǐn)?shù)據(jù)集,其中前兩者的部分序列作為學(xué)習(xí)集,最后者的部分?jǐn)?shù)據(jù)作為測試集。如引言所提到,真核生物的基因按是否含有內(nèi)含子可以分為多外顯子基因以及單外顯子基因。實(shí)際上,前者在數(shù)目上占絕大多數(shù),因而本文關(guān)心的是對多外顯子基因中的翻譯起始位點(diǎn)以及5’端外顯子的研究與預(yù)測。Kulp amp。 Reese(1995)提供的數(shù)據(jù)集是通過運(yùn)用BLASTP【10】刪除一些相似和冗余的序列后得到的。數(shù)據(jù)庫包含了人類的單外顯子基因186個(gè),多外顯子基因304個(gè),其中多外顯子基因中共包含1798個(gè)外顯子。 我們直接采用了其中的304個(gè)多外顯子基因作為學(xué)習(xí)集的一部分。ALLSEQ數(shù)據(jù)集經(jīng)過了一些嚴(yán)格的標(biāo)準(zhǔn)【11】篩選、整理出來的。它包含的是一些脊椎動(dòng)物的多外顯子基因,有570個(gè),其中有外顯子數(shù)目為2649。我們采用ALLSEQ數(shù)據(jù)集構(gòu)成學(xué)習(xí)集的另一部分。HMR195數(shù)據(jù)集是Rogic等于2001年整理出的,其中包含了人、小鼠和大鼠共195條基因的注釋。數(shù)據(jù)集中人、小鼠、大鼠的比例為103:82:10,包含152個(gè)多外顯子基因和43個(gè)單外顯子基因。我們采用其中152個(gè)多外顯子基因作為測試集。這樣我們一共得到了874個(gè)基因作為學(xué)習(xí)集,152個(gè)基因作為測試集。 3 方法3.1 ATG信號的多狀態(tài)熵距離判別分析方法 真核序列中,基因一般是由編碼甲硫氨酸(Met)的密碼子ATG開始,我們把這樣的ATG稱為翻譯起始位點(diǎn),而將DNA序列上出現(xiàn)的核苷酸三聯(lián)碼“ATG”稱為ATG信號。 為了描述ATG信號,我們?nèi)〕鲇葾TG信號前mbp,后nbp組成的核苷酸序列L。用qij(j=1,…,m+n,i = 0,…,3分別表示核苷酸A、C、G、T)表示出現(xiàn)在該序列上第j個(gè)位置上的核苷酸i,qij是一個(gè)4(m+n)的矩陣,其特征如圖1所示。圖1 用矩陣q來反映序
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1