freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)-wenkub

2023-04-19 23:46:20 本頁(yè)面
 

【正文】 1764414312351365130142212321573214513001482182149307334323591511973223025715134733920447 表2 多狀態(tài)熵距離判別分析的各種基本參數(shù)3同閱讀框的ATG信號(hào)ATG信號(hào)前核苷酸數(shù)bpATG信號(hào)前片段數(shù)每片段含核苷酸數(shù)bpATG信號(hào)后核苷酸數(shù)bpATG信號(hào)后片段數(shù)每片段含核苷酸數(shù)bp1stATG60601606012ndATG30301903033rdATG30103301033. 2 GT信號(hào)的WMM方法 在多外顯子基因中,外顯子后面往往出現(xiàn)“GT”兩個(gè)核苷酸,這樣的GT在DNA序列中位置稱(chēng)為供體位點(diǎn)。從表中可以發(fā)現(xiàn):(1) 對(duì)于在第一個(gè)內(nèi)含子前面的序列,在要求較高精度(93%)地識(shí)別出TIS的條件下,采用多狀態(tài)熵距離判別分析方法總比WMM方法能減少不少假陽(yáng)性。 圖2 將三條序列拼接起來(lái),構(gòu)成一條新的序列S(這里假定(m,n)分別為(4,7)、(2,9)以及(5,6)) 在統(tǒng)計(jì)出不同狀態(tài)對(duì)應(yīng)于S權(quán)重矩陣后,類(lèi)似于將ATG信號(hào)分為兩類(lèi)時(shí)相對(duì)熵的定義,我們給出將ATG信號(hào)分為6個(gè)狀態(tài)時(shí)的相對(duì)熵的定義 為了刻畫(huà)具有狀態(tài)NSC_0的ATG信號(hào)與其它狀態(tài)的ATG信號(hào)的差別,我們同樣可以引入熵距離的概念,不過(guò)這里的熵距離是一個(gè)5維向量: 如果認(rèn)為非編碼區(qū)內(nèi)的核苷酸之間是相互獨(dú)立的以及結(jié)合生物學(xué)上每個(gè)氨基酸是由3個(gè)核苷酸編碼而成這個(gè)事實(shí),我們可以認(rèn)為將序列Lt劃分為pt個(gè)片段Ltj(其中,如圖3),并將每個(gè)片段統(tǒng)計(jì)出的熵距離組成一個(gè)向量是有意義的。這樣的話(huà),考察同一閱讀框的3個(gè)相鄰ATG信號(hào)之間的關(guān)聯(lián)性,可以歸納出中間那個(gè)ATG信號(hào)可能具有的6種狀態(tài):1,當(dāng)ATG信號(hào)與翻譯起始位點(diǎn)有相同閱讀框時(shí),有5種:NNN_0(NNN_0,表示這3個(gè)ATG的屬性依次為:N,N,N。在第一個(gè)供體位點(diǎn)前,ATG信號(hào)在DNA序列上出現(xiàn)的位置決定了該ATG可能具有的某個(gè)屬性:N:出現(xiàn)在翻譯起始位點(diǎn)之前,或出現(xiàn)在翻譯起始位點(diǎn)之后且閱讀框與翻譯起始位點(diǎn)對(duì)應(yīng)的閱讀框不同。圖1 用矩陣q來(lái)反映序列的核苷酸的位置以及內(nèi)容 我們可以簡(jiǎn)單地將ATG信號(hào)分為兩類(lèi),一類(lèi)是翻譯起始位點(diǎn),剩下的ATG信號(hào)歸為另一類(lèi)。這樣我們一共得到了874個(gè)基因作為學(xué)習(xí)集,152個(gè)基因作為測(cè)試集。我們采用ALLSEQ數(shù)據(jù)集構(gòu)成學(xué)習(xí)集的另一部分。數(shù)據(jù)庫(kù)包含了人類(lèi)的單外顯子基因186個(gè),多外顯子基因304個(gè),其中多外顯子基因中共包含1798個(gè)外顯子。如引言所提到,真核生物的基因按是否含有內(nèi)含子可以分為多外顯子基因以及單外顯子基因。我們用到的信息只是包含了前兩部分,對(duì)ATG信號(hào)的多狀態(tài)熵距離判別分析以及找出模糊詞匯是屬于信號(hào)的范疇,而對(duì)閱讀框運(yùn)用MED方法實(shí)際上關(guān)系到了內(nèi)容統(tǒng)計(jì)。現(xiàn)有基因預(yù)測(cè)軟件中對(duì)于first exon、terminal exon以及single exon,它們的識(shí)別精度通常都大大低于internal exon的識(shí)別精度【7】。但是對(duì)于真核生物,它們的基因結(jié)構(gòu)遠(yuǎn)比原核生物的復(fù)雜,許多基因是斷裂基因,間斷成外顯子(exon)和內(nèi)含子(intron),并且exon在序列中長(zhǎng)度比例極小【5】。 1 引言 2001年2月,人類(lèi)基因組計(jì)劃的相關(guān)組織和機(jī)構(gòu)公布了人類(lèi)基因組測(cè)序草圖【3】,人類(lèi)基因組計(jì)劃的提前完成,基因組的研究熱點(diǎn)已轉(zhuǎn)向揭示基因信息結(jié)構(gòu)的復(fù)雜性與遺傳語(yǔ)言的根本規(guī)律。我們首先基于簡(jiǎn)單的權(quán)重矩陣方法(WMM,Weight Matrix Method)【1】,發(fā)展了多狀態(tài)信號(hào)的熵距離判別分析方法,由此可以得到一些待定ATG信號(hào),這些信號(hào)包含了大部分的翻譯起始位點(diǎn)。真核生物5’端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)Prediction of First Exons and Translation Initiation Sites in Eukaryotic Genomes力學(xué)與工程科學(xué)系 00級(jí) 胡鋼清Gangqing HuDept. of Mechanics and Engineering Science摘 要真核生物翻譯起始位點(diǎn)(TIS,translation initiation sites)的正確預(yù)測(cè)對(duì)于基因的正確注釋有著重大的意義。接下來(lái),我們采用WMM找出與該ATG對(duì)應(yīng)的GT信號(hào)并將它們之間的序列提出(這里ATG信號(hào)以及GT信號(hào)的定義詳見(jiàn)正文)。其中,基因預(yù)測(cè)算法的研究也成為對(duì)基因組序列進(jìn)行統(tǒng)計(jì)分析的重要目標(biāo)。生物體通過(guò)對(duì)剪接位點(diǎn)(Splice Site)的剪接等過(guò)程最終構(gòu)成蛋白質(zhì)。First exon的預(yù)測(cè)實(shí)際上包含了對(duì)翻譯起始位點(diǎn)的預(yù)測(cè)。在預(yù)測(cè)時(shí),我們采用的算法是簡(jiǎn)單的線(xiàn)性判別。實(shí)際上,前者在數(shù)目上占絕大多數(shù),因而本文關(guān)心的是對(duì)多外顯子基因中的翻譯起始位點(diǎn)以及5’端外顯子的研究與預(yù)測(cè)。 我們直接采用了其中的304個(gè)多外顯子基因作為學(xué)習(xí)集的一部分。HMR195數(shù)據(jù)集是Rogic等于2001年整理出的,其中包含了人、小鼠和大鼠共195條基因的注釋。 3 方法3.1 ATG信號(hào)的多狀態(tài)熵距離判別分析方法 真核序列中,基因一般是由編碼甲硫氨酸(Met)的密碼子ATG開(kāi)始,我們把這樣的ATG稱(chēng)為翻譯起始位點(diǎn),而將DNA序列上出現(xiàn)的核苷酸三聯(lián)碼“ATG”稱(chēng)為ATG信號(hào)。為了刻畫(huà)這兩類(lèi)信號(hào)的區(qū)別,我們分別統(tǒng)計(jì)出他們對(duì)應(yīng)于L的權(quán)重矩陣 、(它們都是4(m+n)的矩陣),進(jìn)而依次定義出該序列的相對(duì)熵以及熵距離如下:, 然而通過(guò)引入多狀態(tài)熵距離判別分析,我們將對(duì)ATG信號(hào)有更細(xì)致的描寫(xiě)。S:出現(xiàn)在翻譯起始位點(diǎn)位點(diǎn)上。后面的數(shù)字表示這3個(gè)ATG的閱讀框,后類(lèi)推),NNS_0,NSC_0,SCC_0,CCC
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1