【正文】
Steven Salzberg Senior Director of Bioinformatics, The Institute for Genomic Research, Johns Hopkins University, MEDStart的預(yù)測水平 MEDStart的預(yù)測水平 MEDStart的預(yù)測水平 MEDStart的預(yù)測水平 167。 原核基因結(jié)構(gòu)的 EDP模型 取自 E. coli的兩段 ORF的假想氨基酸序列: Coding sequence (Gene “thrL”) ATGAAACGCATTAGCACCACCATTACCACCACCATC M K R I S T T I T T T I ACCATTACCACAGGTAACGGTGCGGGCTGA T I T T G N G A G Z Noncoding sequence ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATA M S L C G L K K E C L I GCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA A A S E L V T C R E Z DNA 序列 假想翻譯序列 遺傳密碼表 基于一段 DNA序列的假想氨基酸序列,引入它的熵密度分布(Entropy Density Profile, EDP) {Si} : 20, .. . ,1l o g1 ??? ippHS iiii : Index of 20 amino acid pi : Frequency of the ith amino acid Shannon entropy: ???? 201lo giii ppH對于任一有限長的 DNA序列,都可得到它的 EDP {Si} ,對應(yīng)于 20維相空間上唯一的一點(diǎn)。 當(dāng)前原核基因預(yù)測存在的主要問題 GenBank數(shù)據(jù)庫提供的原核基因注釋信息(基因位點(diǎn)、功能等)只有部分經(jīng)過實(shí)驗確認(rèn),其它部分只有計算預(yù)測或未實(shí)驗證實(shí)的注釋信息。 原核基因預(yù)測方法簡介 原核生物基因組結(jié)構(gòu)的特點(diǎn) 原核生物基因組一般比真核生物基因組小得多 E. coli的基因組 ()約為酵母基因組 ()的 2/5 絕大部分原核生物基因組由一個單一的環(huán)狀 DNA分子組成 原核生物的基因通常比真核生物的少 E. coli: 4000多個基因,人: ~30000個 原核生物的基因絕大多數(shù)是連續(xù)基因,不含間隔的內(nèi)含子;基因組結(jié)構(gòu)緊密,重復(fù)序列遠(yuǎn)少于真核生物的基因組。 UC Berkeley) ?GENSCAN (Stanford) GenScan的 HMM模型 GENSCAN對某個基因的預(yù)測結(jié)果示意圖: 常見的 HMM模型 ( 5) 動態(tài)規(guī)劃算法 ( Dynamic Programming) 將預(yù)測出的各個可能的外顯子和內(nèi)含子進(jìn)行拼接 , 組成完整的基因 。 因此 , 只要找出序列中最長的 ORF( 300bp) 就能相當(dāng)準(zhǔn)確地預(yù)測出基因 。 有的標(biāo)準(zhǔn)是考察被準(zhǔn)確預(yù)測到的氨基酸序列的比例 , 以及被錯誤預(yù)測的氨基酸比例 。 缺陷:不允許分母中TP+FN、 TN+FP、 TP+FP和 TN+FN中任何一項為零 。 ) 167。每 1kb的 CDS所包含的內(nèi)含子長度為 6825bp。端有直接重復(fù)序列的存在 。 4 假基因 假基因 :與功能性基因密切相關(guān)的 DNA系列 , 但由于缺失 、 插入和無義突變失去閱讀框架而不能編碼蛋白質(zhì)產(chǎn)物 。第六講 基因結(jié)構(gòu)與基因預(yù)測 167。 有些人類假基因可以轉(zhuǎn)錄但不能翻譯成蛋白質(zhì) 。 有利于形成環(huán)狀結(jié)構(gòu) 。 同樣地 , 人類基因組外顯子長度的概率分布要比內(nèi)含子的概率分布要緊湊得多 。 真核基因預(yù)測研究概況 基因預(yù)測的主要目的 抓住如下特征: ( 1) 、 編碼蛋白質(zhì)基因的區(qū)域信息; ( 2) 、 編碼蛋白質(zhì)基因的結(jié)構(gòu)信息 ( 包括非翻譯區(qū)和調(diào)控元 , 以及所有與轉(zhuǎn)錄有關(guān)的外顯子 、 內(nèi)含子 ) ; ( 3) 、 每一轉(zhuǎn)錄所對應(yīng)的所有可能翻譯成蛋白質(zhì)產(chǎn)物的翻譯; ( 4) 、 重復(fù)序列的區(qū)域及其特征; ( 5) 、 編碼非編碼 RNA的基因的區(qū)域 。 近似相關(guān) AC( Approximation Correlation) :來作為評估基因預(yù)測的效果 ? ? ??? A C PAC?????? ???????? FNTN TNFPTN TNFPTP TPFNTP TPA C P 41AC:對 P(F(x)=c|x=c)、 P(x=c|F(x)=c)、 P(F(x)=n|x=n)和 P(x=n|F(x)=n)四種條件概率的等權(quán)平均 , 取值范圍 [1,1] 。 基于內(nèi)容檢測的方法 ( search by content或 content sensors) 基于信號檢測的方法 ( search by signal或 signal sensors) 基于相似性比較的方法 ( search by similarity parison) 基因預(yù)測方法簡介 基于內(nèi)容檢測的方法 原理: DNA序列中的編碼蛋白質(zhì)區(qū)域的字符的上下文特征與非編碼的區(qū)域是有區(qū)別的 。 只對基因結(jié)構(gòu)比較簡單的生物基因組有效; ( Claverie, 1997) ( 2) 詞匯統(tǒng)計算法 對核苷酸序列 ( Nucleotide Words) 中詞匯選用頻率的統(tǒng)計研究 。 并對各種可能的拼接進(jìn)行計分 , 從而得出最可能的基因結(jié)構(gòu); ( Gelfang amp。 原核生物基因組的操縱子與基因群結(jié)構(gòu) 原核生物的基因結(jié)構(gòu) STOP ATG ATG …CCC TCGAAGC… ATG Transcription Initiation Motif Coding ORF Translation Initiation Motif Upstream region Texts from coding/noncoding regions in DNA sequence GTGAGGGATCGTGGGCATATTTCACAAACTTACTTTTAAAACCATACAACGAAGAAGCGGCCATAATGAACGACTCTTTACAGAATACGGATCTCATTTCACACTTCTCACATCCATTTTAG TTGGAAACACATGAAAGTGAGACCATCAGTTAAACCAATCTGCGAAAAATGTAAAGTTATTTCGCAGAAAAGGAAAAGTAATGGTGATCTGTGAAAATCCAAAGCATAAACAAAAACAAGGATAA GGTTATATAAATGAAAAGATTTCTGATTGGCGCAGGCGTCGCAGCGGTGATTTTATCAGGTTTGGTTTATTGCGGACCATCAAACCCACTCACAGGAAATGAAAGTCGCTGAGAAAATGATTGGATAA GAGATTATTGATGAAAATCAGCCGGATTCTATTGGCAGCAGTGATTTTAAGTAGTGTATTTTTCAATAACTTATTTGCAAAGTGATCATAATACTGAAATTAAAGTTGCTGCAGATCGGGTAGGGGCATAG GTGAGTTTGTATGAAATTGAAGTCTAAACTATTACTCTCTTGTCTGGCTCTAAGCACTGTGGTTCGTGGCAACAACTATTGCAAATGCACCTACACACCAAATTGAAGTTGCACAACGAGGAATGATTTAA AGCCCTCTCGATGGAAAAGATCCCTTGCTTCGCGGAGGAATTGATTATAGGCCTCTCTATCCTGGGGCCGCAAATATTCAAAGTCGAAATGAATGTCACGGAAGCCATATCTTCTGGCATTCTCGACTAG CACGGGACATATGATGGCTTGCAGGTCTTTTAAAGAGACAGCGGCGGTTTGTGACAAGTCAATCAGAAATCCTTCACCCGAGCGCTGCCGGCTGTTCATTTTCCGAAATGCTTCTATGTCTTTTTCATTCTGA CGCCTGAAATATGGTCCGCGTGAAGATGTGTATCAAATACGTGAGTAATCGTTGCACCCTTCCCCTTCGCAAAATCTATAAAGAAATTCACCATACGTGTCGCATCAATAATTGCTGCTTCACCATTTGA AAAGCCAAAAATGATCGACACAGCTATGAAATCGGAGAAGAAATCATGCTTCCGAGTGAAACACGCATGGGCAGAAGGGCCAGCTTTTTTGATTTTTTTAAACTGCGCCCTTTCAAAATGGGGATTTTGA TATATGTAATATGTATGAATTCTTGATTGATGATCGTATCATCAGTTATTTCAATTGCCTCAACGTCAAACTCTTGTTGCAGCGCTTTGACAAACCTTTTTACATTTCCTGTTTTACTCTCATATGTAATTAA CAATGTCCCTATGAAAATACTGCCCTCTGTCCCGATCACCTCCGCCCGGATGTCATGTCCGTATGGAGAGGTTCTGCTTGCCTCGACGTCCCCCGCTGCGCCCGAGTCAAATTCAATATACGTCAGCTGA Start codon Stop codon ATG GTG TTG TAA TAG TGA Protein coding genes Noncoding sequences 原核生物基因組的研究意義 揭示生命活動的基本規(guī)律 ——導(dǎo)致現(xiàn)代分子遺傳學(xué)的許多重大發(fā)現(xiàn) 染色體、 DNA雙螺旋、遺傳密碼、 DNA復(fù)制、中心法則 … 原核生物基因組的研究意義 揭示生命起源與進(jìn)化的奧秘 進(jìn)行分子遺傳學(xué)的良好材料 在農(nóng)業(yè)、工業(yè)和生物制藥工程上的應(yīng)用十分廣泛 作為微生物基因工程的反應(yīng)器,直接運(yùn)用于干擾素、人胰島素、生長激素、乙型肝炎疫苗等現(xiàn)代基因工程產(chǎn)品的生產(chǎn)。 GenBank數(shù)據(jù)庫的注釋信息存在系統(tǒng)性的錯誤,處于不斷的修正之中。 EDP: a set of multivariate parameters DNA序列的 EDP表現(xiàn)出編碼 /非編碼的聚類性。 原核基因的自動預(yù)測系統(tǒng) 1. EDP模型 ——刻畫 ORF序列整體編碼性與相似性 發(fā)展了對高 GC含量基因組的 EDP模型 2. TIS模型 ——刻畫基因上游區(qū)域的復(fù)雜序列特征 是基于 RBS模型的發(fā)展 定義基因翻譯起始的三種機(jī)制 刻畫基因翻譯起始信號的復(fù)雜性 考慮結(jié)構(gòu)基因群的特征 考慮高 GC含量物種基因組的序列特征 3. 綜合運(yùn)用 EDP模型、 TIS模