freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第四章序列分析ppt課件(已修改)

2025-01-29 07:19 本頁面
 

【正文】 序列分析 一、堿基組成 DNA序列一個顯而易見的特征是四種堿基類型的分布。盡管四種堿基的頻率相等時對數(shù)學(xué)模型的建立可能是方便的,但幾乎所有的研究都證明堿基是以不同頻率分布的。 表 1包含了 9個完整 DNA分子序列的資料,表 2的數(shù)據(jù)來自兩個胎兒球蛋白基因 (Gr和 Ar),每個基因具有三個外顯子和兩個內(nèi)含子 (shen等 1981)。這兩個例子說明序列內(nèi)和序列間堿基具有不同的頻率。在基因每一側(cè)的 500 個任意堿基區(qū)域被稱為“側(cè)翼”,基因間區(qū)域是指兩個基因間的其余序列。 表 1 九種完整 DNA序列的堿基組成 表 2 人類胎兒球蛋白基因不同區(qū)段的堿基組成 二.堿基相鄰頻率 分析 DNA序列的主要困難之一是堿基相鄰的頻率不是獨立的。堿基相鄰的頻率一般不等于單個堿基頻率的乘積 例: 雞血紅蛋白 β鏈的 mRNA編碼區(qū)的 438個堿基 圖 1 雞 β球蛋白基因編碼區(qū)的 DNA序列 (GenBank: CHKHBBM,記錄號 J00860) 表 3 圖 1雞 β球蛋白基因序列的相鄰堿基分布 在編碼區(qū),存在某種約束來限制 DNA序列編碼氨基酸。在密碼子水平上,這一約束與堿基相鄰頻率有關(guān)。 表 4列出了遺傳密碼和圖 1序列中各密碼子數(shù)量。盡管數(shù)目很小,難以作出有力的統(tǒng)計結(jié)論,但編碼同一氨基酸的不同密碼子 (同義密碼子 )好像不是等同存在的。這種密碼子偏倚必定與兩堿基相鄰頻率水平有關(guān)。 表 4還清楚地表明,由于密碼子第 3位置上堿基的改變常常不會改變氨基酸的類型,因而對第 3位置上堿基的約束要比第 2位堿基小得多。 表 4 64種可能的堿基三聯(lián)體密碼子及相應(yīng)的氨基酸數(shù)(據(jù)圖 1序列) 相鄰堿基之間的關(guān)聯(lián)將導(dǎo)致更遠(yuǎn)堿基之間的關(guān)聯(lián),這些關(guān)聯(lián)延伸距離的估計可以從馬爾科夫鏈 (Markov chain)理論得到 (Javare和 Giddings, 1989) 三.同向重復(fù)序列分析 除了分析整個序列堿基關(guān)聯(lián)程度的特征外,我們常對尋找同向重復(fù)序列 (direct repeats)之類的問題感興趣。 Karlin等(1983)給出了完成這一分析的有效算法。該法采用由特定的幾組堿基字母組成的不同亞序列或稱為字碼 (word)。只需要對整個序列搜索一次。給一堿基賦以值 α,例如 A、 C、 G、 T的值為0、 3。由 X X … 、 Xk 共 k個字母組成的每一種不同的字碼按: 計算字碼值。這些值的取值范圍為 1到 4k 例如: 5字碼 TGACC的值為1+3 44+2 43+0 42+1 41+1 40=459??上葟牡?k值的字碼開始搜索。記錄序列中每一個位置 k字碼的字碼值。只有在發(fā)現(xiàn) k字碼長度重復(fù)的那些位置考慮進(jìn)行長度大于 k的字碼搜索。 序列 TGGAAATAAAACGTAAGTAG中所有堿基 2字碼 (k=2)的初始位置和字碼值。對于完全重復(fù)、長度大于 2的同向重復(fù)或亞序列的搜索可只限于 2字碼重復(fù)的初始位置。 在本例中只有 4個重復(fù)的 2堿基重復(fù)序列。例如,在位置 10和 15均發(fā)現(xiàn)了字碼值為 1的堿基重復(fù)序列。 從有重復(fù)的 2堿基為起點的 3字碼值中發(fā)現(xiàn)字碼值為 45和 49的序列有重復(fù);以每一重復(fù)的 3堿基為起點的 4字碼搜索未能發(fā)現(xiàn)更長的重復(fù)序列。 表 5 序列 TGGAAATAAAACGTAAGTAG的 3字碼值和位置 (Karlin, 1983) 四、 RNA二級結(jié)構(gòu)預(yù)測 盡管現(xiàn)有一些 RNA折疊程序可以預(yù)測 RNA二級結(jié)構(gòu),但這類分析仍然是一門藝術(shù)。 RNA折疊有助于找出 RNA分子中可能的穩(wěn)定莖區(qū),但對給定的 RNA分子來說,這一結(jié)果的 生物學(xué)意義 究竟有多大,還是一個未知數(shù)。即使有此局限性,二級結(jié)構(gòu)的預(yù)測還是有助于找出 mRNA控制區(qū)以及 RNA分子中可能形成穩(wěn)定折疊結(jié)構(gòu)的區(qū)段。 五、從序列中尋找基因 基因按其功能可分為 結(jié)構(gòu)基因 和 調(diào)控基因 :結(jié)構(gòu)基因可被轉(zhuǎn)錄形成 mRNA,并進(jìn)而轉(zhuǎn)譯成多肽鏈;調(diào)控基因是指某些可調(diào)節(jié)控制結(jié)構(gòu)基因表達(dá)的基因。在 DNA鏈上,由蛋白質(zhì)合成的起始密碼開始,到終止密碼子為止的一個連續(xù)編碼序列稱為一個開放閱讀框 (Open Reading Frame,ORF)。結(jié)構(gòu)基因多含有插入序列,除了細(xì)菌和病毒的 DNA中 ORF是連續(xù)的,包括人類在內(nèi)的真核生物的大部分結(jié)構(gòu)基因為斷裂基因,即其編碼序列在 DNA分子上是不連續(xù)的,或被插入序列隔開。斷裂基因被轉(zhuǎn)錄成前體mRNA,經(jīng)過剪切過程,切除其中非編碼序列 (即內(nèi)含子 ),再將編碼序列 (即外顯子 )連接形成成熟 mRNA,并翻譯成蛋白質(zhì)。假基因是與功能性基因密切相關(guān)的 DNA序列,但由于缺失、插入和無義突變失去閱讀框而不能編碼蛋白質(zhì)產(chǎn)物。 一種典型的真核蛋白質(zhì)編碼基因的結(jié)構(gòu)示意圖。其編碼序列(外顯子)是不連續(xù)的,被非編碼區(qū)(內(nèi)含子)隔斷。 所謂 基因區(qū)域預(yù)測 ,一般是指預(yù)測 DNA序列中編碼蛋白質(zhì)的部分,即外顯子部分。 不過目前基因區(qū)域的預(yù)測已從單純外顯子預(yù)測發(fā)展到整個基因結(jié)構(gòu)的預(yù)測。這些預(yù)測綜合各種外顯子預(yù)測的算法和人們對基因結(jié)構(gòu)信號(如 TATA盒等 )的認(rèn)識,預(yù)測出可能的完整基因 基因區(qū)域的預(yù)測是一個活躍的研究領(lǐng)域,先后有一大批預(yù)測算法和相應(yīng)程序被提出和應(yīng)用,其中有的方法對編碼序列的預(yù)測準(zhǔn)確率高達(dá) 90%以上,而且在敏感性和特異性之間取得了很好的平衡 預(yù)測方法中,最早是通過序列核苷酸頻率、密碼子等特性進(jìn)行預(yù)測 (如最長 ORF法等 ),隨著各類數(shù)據(jù)庫的建立和完善,通過相似性列線比對也可以預(yù)測可能的基因。同時,一批新方法也被提了出來,如隱馬爾可夫模型 (Hidden Markov Model,HMM)、動態(tài)規(guī)劃法 (dynamic programming)、法則系統(tǒng) (ruledbased system)、語言學(xué) (linguistic)方法、線性判別分析 (Linear Discriminant Analysis,LDA)、決策樹 (decision tree)、拼接列線 (spliced alingment)、博利葉分析 (Fourier analysis)等。 下表列出了 claverie(1997)對部分程序預(yù)測基因區(qū)域能力的比較結(jié)果,表中同時列出了相應(yīng)算法和程序的網(wǎng)址。 目前基因區(qū)域預(yù)測的各種算法均存在以下 2個問題 ( 1)目前算法對基因中的 非編碼區(qū)和基因間序列 不加任何區(qū)別,所以預(yù)測出的基因仍然是不完全的,對 5‘和 3‘非編譯區(qū)( UTR, untranslated region)的預(yù)測基本上還是空白; ( 2)目前大多數(shù)算法都是 基于已知基因序列 。如相似性列線比較算法是完全依賴于已知的序列,而象 HMM之類的算法都需要對已知的基因結(jié)構(gòu)信號進(jìn)行學(xué)習(xí)或訓(xùn)練,由于訓(xùn)練所用的序列畢竟是有限的,所以對那些與學(xué)習(xí)過的基因結(jié)構(gòu)不太相似的基因,這些算法的預(yù)測效果就要大打折扣了 要解決以上兩個問題,需要對基因結(jié)構(gòu)進(jìn)行更深入的研究,尋找隱藏在基因不同結(jié)構(gòu)中的內(nèi)在統(tǒng)計規(guī)律。 2.發(fā)現(xiàn)基因的一般過程 從序列中發(fā)現(xiàn)基因可以理解為基因區(qū)域預(yù)測和基因功能預(yù)測 2個層次 第一步:獲取 DNA目標(biāo)序列 ① 如果你已有目標(biāo)序列,可直接進(jìn)入第 2步; ② 可通過 PubMed查找你感興趣的資料;通過 GenBank或 EMBL等數(shù)據(jù)庫查找目標(biāo)序列 第二步:查找 ORF并將目標(biāo)序列翻譯成蛋白質(zhì)序列 利用相應(yīng)工具,如 ORF Finder、 Gene feature(Baylor College of Medicine)、 GenLang(University of Pennsylvania)等,查找 ORF并將 DNA序列翻譯成蛋白質(zhì)序列 第三步:在數(shù)據(jù)庫中進(jìn)行序列搜索 可以利用 BLAST進(jìn)行 ORF核苷酸序列和 ORF翻譯的蛋白質(zhì)序列搜索 第四步:進(jìn)行目標(biāo)序列與搜索得到的相似序列的整體列線 (global alignment) 雖然第三步已進(jìn)行局部列線 (local alignment)分析,但整體列線有助于進(jìn)一步加深目標(biāo)序列的認(rèn)識 進(jìn)行多序列列線 (multiple sequence alignment)和獲得列線區(qū)段的可視信息??煞謩e在 AMAS(Oxford University)和 BOXSHADE(ISREC,Switzerland)等服務(wù)器上進(jìn)行 第五步:查找基因家族 第六步:查找目標(biāo)序列中的特定模序 ① 分別在 Procite、 BLOCK、 Motif數(shù)據(jù)庫進(jìn)行
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1