正文內(nèi)容

真核生物5端外顯子和翻譯起始位點的預測(編輯修改稿)

2025-05-01 23:46 本頁面

　

【文章內(nèi)容簡介】中第一個供體位點上的GT信號歸到類D（donor）中。在學習序列5’ 端到第一個受體位點之間的范圍內(nèi)，我們用多狀態(tài)熵距離判別分析方法對序列中的ATG信號依次分析。當有ATG對應的狀態(tài)判為NSC_0時，找出與其同相位的第一個STP信號，將它倆之間非D類的GT信號歸到類ND（not donor）中，然后對STP以后的ATG信號重復以上的操作。包含GT信號的核苷酸序列，相應地可分為兩類：包含D類GT信號的序列，和包含ND類GT信號的序列。各類序列在其不同位置對核苷酸的偏好程度可以通過權重矩陣得到刻畫。對于給定的一個GT，我們?nèi)〕銎湎鄳蛄校瑢⒃撔蛄兄忻恳缓塑账嵩贜D權重矩陣相應位置上的數(shù)據(jù)相加得出其歸為ND類的概率p，同樣方法可得出其歸為D類的概率q，如果pq則該GT信號成為受體位點的可能性大。程序中，GT信號對應序列的參數(shù)選為GT信號前20bp后20bp。選取模糊詞匯以及得出用于MED聚類的[ATG…]GT序列我們在學習集的每一條序列第一個受體位點之前，先用多狀態(tài)熵距離判別分析方法找出狀態(tài)為NSC_0的ATG信號，再找出與該ATG信號有相同閱讀框的第一個STP信號，在它倆之間用WMM找出最大可能成為D類的GT信號，將ATG信號與該GT信號標識的序列取出構成[ATG…]GT序列，這樣將找出不包含TIS的[ATG…]GT序列共2297個，歸為類NIE（ not initial exon，這其間要求：如果[ATG…]GT序列中ATG的相位與其所在序列TIS的相位相同，則該序列與5’端外顯子相重疊的部分不超過序列總長的1/3）。另外我們選取包含TIS的[ATG…]GT序列(即5’端外顯子)共874個，歸為類IE（initial exon）。然而我們發(fā)現(xiàn)，通過引入模糊詞匯的概念可以將NIE類的數(shù)目進一步縮小。原核生物中，翻譯起始密碼子上游4~7個核苷酸之前有一段富含5’…AGGAGG…3’的短小序列，成為SD序列【12】。我們猜想在真核生物中是否也有類似的現(xiàn)象，這樣的短小序列不只一種形式，并且它們在進化的過程中可能會發(fā)生變異、插入以及缺失。這種的短小序列稱為模糊詞匯。這樣我們對長度為6的46個信號在777個翻譯起始位點（要求對應第一個外顯子的長度大于30bp）前14bp范圍內(nèi)進行枚舉得出最多允許2個核苷酸變異的模糊詞匯CCAGCC，CTCAGC以及GCCAGC，滿足IE類中有90%以及NIE類中有59%的[ATG…]GT序列前出現(xiàn)了其中的某個或多個詞匯。我們只保留將NIE類中出現(xiàn)某個模糊詞匯的[ATG…]GT序列共1353條以及IE類中長度大于30bp的[ATG…]GT序列共777條。 [ATG…]GT序列的MED多中心聚類MED主要思想如下簡述【16】。Shannon【13】在討論人工語言時指出, 對一段文字或語言最好的刻畫是從其基本詞匯的出現(xiàn)頻率出發(fā). 那么, 對于[ATG…]GT序列如何選取這些基本詞匯呢? 根據(jù)中心法則, 具有編碼功能的DNA序列按照通用遺傳密碼被翻譯成具有生物學意義的氨基酸序列, 氨基酸序列通過特定的空間折疊得到具有生物活性的蛋白質(zhì), 在生命過程中發(fā)揮功能。因此，以20種氨基酸作為理解生物DNA序列的基本詞匯是一個很自然的選擇。我們認為, 具有生物學意義、能編碼蛋白質(zhì)的IE類[ATG…]GT序列的與非編碼的NIE類[ATG…]GT序列的編碼潛能有著一定的差別. 為刻畫編碼潛能, 我們引入多變量的參數(shù)——熵密度分布（entropy density profile, 簡稱EDP）。假定所給定[ATG…]GT序列長度為L（以氨基酸為單位）, 第i種氨基酸（按照其字母簡稱排序）的出現(xiàn)次數(shù)為Li, 則得到第i種氨基酸的使用頻率（或豐度）為. 根據(jù)Shannon熵的定義可以構造該[ATG…]GT序列的熵密度分布（EDP）:這樣, 對于任意的[ATG…]GT序列, 我們都可以構造出它的多變量的參數(shù)EDP, 即（i=1, …, 20）, ，我們用相空間中任意兩點和（分別對應兩段DNA序列的EDP）的歐氏距離D來刻畫兩[ATG…]GT序列的差異：，通過計算一個未知[ATG…]GT序列的EDP與一系列已知EDP相點的距離, 我們可以方便地將未知[ATG…]GT序列進行歸類。我們認為，在20維相空間中，對一個給定的[ATG…]GT序列，它的EDP在相空間中總是更傾向于分布在自己所屬一類的某個中心周圍。也就是說，[ATG…]GT序列的EDP在相空間中表現(xiàn)出很明顯的聚類性。這里同時也指出每一類的聚類中心往往有不只一個，為了較好的刻畫這樣的聚類性，我們采用了多中心聚類方法。下面結合[ATG…]GT序列對多中心聚類方法作簡要介紹【14】。在20維相空間上有兩類集合IE、NIE（以下分別用X，Y表示，分別有I，J 個點）。我們要解決的問題是，找出反映集合X、Y中樣品點分布性質(zhì)的兩類多中心、這里的，是中心的序號，且。在判別未知點時，計算其中是歐氏距離。通過比較距離和的大小，若，則；若，則。因此，關鍵問題是如何得到兩類多中心和。下面以求的多中心（multicenters）為例。首先在中隨機挑選一批有代表性的樣品點，稱之為聚點（clustering point），要求它們滿足：（1）、兩兩之間的距離不小于（r為聚類半徑），即；（2）、構造區(qū)域，是以為球心、為半徑的小球，若，有：然后，對以聚點為球心、為半徑的小球進行平均，得到它的初始中心。以初始中心作為下一步的新樣品點集，仍然以半徑r為標準構造新的聚點，并得到新的中心。重復計算下去，直到第m步中心滿足收斂標準，即。由此得到，迭代計算結束。理論上可以證明，當m增大時，會趨于穩(wěn)定，即，n=1,…,N同樣可以得到點集的多中心。上述聚類算法的關鍵參數(shù)是聚類半徑r， r太小學習出的數(shù)據(jù)特異性太強，不具有一般性，r過大則又不能反映多中心的性質(zhì)。我們通過多次嘗試。我們對1353條NIE類[ATG…]GT序列以及777條IE類[ATG…]GT序列運用多中心聚類，得

點擊復制文檔內(nèi)容

化學相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

真核生物5端外顯子和翻譯起始位點的預測(編輯修改稿)

真核微生物的細胞結構-資料下載頁

真核生物基因表達調(diào)控-資料下載頁

真核微生物的形態(tài)與結構-資料下載頁

真核生物特殊的染色體作圖-資料下載頁

真核微生物的形態(tài)與構造-資料下載頁

生物化學真核微生物-資料下載頁

mirna目標位點預測工具介紹-資料下載頁

mirna目標位點預測工具介紹-資料下載頁

一位核雕傳人的堅守和創(chuàng)新-資料下載頁

真核生物基因表達調(diào)控(2)-資料下載頁

9-真核微生物-資料下載頁

真核生物基因結構ppt課件-資料下載頁

真核微生物ppt課件-資料下載頁

分子遺傳學5章真核生物基因的表達調(diào)控-資料下載頁

9-真核微生物-資料下載頁

真核生物5端外顯子和翻譯起始位點的預測(已修改)

真核生物5端外顯子和翻譯起始位點的預測(編輯修改稿)

真核生物5端外顯子和翻譯起始位點的預測-wenkub.com

真核生物5端外顯子和翻譯起始位點的預測(已改無錯字)

真核生物5端外顯子和翻譯起始位點的預測-資料下載頁