freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

真核生物5端外顯子和翻譯起始位點的預測(編輯修改稿)

2025-05-01 23:46 本頁面
 

【文章內(nèi)容簡介】 中第一個供體位點上的GT信號歸到類D(donor)中。在學習序列5’ 端到第一個受體位點之間的范圍內(nèi),我們用多狀態(tài)熵距離判別分析方法對序列中的ATG信號依次分析。當有ATG對應(yīng)的狀態(tài)判為NSC_0時,找出與其同相位的第一個STP信號,將它倆之間非D類的GT信號歸到類ND(not donor)中,然后對STP以后的ATG信號重復以上的操作。包含GT信號的核苷酸序列,相應(yīng)地可分為兩類:包含D類GT信號的序列,和包含ND類GT信號的序列。各類序列在其不同位置對核苷酸的偏好程度可以通過權(quán)重矩陣得到刻畫。對于給定的一個GT,我們?nèi)〕銎湎鄳?yīng)序列,將該序列中每一核苷酸在ND權(quán)重矩陣相應(yīng)位置上的數(shù)據(jù)相加得出其歸為ND類的概率p,同樣方法可得出其歸為D類的概率q,如果pq則該GT信號成為受體位點的可能性大。 程序中,GT信號對應(yīng)序列的參數(shù)選為GT信號前20bp后20bp。 選取模糊詞匯以及得出用于MED聚類的[ATG…]GT序列我們在學習集的每一條序列第一個受體位點之前,先用多狀態(tài)熵距離判別分析方法找出狀態(tài)為NSC_0的ATG信號,再找出與該ATG信號有相同閱讀框的第一個STP信號,在它倆之間用WMM找出最大可能成為D類的GT信號,將ATG信號與該GT信號標識的序列取出構(gòu)成[ATG…]GT序列,這樣將找出不包含TIS的[ATG…]GT序列共2297個,歸為類NIE( not initial exon,這其間要求:如果[ATG…]GT序列中ATG的相位與其所在序列TIS的相位相同,則該序列與5’端外顯子相重疊的部分不超過序列總長的1/3)。另外我們選取包含TIS的[ATG…]GT序列(即5’端外顯子)共874個,歸為類IE(initial exon)。然而我們發(fā)現(xiàn),通過引入模糊詞匯的概念可以將NIE類的數(shù)目進一步縮小。 原核生物中,翻譯起始密碼子上游4~7個核苷酸之前有一段富含5’…AGGAGG…3’的短小序列,成為SD序列【12】。我們猜想在真核生物中是否也有類似的現(xiàn)象,這樣的短小序列不只一種形式,并且它們在進化的過程中可能會發(fā)生變異、插入以及缺失。這種的短小序列稱為模糊詞匯。這樣我們對長度為6的46個信號在777個翻譯起始位點(要求對應(yīng)第一個外顯子的長度大于30bp)前14bp范圍內(nèi)進行枚舉得出最多允許2個核苷酸變異的模糊詞匯CCAGCC,CTCAGC以及GCCAGC,滿足IE類中有90%以及NIE類中有59%的[ATG…]GT序列前出現(xiàn)了其中的某個或多個詞匯。我們只保留將NIE類中出現(xiàn)某個模糊詞匯的[ATG…]GT序列共1353條以及IE類中長度大于30bp的[ATG…]GT序列共777條。 [ATG…]GT序列的MED多中心聚類MED主要思想如下簡述【16】。Shannon【13】在討論人工語言時指出, 對一段文字或語言最好的刻畫是從其基本詞匯的出現(xiàn)頻率出發(fā). 那么, 對于[ATG…]GT序列如何選取這些基本詞匯呢? 根據(jù)中心法則, 具有編碼功能的DNA序列按照通用遺傳密碼被翻譯成具有生物學意義的氨基酸序列, 氨基酸序列通過特定的空間折疊得到具有生物活性的蛋白質(zhì), 在生命過程中發(fā)揮功能。 因此,以20種氨基酸作為理解生物DNA序列的基本詞匯是一個很自然的選擇。我們認為, 具有生物學意義、能編碼蛋白質(zhì)的IE類[ATG…]GT序列的與非編碼的NIE類[ATG…]GT序列的編碼潛能有著一定的差別. 為刻畫編碼潛能, 我們引入多變量的參數(shù)——熵密度分布(entropy density profile, 簡稱EDP)。假定所給定[ATG…]GT序列長度為L(以氨基酸為單位), 第i種氨基酸(按照其字母簡稱排序)的出現(xiàn)次數(shù)為Li, 則得到第i種氨基酸的使用頻率(或豐度)為. 根據(jù)Shannon熵的定義可以構(gòu)造該[ATG…]GT序列的熵密度分布(EDP):這樣, 對于任意的[ATG…]GT序列, 我們都可以構(gòu)造出它的多變量的參數(shù)EDP, 即(i=1, …, 20), ,我們用相空間中任意兩點和(分別對應(yīng)兩段DNA序列的EDP)的歐氏距離D來刻畫兩[ATG…]GT序列的差異:,通過計算一個未知[ATG…]GT序列的EDP與一系列已知EDP相點的距離, 我們可以方便地將未知[ATG…]GT序列進行歸類。 我們認為,在20維相空間中,對一個給定的[ATG…]GT序列,它的EDP在相空間中總是更傾向于分布在自己所屬一類的某個中心周圍。也就是說,[ATG…]GT序列的EDP在相空間中表現(xiàn)出很明顯的聚類性。這里同時也指出每一類的聚類中心往往有不只一個,為了較好的刻畫這樣的聚類性,我們采用了多中心聚類方法。下面結(jié)合[ATG…]GT序列對多中心聚類方法作簡要介紹【14】。在20維相空間上有兩類集合IE、NIE(以下分別用X,Y表示,分別有I,J 個點)。我們要解決的問題是,找出反映集合X、Y中樣品點分布性質(zhì)的兩類多中心、這里的,是中心的序號,且。在判別未知點時,計算其中是歐氏距離。通過比較距離和的大小,若,則;若,則。因此,關(guān)鍵問題是如何得到兩類多中心和。下面以求的多中心(multicenters)為例。首先在中隨機挑選一批有代表性的樣品點,稱之為聚點(clustering point),要求它們滿足:(1)、兩兩之間的距離不小于(r為聚類半徑),即;(2)、構(gòu)造區(qū)域,是以為球心、為半徑的小球,若,有:然后,對以聚點為球心、為半徑的小球進行平均,得到它的初始中心。以初始中心作為下一步的新樣品點集,仍然以半徑r為標準構(gòu)造新的聚點,并得到新的中心。重復計算下去,直到第m步中心滿足收斂標準,即。由此得到,迭代計算結(jié)束。理論上可以證明,當m增大時,會趨于穩(wěn)定,即,n=1,…,N同樣可以得到點集的多中心。上述聚類算法的關(guān)鍵參數(shù)是聚類半徑r, r太小學習出的數(shù)據(jù)特異性太強,不具有一般性,r過大則又不能反映多中心的性質(zhì)。我們通過多次嘗試。我們對1353條NIE類[ATG…]GT序列以及777條IE類[ATG…]GT序列運用多中心聚類,得
點擊復制文檔內(nèi)容
化學相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1