freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第四章序列分析ppt課件-資料下載頁(yè)

2025-01-17 07:19本頁(yè)面
  

【正文】 , 組成了一些更長(zhǎng)的或許更具實(shí)際生物學(xué)意義的比對(duì) 。 基于上述思路 , BLAST算法經(jīng)過(guò)改進(jìn)允許空位插入( Altshul等 , 1997) 。 為縮短對(duì)數(shù)據(jù)庫(kù)初始搜索的時(shí)間 , 新的算法只找出一個(gè)最好的高分值片段 , 并以此為基礎(chǔ)運(yùn)用動(dòng)態(tài)規(guī)劃方法將這一片段向兩端延伸 , 最終產(chǎn)生的比對(duì)結(jié)果可能有空位插入 。 由于免去了查找所有高分值片段對(duì)的步驟 , 新的算法比原算法快 3倍 。 對(duì) BLAST算法的進(jìn)一步擴(kuò)充 , 可以考慮雙序列比對(duì)和多序列比對(duì)的有效結(jié)合 允許空位的 BLAST 位點(diǎn)特異性 BLAST疊代搜索 位點(diǎn)特異性 BLAST( PositionSpecific Iterated BLAST,簡(jiǎn)稱(chēng) PSIBLAST)疊代搜索( Altschul等, 1997),是一種將雙序列比對(duì)和多序列比對(duì)結(jié)合在一起的數(shù)據(jù)庫(kù)搜索方法。 位置特異性疊代 BLAST (PositionSpecific Iterated BLAST,簡(jiǎn)稱(chēng) PSIBLAST)則是對(duì)蛋白質(zhì)序列數(shù)據(jù)庫(kù)進(jìn)行搜索的改進(jìn),其主要思想是通過(guò)多次疊代找出最佳結(jié)果。 具體做法是利用第一次搜索結(jié)果構(gòu)建位置特異性分?jǐn)?shù)矩陣,并用于第二次的搜索,第二次搜索結(jié)果用于第三次搜索,依此類(lèi)推,直到找出最佳搜索結(jié)果。此外, BLAST不僅可用于檢測(cè)序列對(duì)數(shù)據(jù)庫(kù)的搜索,還可用于兩個(gè)序列之間的比對(duì)。 盡管以下事實(shí)已經(jīng)基本得到認(rèn)同:基于序列模式的數(shù)據(jù)庫(kù)搜索靈敏度較高、特異性較好,因而可以發(fā)現(xiàn)一些距離較遠(yuǎn)但卻具有生物學(xué)意義的相似序列;它的不足之處也不能予以忽視。除了需要大量的計(jì)算資源這一缺點(diǎn)外,對(duì)于搜索結(jié)果的分析解釋常常相當(dāng)困難。這些制約因素限制了它的實(shí)際使用范圍。 PSIBLAST的基本思路在于根據(jù)最初的搜索結(jié)果,依照預(yù)先定義的相似性閾值將序列分成不同的組,構(gòu)建一個(gè)位點(diǎn)特異性的序列譜,并通過(guò)多次疊代不斷改進(jìn)這一序列譜以提高搜索的靈敏度。 和其它疊代算法一樣, PSIBLAS方法既有不少長(zhǎng)處,也有它的弊病。例如,如果在比對(duì)前不把膠原蛋白、同源多聚體等低復(fù)雜度的重復(fù)序列屏蔽掉,自動(dòng)疊代搜索過(guò)程會(huì)因?yàn)檫@些重復(fù)序列的干擾而失敗( Holm, 1998)。假如第一輪的搜索結(jié)果出現(xiàn)一個(gè)錯(cuò)誤序列,那么最終搜索結(jié)果中將會(huì)出現(xiàn)許多不期望的無(wú)關(guān)序列。因此,為了盡量去除大量的錯(cuò)誤匹配,仔細(xì)分析搜索結(jié)果給出的同源關(guān)系變得非常重要。 BLAST算法 ? 算法:做任何事情都有一定的步驟。為解決一個(gè)問(wèn)題而采取的方法和步驟,就稱(chēng)為算法。 ? BLAST算法:快速高效的保證。 將查詢(xún)序列分為多個(gè)短片段及相似片段; 篩選數(shù)據(jù)庫(kù)以發(fā)現(xiàn)具備以上片段的序列; 將匹配序列進(jìn)行延伸,插入和延伸 gap,根據(jù)突變矩陣( BLOSUM62)計(jì)分排序; 返回分值最高的匹配序列 NCBI BLAST結(jié)果的評(píng)價(jià) ? 比對(duì)好壞的評(píng)價(jià): Bit分值 考慮了比對(duì)中相同和相似基團(tuán)、 gap、替代矩陣,并經(jīng)過(guò)標(biāo)化; Bit分值越高 ,比對(duì)越好 ? 比對(duì)統(tǒng)計(jì)學(xué)意義的評(píng)價(jià): E值( Evalue) E值越低 ,則比對(duì)就更有可能具有顯著性 ? 其他:比對(duì)的長(zhǎng)度也是一個(gè)關(guān)鍵因素 解讀 BLAST的結(jié)果 ? header。給出查詢(xún)序列的信息和查詢(xún)的數(shù)據(jù)庫(kù)名稱(chēng)。 ? 每一條匹配序列的描述。包括圖形化方式和在線(xiàn)的文字描述。 ? 每個(gè)匹配序列與查詢(xún)序列的比對(duì)情況。 BLAST程序的選擇 ? 蛋白: BLASTP- tBLASTN ? 核酸: blastnblastxtblastx ? 數(shù)據(jù)庫(kù)的選擇: nr最為常用; month跟蹤每個(gè)月新增數(shù)據(jù); swissprot蛋白庫(kù)注釋詳盡 比對(duì)結(jié)果是否有意義的判定 ? 統(tǒng)計(jì)學(xué)顯著性 ? 一致性:蛋白序列 25%,核酸序列70%(參考) ? 長(zhǎng)度 FastA搜索 FastA算法是由 Lipman和 Pearson于 1985年發(fā)表的( Lipman和 Pearson, 1985)。FastA的基本思路是識(shí)別與代查序列相匹配的很短的序列片段,稱(chēng)為 ktuple。 蛋白質(zhì)序列數(shù)據(jù)庫(kù)搜索時(shí),短片段的長(zhǎng)度一般是 12個(gè)殘基長(zhǎng); DNA序列數(shù)據(jù)庫(kù)搜索時(shí),通常采用稍大點(diǎn)的值,最多為 6個(gè)堿基。通過(guò)比較兩個(gè)序列中的短片段及其相對(duì)位置,可以構(gòu)成一個(gè)動(dòng)態(tài)規(guī)劃矩陣的對(duì)角線(xiàn)方向上的一些匹配片段。 FastA程序采用漸進(jìn)( heuristic approach)算法將位于同一對(duì)角線(xiàn)上相互接近的短片段連接起來(lái)。也就是說(shuō),通過(guò)不匹配的殘基將這些匹配殘基片段連接起來(lái),以便得到較長(zhǎng)的相似性片段。這就意味著, FastA輸出結(jié)果中允許出現(xiàn)不匹配殘基。這和 BLAST程序中的成對(duì)片段類(lèi)似。如果匹配區(qū)域很多, FastA利用動(dòng)態(tài)規(guī)劃算法在這些匹配區(qū)域間插入空位。 由 FastA搜索產(chǎn)生的典型輸出結(jié)果的第一行列出程序名稱(chēng)和版本號(hào) , 以及該程序發(fā)表的雜志 。 接下來(lái)列出所提交的序列 , 然后是所用參數(shù)和運(yùn)行時(shí)間 , 緊跟這些一般信息的是數(shù)據(jù)庫(kù)搜索結(jié)果 。 首先列出搜索得到的目標(biāo)序列簡(jiǎn)單說(shuō)明 , 其數(shù)目可由用戶(hù)定義 。 所列出的目標(biāo)序列的信息包括:序列所在數(shù)據(jù)庫(kù)名稱(chēng)的縮寫(xiě) , 目標(biāo)序列的標(biāo)識(shí)碼 、 序列號(hào)和序列名等部分信息 。 括號(hào)中標(biāo)明匹配部分的殘基數(shù) 。緊接著是由程序計(jì)算得到的初始化和優(yōu)化后的分?jǐn)?shù)值 。最后一列是期望值即 E值 , 用來(lái)判斷比對(duì)結(jié)果的置信度 。接近于 0的 E值表明兩序列的匹配不大可能是由隨機(jī)因素造成的 。 以?xún)蓷l氨基酸序列的比較為例介紹算法的基本思路,算法可以分為 4步: 第一步: FASTA首先找出進(jìn)行比較的兩條序列所有長(zhǎng)度為 Ktuple 的連續(xù)的一致序列片段。例如以下兩條蛋白質(zhì)序列: 設(shè) Ktuple =2,則序列 2中有兩個(gè)符合條件的片段 (用下劃線(xiàn)表示 ),相對(duì)于序列 1的偏移 (offset)分別是 4和 1[對(duì)于一對(duì)開(kāi)始位置為 (x1,x2)的一致片段,偏移定義為 x1x2。在上例中有兩對(duì) (x1, x2),即( 5,1)和 (5,4)]。這種片段的一致性可以表示為對(duì)角線(xiàn)圖,兩條序列中的一對(duì)一致片段在圖中表示為一段對(duì)角線(xiàn)。 (圖 6)。 圖 6 序列 FLWRTW和 STWKTWT比較形成的對(duì)角線(xiàn)圖 對(duì)于圖中每一條完整的對(duì)角線(xiàn) (即同一偏移 )上的一致片段,如果片段間距小于用戶(hù)界定的界限,則將片段連接起來(lái)作為一條一致片段。 . 本例是兩條非常短的氨基酸序列,在實(shí)際比較長(zhǎng)的蛋白質(zhì)序列或 DNA序列時(shí),對(duì)角線(xiàn)圖如圖 A所示。 對(duì)這些片段進(jìn)行計(jì)分,每一對(duì)對(duì)應(yīng)的元素,一致的加分,不一致的扣分。完成了所有一致片段的計(jì)分后,選出 10條分值最高的片段進(jìn)入下一輪計(jì)算,如圖 B FASTA將這 10對(duì)片段重新計(jì)分。這輪計(jì)分允許保守突變,對(duì)蛋白質(zhì)來(lái)就,就是使用 PAM250等替換矩陣。簡(jiǎn)單地說(shuō),替換矩陣就是對(duì)應(yīng)于 20 20種氨基酸替換 (比如 R替換成 P)的計(jì)分規(guī)則所構(gòu)成的20 20的矩陣。這種矩陣是從蛋白質(zhì)進(jìn)化實(shí)例中總結(jié)出來(lái)的經(jīng)驗(yàn)矩陣,它給予進(jìn)化上相對(duì)保守的氨基酸替換比非保守的替換更高的分值。在重新計(jì)算分值后,在每一條這樣的片段中找出分值最高的子片段,作為“初始區(qū)域” (initial region)進(jìn)入下一步。在 initial region中,最高的分值計(jì)為 initl。 第 2步: 在這一步中, FASTA選出分值高于用戶(hù)確定的界限且相互之間不重疊的初始區(qū)域,并嘗試將這些初始區(qū)域連接起來(lái)。當(dāng)然,由于連接而出現(xiàn)的缺失和插入情況要作相應(yīng)的扣分。 FASTA在這一步才考慮插入和缺失的情況,最終找出能夠得到的最高分值的初始區(qū)域或連接起來(lái)的數(shù)個(gè)初始區(qū)域。這一步計(jì)算出的最高分計(jì)為 initn。見(jiàn)圖 C 第 3步: 以 initl片段或 (initn的片段 )為中心,向前后延伸一定的長(zhǎng)度。在這樣一個(gè)區(qū)域中 (見(jiàn)圖 D中虛線(xiàn)間的區(qū)域 ),應(yīng)用 SmithWaterman算法進(jìn)行重新對(duì)齊,最終的得分計(jì)為 opt 第 4步: 在實(shí)際操作中,用戶(hù)可以在需要達(dá)到的靈感性程度和所需時(shí)間之間進(jìn)行權(quán)衡 (一般來(lái)說(shuō),要達(dá)到更高的敏感性總是需要更長(zhǎng)的運(yùn)算時(shí)間 ),決定采用 initn還是 opt作為兩條序列相似程度的分值。研究表明:使用 initn與使用 opt相比,前者損失的敏感性并不太大,但運(yùn)算速度卻快得多 (Pearson WR,1991)。
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1