【正文】
不同文庫,這些序列間具有很高的多態(tài)性,且同一基因下的EST序列的條數(shù)反應了該基因的表達豐度,所有這些冗余的EST序列是開發(fā)這類SNP標記的重要資源。針對目前分子標記數(shù)量不足、遺傳多態(tài)性不高、通用性不強、與表型性狀相關性不高的問題,本研究從公共數(shù)據(jù)庫中下載2018530條玉米EST序列,將自編的Perl程序與各種生物信息學軟件相結合,對與玉米編碼序列(coding sequence,CDS)同源的EST序列進行聚類,比對分析、拼接,從中發(fā)掘SNP位點,并開發(fā)成SNP分子標記;并從中隨機挑取標記,用HRM技術在玉米自交系中對其多態(tài)性進行驗證,為玉米QTL定位和分子標記輔助育種提供豐富有效的SNP分子標記。2 材料和方法 本地化數(shù)據(jù)分析系統(tǒng)的構建本研究的本地化數(shù)據(jù)分析系統(tǒng)是根據(jù)對玉米EST序列分析的具體要求和已有軟件的功能,利用新開發(fā)的一系列Perl腳本程序結合Blast、Phrap、EMBOSS、ePrimerePCR等程序所構建的,包括實用數(shù)據(jù)提取系統(tǒng)、本地化序列比對系統(tǒng)和SNP分子標記開發(fā)系統(tǒng)。該數(shù)據(jù)分析系統(tǒng)基于的硬件條件:Microsoft windows XP和RedHat Linux 10操作系統(tǒng)、酷睿2雙核CPU 3000MHz、4G內存、160G硬盤。 實用數(shù)據(jù)提取系統(tǒng)的構建 Perl語言平臺的安裝從ActiveState公司獲得windows系統(tǒng)下使用該軟件的許可證,然后在ActiveState官方網(wǎng)站上下載()。安裝工作就像安裝其他任何Windows應用程序一樣,本研究安裝ActivePerl [[] Schwartz R, Christiansen T, Wall L. Learning Perl (Second Edition). O’Reilly Media, July, 1997,[] 徐程.生物信息與數(shù)據(jù)處理.高等教育出版社.2006]。檢測Perl是否安裝成功,在windows操作系統(tǒng)下,命令行鍵入:perl v not PERL or Perl如果Perl輸出它的版本號(),那么就表示平臺已安裝好?!erl版本界面圖Fig. The interface of Perl version BioPerl模塊的安裝BioPerl是一組Perl語言的模塊,主要解決生物信息學中Perl編程的各種實際問題,可用來獲取分子生物學數(shù)據(jù),獲取及分析序列,序列比對,數(shù)據(jù)挖掘等[[] Stajich J. Using Perl for Bioinformatics Module 2: BioPerl. August 3, 2001,[] Stajich JE, Block D, Boulez K, et al. The Bioperl toolkit: Perl modules for the life sciences. Genome Res, 2002, 12(10): 16111618]。可通過,該網(wǎng)站內有大量的模塊和使用方法,可根據(jù)實際情況安裝需要的模塊。(1)GUI安裝用Perl Package Manager()可視安裝Bioperl模塊。它可以自動下載所有模塊目錄,搜索Bioperl模塊,并安裝?!erl Package Manager界面 The interface of GUI installation(2)命令行安裝()在命令行中輸入: ppmshellsearch bioperlinstall 在這里輸入bioperl的版本號,且可以使用參數(shù)“force”推進安裝進程?!∶钚邪惭b界面 The interface of CommandLine installation 本地化序列比對系統(tǒng)的構建 BLAST的本地化本地化BLAST軟件可直接從NCBI()上下載。根據(jù)所用計算機操作系統(tǒng),選擇與系統(tǒng)兼容的BLAST軟件,本研究下載的軟件與windows兼容[[] Altschul SF, Gish W, Miller W, et al. Basic Local Alignment Search Tool. J Mol Biol, 1990, 215: 403410]。該軟件解壓后,會產生多個文件和文件夾,可得到BLAST的各種可執(zhí)行文件。其中,formatdb是用來格式化FASTA格式的序列文件,將其按照BLAST系統(tǒng)的要求建立數(shù)據(jù)庫。,對其進行格式化, 在命令行鍵入:formatdb i p F Formatdb程序的主要參數(shù)Table Some important parameters of formatdb參數(shù)Parameter含義Meaningi輸入文件(FASTA格式的序列文件)p[T/F]T:創(chuàng)建蛋白數(shù)據(jù)庫F:創(chuàng)建核酸數(shù)據(jù)庫o[T/F]T:創(chuàng)建該序列的ID和索引F:不創(chuàng)建n創(chuàng)建數(shù)據(jù)庫的名字(如不使用該參數(shù),則默認為輸入文件名)v限制一卷的字符數(shù)(當文件所含的字符數(shù)大4G時,設定需將序列文件按給定大小分為多個卷,每卷不超過2G。) blastall程序主要參數(shù)Table Some important parameters of blastall 參數(shù)Parameter含義Meaningp數(shù)據(jù)庫搜索類型(blastn、blastx、blastp、tblastn、tblastx)i輸入文件名d搜索的數(shù)據(jù)庫(已經format后的)e序列間相似的閥值m比對的顯示方式(0~11數(shù)字供擇)o輸出文件名 BLAST系統(tǒng)的使用在BLAST軟件包中,blastall是其核心程序,用命令行的方式運行可以進行大批量的序列分析,這是本地化BLAST系統(tǒng)的優(yōu)點所在[[] 張榮志.棉花分子生物學數(shù)據(jù)庫構建及其應用.河北農業(yè)大學,2006,碩士學位論文]。blastall程序包含一系列參數(shù)。blastall中包含blastn,blastx,blastp,tblastn,tblastx五個數(shù)據(jù)庫搜索程序[[] Tao T. Program Parameters for blastall. A munity resource: , 2006],用參數(shù)“p”選擇。在命令行中輸入“blastall”,則會輸出blastall程序的開發(fā)界面()。本研究只使用blastn程序,在命令行鍵入:blastall p blastn i d m 9 e 1E20 o 。 blastall的5種數(shù)據(jù)庫搜索程序及功能Table Five programs in blastall and their function程序Program檢索序列Query sequence數(shù)據(jù)庫Database功能Functionblastn核苷酸核苷酸尋找高分值的匹配,適合于較關系blastx蛋白質蛋白質尋找較遠關系的序列blastp核苷酸蛋白質用于新的DNA和EST序列分析tblastn蛋白質核苷酸(翻譯)尋找數(shù)據(jù)庫中沒有表注的編碼區(qū)tblastx核苷酸(翻譯)核苷酸(翻譯)用于分析EST序列 blastall程序的界面圖 The interface of blast system SNP分子標記開發(fā)系統(tǒng)的構建該系統(tǒng)是以新編寫的perl程序作為控制程序,使 cross_match、pharp、eprimer3和ePCR四個程序自動執(zhí)行。 序列拼接軟件的安裝及使用(1)Swat/Cross_match/Phrap軟件包Swat/Cross_match/Phrap軟件包可以通過與相應作者聯(lián)系獲得,有關信息查詢訪問web站點()。該程序軟件包運行環(huán)境為RedHat Linux 10操作系統(tǒng),所有的軟件在安裝時首先需要從壓縮包中釋放(命令為:gzip d*,tar xfv*)出來,然后進入相應子目錄進行編譯后即可使用。本研究只使用該軟件包中的cross_match和phrap兩個程序()[[] Green P. phrap documentation. A munity resource: , 1994],軟件中包含了載體序列庫Vector,該庫需隨時到NCBI上更新。 cross_match/phrap程序功能及參數(shù)Table Function and parameters of cross_match/phrap program程序Program功能Function參數(shù)Parameter默認值Defaultcross_match去除載體序列minmatch 14minscore 30screen載體標示phrap對序列進行拼接minmatch 14maxmatch30minscore 30(2)cross_match和phrap的使用,使用cross_match和phrap程序(文件中的序列必須為FASTA格式)。首先去除載體序列,在命令行鍵入:cross_match vector minmatch 10 minscore 20 screen 輸出文件為:,用這個文件進行拼接,在命令行鍵入:phrap minmatch 20 maxmatch 40 minscore 20 運行結果包括:contig序列文件、singlet序列文件、phrap拼接文件、SNP質量文件。 引物設計程序的安裝及使用從EMBOSS的官方網(wǎng)點()上下載與windows操作系統(tǒng)兼容的embosswin ,并安裝。本研究只使用該軟件中的ePrimer3程序進行引物設計[[] Rozen S, Skaletsky H. Primer3 on the WWW for general users and for biologist programmers. Methods Mol Biol, 2000, 132: 365386]。,使用cross_match和phrap程序,在命令行鍵入: sequence productsizerange 1001500 outfile 運行結果包括:引物的序列、Tm值、引物在模板上的結合位點、PCR產物長度,默認5對候選引物,一般使用第一對(最優(yōu))引物。也可設置numreturn參數(shù)為1,直接輸出一對引物?!primer3程序標準參數(shù)Table Standard parameters of eprimer3 參數(shù)Parameter含義Meaning默認值Defaultsequence輸入序列(從5′~3′ 端)必須輸入productsizerange產物長度范圍100300bpproductosize 產物長度200bpnumreturn引物對數(shù)5minsize引物堿基的最小值 18bpmaxsize引物堿基的最大值27bpoutfile引物輸出文件名sequence.eprimer3 單一引物篩選程序的獲得及使用本研究是用ePCR程序從ePrimer3設計的引物中篩選能在玉米模式自交系“B73”基因組BAC文庫中擴增出單一條帶的引物[[] Rotmistrovsky K, Jang W, Schuler GD. A web server for performing electronic PCR. Nucleic Acids Res, 2004, 32: W108112]。該程序可直接從NCBI網(wǎng)站上(ftp://)下載。,使用ePCR程序,在命令行鍵入: w 9 f 1 m 100 d=100400 n=1 g=1 t=3運行的結果包括: PCR產物在基因組上的位置、方向及擴出條帶的數(shù)量。 ePCR程序標準參數(shù)Table Standard parameters of ePCR 參數(shù)Parameter含義Meaning默認值DefaultdSTS默認長度范圍w字體大小7m 頁邊空白50n錯配最大值0g缺失最大值0t輸出格式(4數(shù)字供擇)必須輸入o輸出文件名必須輸入 SNP分子標記的開發(fā) 原始數(shù)據(jù)來源2018530條玉米EST序列,2009年5月下載于PlantGDB();125435條玉米CDS序列和玉米模式自交系“B73”基因組BAC文庫,2009年5月下載于Maize Sequence(); EST序列前期處理用Swat/Cross_match/Phrap軟件包中的Cross_Match程序去除EST序列上的載體序列,程序使用參數(shù):minmatch 10,minscore 20。 與CDS同源的EST序列聚類將2018530條玉米EST序列文件(FASTA格式)作為比對的庫文件,并BLAST軟件中的formatdb程序對庫文件進行格式化,程序使用參數(shù):p F。用CDS序列逐一與玉米EST序列庫做同源比對,如流程圖所示()。程序使用參數(shù):p blastn m 9 e 1E10。用Perl程序提取與對應CDS序列Identify值大于90%、alignment值大于mismatch值小于14的EST序列,并以FASTA格式存放于一個文件中,用于下一步的分析。 EST序列拼接與SNP位點發(fā)掘采用Swat/Cross_match/Phr