【正文】
Protein Information Resource)為PIRInternational這個(gè)大分子序列資料收集中心所維持的蛋白質(zhì)序列資料庫(kù)此中心包括National BiomediCal Research Foundation (NBRF) Protein Information Resource (PIR),日本Japan International Protein Information Datebase Martinscried Institute for Protein Sequence (MPS) 提供了我們各個(gè)資料庫(kù)轉(zhuǎn)換成uniport的資料。(圖一)()圖一:PIR擷取碼轉(zhuǎn)換範(fàn)例例如紅框處分別為 GI資料庫(kù)裡的653 04095與 EMBL 資料庫(kù)的CR940353轉(zhuǎn)換成uniport的擷取碼為Q4U9M9。Inparanoid()裡面有物種對(duì)物種的同源蛋白序列資料,本專(zhuān)題由此資料庫(kù)擷取酵母菌()、線蟲(chóng)()、果蠅()、阿拉伯芥( na)、人類(lèi)()、大腸桿菌()的同源蛋白配對(duì)資料。共包括了5792個(gè)酵母菌蛋白質(zhì)、26819個(gè)阿拉伯芥蛋白質(zhì)、20084個(gè)線蟲(chóng)蛋白質(zhì)、13854個(gè)果蠅蛋白質(zhì)、22 (圖二)。圖二:Inparanoid同源蛋白資料範(fàn)例例如紅框中編號(hào)1的群組,、AT1G8007 。而HOMSA為Homo sapiens的縮寫(xiě),縮寫(xiě)方式為取Homo的前面三個(gè)字母與sapiens前面兩個(gè)字母,其他物種也是以此方式進(jìn)行縮寫(xiě)。(二)專(zhuān)題進(jìn)行 本專(zhuān)題為了讓在研究過(guò)程更有計(jì)畫(huà),並且進(jìn)行重點(diǎn)式的研究,所以製作了專(zhuān)題流程表(表一)。表一:專(zhuān)題流程圖(1)進(jìn)行資料整合 由於PIR提供的資料過(guò)於凌亂(圖一),所以我們利用程式,先進(jìn)行整理,整理出7個(gè)資料庫(kù)對(duì)應(yīng)UNIPORT的擷取碼,例如CYGD有6644筆、Wormbase有22833筆、TAIR有26459筆 、Ensembl有223568筆、dictyBase有12750筆、FlyBase有38724筆