【正文】
拼一個(gè)春夏秋冬!贏一個(gè)無(wú)悔人生!早安!—————獻(xiàn)給所有努力的人.學(xué)習(xí)參考。不奮斗就是每天都很容易,可一年一年越來(lái)越難。是狼就要練好牙,是羊就要練好腿。注窗體頂端窗體底端Powered by///. Gibson (1996)). Issues in pro,).In CLUSTALWderived profiles those sequences that are more distantly related are assigned higher weights (,file is a table of positionspecific scores and gap penalties, representing an homologous family, that may be used to search sequence databases (Ref.:Profile此外,隨機(jī)的氨基酸序列也可能出現(xiàn)短小的序列模式,故易產(chǎn)生假陽(yáng)性,對(duì)于此類(lèi)搜索需要搜索多個(gè)不同的數(shù)據(jù)庫(kù),得到盡可能多得同源序列,從而才能更好的說(shuō)明序列中包含的信息。例如,“Lx(6)Lx(6)Lx(6)L”(x表示任意氨基酸)為亮氨酸拉鏈結(jié)構(gòu)的序列模式,這樣一段序列多處于蛋白質(zhì)的活性區(qū)域或重要結(jié)構(gòu)區(qū),較為保守,是motif搜索的目標(biāo)之一。Pattern常見(jiàn)的蛋白質(zhì)結(jié)構(gòu)motif,種類(lèi)超過(guò)28類(lèi)。一般指構(gòu)成任何一種特征序列的基本結(jié)構(gòu),但是多數(shù)情況下是指可能具有分子功能、結(jié)構(gòu)性質(zhì)或家族成員相關(guān)的任何序列模式。Motif模體EvaluePvalueBits scores結(jié)構(gòu)功能域通常由25~300個(gè)氨基酸殘基組成,不同蛋白質(zhì)分子中結(jié)構(gòu)域的數(shù)目不同,同一個(gè)蛋白質(zhì)分子中的幾個(gè)結(jié)構(gòu)域彼此相似或者不盡相同。Domain保守域指2個(gè)或2個(gè)以上的串聯(lián)核心序列由3個(gè)或3個(gè)以上的連續(xù)的非重復(fù)堿基分隔開(kāi),但這種連續(xù)性的核心序列重復(fù)數(shù)不少于5。指在SSR的核心序列之間有3個(gè)以下的非重復(fù)堿基,但兩端的連續(xù)重復(fù)核心序列重復(fù)數(shù)大于3。指核心序列以不間斷的重復(fù)方式首尾相連構(gòu)成的DNA。簡(jiǎn)單重復(fù)序(SSR)也稱(chēng)微衛(wèi)星DNA,其串聯(lián)重復(fù)的核心序列為1一6 bp,其中最常見(jiàn)是雙核苷酸重復(fù),即(CA) n和(TG) n每個(gè)微衛(wèi)星DNA的核心序列結(jié)構(gòu)相同,重復(fù)單位數(shù)目10一60個(gè),其高度多態(tài)性主要來(lái)源于串聯(lián)數(shù)目的不同。根據(jù)重復(fù)序列的重復(fù)單位的長(zhǎng)度,可將串聯(lián)重復(fù)序列分為衛(wèi)星DNA、微衛(wèi)星DNA、小衛(wèi)星 DNA等。發(fā)現(xiàn)的串聯(lián)重復(fù)序列主要有兩類(lèi):一類(lèi)是由功能基因組成的(如rRNA和組蛋白基因);另一類(lèi)是由無(wú)功能的序列組成的。根據(jù)重復(fù)序列在基因組中的分布形式可將其分為串聯(lián)重復(fù)序列(Tandem Repeats Sequence,TRS)和散布重復(fù)序列(Dispersed Repeats Sequence,DRS)。E=kmne^(λs)RNA Integrity Number (RIN)The RNA integrity number (RIN) is a software tool designed to help scientists estimate the integrity of total RNA samplesTRS、DRS、SSR你可能會(huì)想為搜索設(shè)定一個(gè)期望值閥值(EXPECT),例如Defaults值設(shè)為10。這一數(shù)值越接近零,發(fā)生這一事件的可能性越小。noredudant protein(非冗余蛋白質(zhì))像ncbi里邊,因?yàn)椴扇〉脑瓌t是100%identical的才merge到一起去,所以它的database里邊那種nr nucleotide/protein,其實(shí)有很多都是REDUNDANT的,需要你自己manually curate.Evalue基因識(shí)別的核心是確定全基因組序列中所有基因的確切位置。什么是基因組注釋基因組注釋(Genomeannotation) 是利用生物信息學(xué)方法和工具,對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋,是當(dāng)前功能基因組學(xué)研究的一個(gè)熱點(diǎn)。人類(lèi)基因組序列草圖分析結(jié)果表明,人類(lèi)基因組CpG島約為28890個(gè),大部分染色體每1 Mb就有5—15個(gè)CpG島,平均值為每Mb含10.5個(gè)CpG島,CpG島的數(shù)目與基因密度有良好的對(duì)應(yīng)關(guān)系[9]。碳位共價(jià)鍵結(jié)合一個(gè)甲基基團(tuán)。什么是DNA甲基化CpG島,英文名稱(chēng):CpG island定義:位于多種脊椎動(dòng)物已知基因轉(zhuǎn)錄起始位點(diǎn)周?chē)?、由胞嘧?C)和鳥(niǎo)嘧啶(G)組成的串聯(lián)重復(fù)序列。用于概括涉及基因作圖、測(cè)序和整個(gè)基因組功能分析的遺傳學(xué)分支。目前在腫瘤的研究中認(rèn)為印記缺失是引起腫瘤最常見(jiàn)的遺傳學(xué)因素之一。印記的基因只占人類(lèi)基因組中的少數(shù),可能不超過(guò)5%,但在胎兒的生長(zhǎng)和行為發(fā)育中起著至關(guān)重要的作用。印記基因的存在能導(dǎo)致細(xì)胞中兩個(gè)等位基因的一個(gè)表達(dá)而另一個(gè)不表達(dá)。因此,必須依靠大規(guī)模計(jì)算模擬技術(shù),從海量信息中提取最有用的數(shù)據(jù)。什么是計(jì)算生物學(xué)計(jì)算生物學(xué)是指開(kāi)發(fā)和應(yīng)用數(shù)據(jù)分析及理論的方法、數(shù)學(xué)建模、計(jì)算機(jī)仿真技術(shù)等。什么是表觀遺傳學(xué)表觀遺傳學(xué)是研究基因的核苷酸序列不發(fā)生改變的情況下,基因表達(dá)了可遺傳的變化的一門(mén)遺傳學(xué)分支學(xué)科。什么是比較基因組學(xué)比較基因組學(xué)(ComparativeGenomics)是基于基因組圖譜和測(cè)序基礎(chǔ)上,對(duì)已知的基因和基因組結(jié)構(gòu)進(jìn)行比較,來(lái)了解基因的功能、表達(dá)機(jī)理和物種進(jìn)化的學(xué)科?;虻墓δ馨ǎ荷飳W(xué)功能,如作為蛋白質(zhì)激酶對(duì)特異蛋白質(zhì)進(jìn)行磷酸化修飾;細(xì)胞學(xué)功能,如參與細(xì)胞間和細(xì)胞內(nèi)信號(hào)傳遞途徑;發(fā)育上功能,如參與形態(tài)建成等。這是在基因組靜態(tài)的堿基序列弄清楚之后轉(zhuǎn)入對(duì)基因組動(dòng)態(tài)的生物學(xué)功能學(xué)研究。該基因有可能翻譯出融合或嵌合體蛋白。有參考基因組重構(gòu),是指先將read貼回到基因組上,然后在基因組通過(guò)reads覆蓋度,junction位點(diǎn)的信息等得到轉(zhuǎn)錄本,常用工具包括scripture、cufflinks。其中denovo組裝是指在不依賴參考基因組的情況下,將有overlap的reads連接成一個(gè)更長(zhǎng)的序列,經(jīng)過(guò)不斷的延伸,拼成一個(gè)個(gè)的contig及scaffold。什么是轉(zhuǎn)錄本重構(gòu)用測(cè)序的數(shù)據(jù)組裝成轉(zhuǎn)錄本。Fragment比read的含義更廣,因此FPKM包含的意義也更廣,可以是pairend的一個(gè)fragment,也可以是一個(gè)read。FPKM與RPKM計(jì)算方法基本一致。FPKM(fragments per kilobase of exon per million fragments mapped).每1百萬(wàn)個(gè)map上j的reads中map到外顯子的每1K個(gè)堿基上的reads個(gè)數(shù)。RNAseq是透過(guò)次世代定序的技術(shù)來(lái)偵測(cè)基因表現(xiàn)量的方法,在衡量基因表現(xiàn)量時(shí),若是單純以map到的read數(shù)來(lái)計(jì)算基因的表現(xiàn)量,在統(tǒng)計(jì)上是一件相當(dāng)不合理事,因?yàn)樵陔S機(jī)抽樣的情況下,序列較長(zhǎng)的基因被抽到的機(jī)率本來(lái)就會(huì)比序列短的基因較高,如此一來(lái),序列長(zhǎng)的基因永遠(yuǎn)會(huì)被認(rèn)為表現(xiàn)量較高,而錯(cuò)估基因真正的表現(xiàn)量,所以Ali Mortazavi等人在2008年提出以RPKM在估計(jì)基因的表現(xiàn)量是將map到基因的read數(shù)除以map到