freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

提取結(jié)腸癌基因圖譜信息方法的研究doc(已修改)

2025-07-30 05:46 本頁面
 

【正文】 全國第七屆研究生數(shù)學(xué)建模競賽題 目 提取結(jié)腸癌基因圖譜信息方法的研究摘 要:本研究在分析基因表達(dá)譜數(shù)據(jù)特征的基礎(chǔ)上,研究有效提取基因圖譜信息的方法。依據(jù)給定的數(shù)據(jù),在確定結(jié)腸癌的特征基因的基礎(chǔ)上,建立判斷腫瘤基因標(biāo)簽的數(shù)學(xué)模型。首先,依據(jù)給定的數(shù)據(jù),采用“信噪比”和基因的Bhattacharyya距離等方法剔除無關(guān)基因,得到134個信息基因。然后,運(yùn)用BP神經(jīng)網(wǎng)絡(luò)和二分類Logistic回歸兩種方法篩選特征基因。通過擴(kuò)大篩選范圍,比較篩選結(jié)果,發(fā)現(xiàn):BP神經(jīng)網(wǎng)絡(luò)法得到的篩選結(jié)果穩(wěn)定性較差,但二分類Logistic回歸法得到的篩選結(jié)果保持一致。最終依據(jù)二分類Logistic回歸模型得到3個特征基因——G49G134G1582。最后建立融入所得3個特征基因信息的二分類Logistic回歸模型: 該模型各參數(shù)均能通過假設(shè)檢驗(yàn)。將G49G134G1582三個基因數(shù)據(jù)代入該模型,當(dāng)時,可以判斷為正常,%;當(dāng)時,可以判斷為不正常,%。依據(jù)給定的62個樣本,%。該模型基本解決了依據(jù)基因特征數(shù)據(jù)判定是否患癌癥的難題。另外,本文中也討論了利用噪聲模型分析噪聲對確定基因標(biāo)簽的作用,認(rèn)為噪聲對確定基因標(biāo)簽有一定的有利作用。關(guān)鍵詞:基因;特征基因;信噪比;神經(jīng)網(wǎng)絡(luò)模型;二分類Logistic回歸模型參賽密碼 (由組委會填寫) 參賽隊號10856007 隊員姓名 潘黎玫 孫琳琳 陳曼曼 中山大學(xué)承辦提取結(jié)腸癌基因圖譜信息方法的研究1 問題描述癌癥是全世界首要的死因之一。癌癥起源于正常組織在物理或化學(xué)致癌物的誘導(dǎo)下,基因組發(fā)生的突變,所以探討基因分布的改變與癌癥發(fā)生之間的關(guān)系具有深遠(yuǎn)的意義?;蛐酒亲罱鼣?shù)年發(fā)展起來的一種能快速、高效檢測DNA片段序列、基因表達(dá)水平的新技術(shù),可以通過基因芯片獲取樣本中關(guān)于基因表達(dá)的信息,即得到基因表達(dá)譜?;虮磉_(dá)譜可以用一個矩陣或一個向量來表示,矩陣或向量元素的數(shù)值大小即該基因的表達(dá)水平。隨著大規(guī)?;虮磉_(dá)譜技術(shù)的發(fā)展,人類各種組織的正常的基因表達(dá)已經(jīng)獲得,各類病人的基因表達(dá)分布圖都有了參考的基準(zhǔn),因此基因表達(dá)數(shù)據(jù)的分析與建模已經(jīng)成為生物信息學(xué)研究領(lǐng)域中的重要課題。如果可以在分子水平上利用基因表達(dá)分布圖準(zhǔn)確地進(jìn)行腫瘤亞型的識別,對診斷和治療腫瘤具有重要意義。因?yàn)槊恳环N腫瘤都有其基因的特征表達(dá)譜。從DNA芯片所測量的成千上萬個基因中,找出決定樣本類別的一組基因“標(biāo)簽”,即“信息基因”是正確識別腫瘤類型、給出可靠診斷和簡化實(shí)驗(yàn)分析的關(guān)鍵所在,同時也為抗癌藥物的研制提供了捷徑。通常由于基因數(shù)目很大,在判斷腫瘤基因標(biāo)簽的過程中,需要剔除掉大量“無關(guān)基因”,從而大大縮小需要搜索的致癌基因范圍。事實(shí)上,在基因表達(dá)譜中,一些基因的表達(dá)水平在所有樣本中都非常接近。例如,不少基因在急性白血病亞型(ALL,AML)兩個類別中的分布無論其均值還是方差均無明顯差別,可以認(rèn)為這些基因與樣本類別無關(guān),沒有對樣本類型的判別提供有用信息,反而增加信息基因搜索的計算復(fù)雜度。因此,必須對這些“無關(guān)基因”進(jìn)行剔除。面對有效提取基因圖譜信息這樣前沿性課題,需要研究解決下列問題:由于基因間相關(guān)性很強(qiáng),如何選擇最好的分類因素,從給定數(shù)據(jù)中找出與特定腫瘤相關(guān)的基因?樣本相對基因數(shù)較少,為避免小樣本學(xué)習(xí)問題,根據(jù)結(jié)腸癌數(shù)據(jù)如何減少基因特征以確定相應(yīng)基因?噪聲對基因表達(dá)譜的影響不同,建立噪聲模型分析給定數(shù)據(jù)中噪聲能否對確定基因標(biāo)簽產(chǎn)生有利影響?腫瘤研究中通常已知若干基因和某種腫瘤有密切關(guān)系,如何利用確定基因建立診斷腫瘤的模型?2 模型假設(shè)某種特定的腫瘤的致癌基因之間具有很大的相關(guān)性。在基因譜中存在無關(guān)基因,且影響腫瘤的基因是少數(shù)的幾個。噪聲對確定基因標(biāo)簽產(chǎn)生有利影響。在二分類變量(Y)中正常人群分類為1,癌癥患者分類為0,基因是自(解釋)變量。3 問題分析本題主要是研究有效提取基因圖譜信息的方法,依據(jù)給定的數(shù)據(jù),確定結(jié)腸癌的特征基因,建立可以判斷腫瘤基因標(biāo)簽的數(shù)學(xué)模型。主要研究:依據(jù)給定的數(shù)據(jù),剔除無關(guān)基因;從分類角度確定相應(yīng)的基因“標(biāo)簽”;分析給定數(shù)據(jù)中的噪聲對確定基因的影響;建立融入有助于診斷腫瘤信息的確定基因“標(biāo)簽”的數(shù)學(xué)模型。圖1 提取特征基因的流程圖4 模型建立與求解 數(shù)據(jù)描述本試驗(yàn)采用給定的結(jié)腸癌數(shù)據(jù)。該數(shù)據(jù)集中包含62個樣本,每個樣本均含有2000個基因的表達(dá)數(shù)據(jù)。其中22個樣本被診斷為正常樣本(Normal),40個被診斷為腫瘤樣本(Cancer)。樣本集的數(shù)據(jù)組織方式如表1所示。第一行為樣本標(biāo)號(如:S1,S2,…);第二行為樣本所屬類別;第一列為基因標(biāo)號;第二、三列為基因分別在EST和GenBank兩個數(shù)據(jù)庫中的代碼;第四列為基因所在區(qū)域;第五列為基因描述。表中的數(shù)值即為基因在樣本中的表達(dá)水平值。表1 樣本集的數(shù)據(jù)組織形式標(biāo)號代碼1代碼2區(qū)域描述S1S2…S61S62normal1normal2…cancer39cancer40G1…G2…………………G2000…注明:本論文中標(biāo)號(G1,G2…,G2000)指代題目中所給Excel表中internal id。 剔除無關(guān)基因由于基因數(shù)目很大,所以在判斷腫瘤基因標(biāo)簽的過程中,首先要剔除掉大量“無關(guān)基因”,從而大大縮小需要搜索的致癌基因范圍。事實(shí)上,在基因表達(dá)譜中,一些基因的表達(dá)水平在所有樣本中都非常接近。這些基因在正常樣本與腫瘤樣本兩個類別中的分布無論其均值還是方差均無明顯差別,即可認(rèn)為這些基因與樣本類別無關(guān),不會對樣本類型的判斷提供有用信息,反而會增加信息基因搜索的計算復(fù)雜度。因此,必須對這些“無關(guān)基因”進(jìn)行剔除。1999年,Golub等在進(jìn)行急性白血病的基因表達(dá)譜分析與亞型分類特征的鑒別時,曾以“信噪比”指標(biāo)作為衡量基因?qū)颖痉诸愗暙I(xiàn)大小的量度,成功的提取了信息基因、大大縮小了決定急性白血病亞型差異的基因范圍[1] Guyon I , Weston J , Barnhill S , et al . Gene selection for cancer classification using support vector machines , Machine Learning ,pp389422(2000).??梢姡m然信噪比肯定不是作為衡量基因?qū)颖痉诸愗暙I(xiàn)大小的唯一標(biāo)準(zhǔn),但是這種方法具有一定的科學(xué)性,因此,本研究采取“信噪比
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)教案相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1