freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)學(xué)建模華中賽b題優(yōu)秀論文-文庫吧

2025-03-23 02:42 本頁面


【正文】 ,12,21,29,36,45,53,60,69,77,84,93,101,108,共268 個樣本?;虮磉_(dá)譜數(shù)據(jù)見附件1,其中前8個為未出現(xiàn)嚴(yán)重感染癥狀的數(shù)據(jù),后9個為出現(xiàn)嚴(yán)重感染癥狀的數(shù)據(jù)。(其中行代表探針號,對應(yīng)著不同的基因;列為各個個體血液樣本在各個時間節(jié)點的數(shù)據(jù))個體出現(xiàn)感染癥狀的時間節(jié)點示意圖見附件2。問題:1)根據(jù)實驗數(shù)據(jù)重構(gòu)基因調(diào)控網(wǎng)絡(luò);2)通過比較出現(xiàn)感染癥狀的志愿者和健康志愿者的樣本數(shù)據(jù),試確定病毒感染人體后導(dǎo)致志愿者是否會出現(xiàn)嚴(yán)重臨床癥狀的重要蛋白。2. 問題分析 一個基因的表達(dá)受其他基因的影響,而這個基因又影響其他基因的表達(dá),這種相互影響相互制約的關(guān)系構(gòu)成了復(fù)雜的基因調(diào)控網(wǎng)絡(luò)。更一般些,幾乎所有的細(xì)胞活動都被基因網(wǎng)絡(luò)所控制。生命是存儲并加工信息的復(fù)雜系統(tǒng),孤立地研究單個基因及其表達(dá)往往不能確切地反映生命現(xiàn)象本身的內(nèi)在規(guī)律。因此,需要從復(fù)雜系統(tǒng)的角度研究基因網(wǎng)絡(luò)。 對于問題一,考察我們?nèi)绾胃鶕?jù)已有的基因表達(dá)譜(附錄一)去重構(gòu)基因調(diào)控網(wǎng)絡(luò),從而推斷調(diào)控網(wǎng)絡(luò)各節(jié)點之間潛在的調(diào)控關(guān)系??紤]“反向分析法”來重構(gòu)基因調(diào)控網(wǎng)絡(luò),常見的基因調(diào)控網(wǎng)絡(luò)模型有布爾網(wǎng)絡(luò)模型、線性組合模型和貝葉斯網(wǎng)絡(luò)模型等等。然而題目所給的數(shù)據(jù)集十分龐大,如果直接將這一萬個基因全部帶入模型,那么計算量是驚人的。所以需要用到多元統(tǒng)計方法中的主成分分析和聚類分析去實現(xiàn)降維的操作。 對于問題二,在已經(jīng)重構(gòu)好的基因網(wǎng)絡(luò)的基礎(chǔ)上尋找導(dǎo)致病毒感染人體以后導(dǎo)致志援者是否產(chǎn)生嚴(yán)重臨床癥狀的蛋白質(zhì)。首先我們要對數(shù)據(jù)進(jìn)行分析,尋找與染病相關(guān)系數(shù)大的基因,然后依據(jù)附錄一的sheet2中對于基因的描述去進(jìn)一步確定關(guān)鍵蛋白質(zhì)。3. 模型假設(shè) 針對本問題,建立如下合理假設(shè):(1) 題目所給數(shù)據(jù)準(zhǔn)確可靠;(2)假設(shè)不考慮個體差異性;(3)基因表達(dá)呈高斯分布 ;4. 符號說明 表示第n個基因基于時間序列的第m組數(shù)據(jù); 表示一個基因; 為回歸系數(shù); 代表基因X在時間點t具有的表達(dá)值; 為常數(shù); 為誤差項。 問題一需要根據(jù)所給的基因表達(dá)譜數(shù)據(jù)來重構(gòu)基因調(diào)控網(wǎng)絡(luò),附錄一中的sheet1中給出了17個志愿者體內(nèi)的10000種基因,隨著注入病毒后的時間變化而出現(xiàn)的數(shù)值變化。由于數(shù)據(jù)集過大,所以第一步要做的就是對這一萬種基因進(jìn)行篩選降維操作。只選取部分具有代表性的數(shù)據(jù)代入模型,從而減少計算量。對于數(shù)據(jù)的處理部分,采用多元統(tǒng)計中的常用方法,主成分分析和聚類分析。 由于這道題目的數(shù)據(jù)量龐大,所以,如何篩選數(shù)據(jù)就成了很重要的一步。我們這里采取先對10000組數(shù)據(jù)做主成分分析,形成1000組新變量,再對這些新變量進(jìn)行聚類分析,進(jìn)一步降維。(1) 主成分分析的基本思想: 主成分分析的基本思想是通過構(gòu)造10000個基因初始數(shù)據(jù)的適當(dāng)?shù)木€性組合,以產(chǎn)生一系列互不相關(guān)的新變量,從中選出少數(shù)幾個新變量并使它們盡可能多地包含原先所有基因的信息(降維),從而使得用這幾個新變量替代原變量分析問題成為可能。即在盡可能少丟失信息的前提下從所研究的個變量中求出幾個新變量,它們能綜合原有變量的信息,相互之間又盡可能不含重復(fù)信息。(2) 主成分分析的實現(xiàn):設(shè)有個樣品,個變量(指標(biāo))的數(shù)據(jù)矩陣。本題中n=10000,表示10000種基因;m=268,表示基于時間序列的基因數(shù)據(jù)變化指標(biāo)。 尋找個新變量,使得彼此不相關(guān)主成分的系數(shù)向量的分量刻劃出第個變量關(guān)于第個主成分的重要性。 可以證明,若為維隨機向量,它的協(xié)方差矩陣的個特征值為,相應(yīng)的標(biāo)準(zhǔn)正交化的特征向量為,則的第主成分為。稱為主成分的貢獻(xiàn)率,為主成分的累計貢獻(xiàn)率,它表達(dá)了前個主成分中包含原變量的信息量大小,通常取使累計貢獻(xiàn)率在85%以上即可。當(dāng)然這不是一個絕對不變的標(biāo)準(zhǔn),可以根據(jù)實際效果作取舍,例如當(dāng)后面幾個主成分的貢獻(xiàn)率較接近時,只選取其中一個就不公平了,若都選入又達(dá)不到簡化變量的目的,那時常常將它們一同割舍。計算步驟如下:由已知的原始數(shù)據(jù)矩陣計算樣本均值向量; 其中計算樣本協(xié)方差矩陣其中把原始數(shù)據(jù)標(biāo)準(zhǔn)化,即,記。形成樣本相關(guān)矩陣;求的特征根及相應(yīng)的標(biāo)準(zhǔn)正交化的特征向量,可得主成分為。(3)主成分分析降維結(jié)果用Matlab實現(xiàn)以上算法(代碼見附錄),實現(xiàn)結(jié)果如下: 主成分分析結(jié)果如圖可見是一個1000組新的變量,由于數(shù)據(jù)集比較大,在這里只截出一部分。下面再對這1000組新變量做聚類分析處理。(1)聚類分析的基本思想: 聚類(clustering),簡單的講就是將一個給定的數(shù)據(jù)集分成若干個不同簇的過程。聚類算法中的簇指的是數(shù)據(jù)
點擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1