freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

腫瘤基因圖譜信息提取和分類方法研究doc(編輯修改稿)

2025-08-14 14:07 本頁面
 

【文章內(nèi)容簡(jiǎn)介】 第三個(gè)問題,由于基因表達(dá)譜中不可避免地含有噪聲,有的噪聲強(qiáng)度甚至較大,對(duì)含有噪聲的基因表達(dá)譜提取信息時(shí)會(huì)產(chǎn)生偏差。為保證特征提取的有效性和分類識(shí)別的準(zhǔn)確性,本文采用不同小波基函數(shù)對(duì)基因數(shù)據(jù)進(jìn)行小波變換去噪,然后提取去噪后數(shù)據(jù)的特征信息基因,將其輸入到概率神經(jīng)網(wǎng)絡(luò)分類器,得到了更為準(zhǔn)確的分類結(jié)果。 基于小波變換的去噪方法一個(gè)含有噪聲的一維信號(hào)的模型為: (61)其中,為真實(shí)信號(hào),為噪聲,為含噪聲的信號(hào)。信號(hào)消噪的目的就是要將信號(hào)中的噪聲對(duì)真實(shí)信號(hào)的影響減小到最小的程度。在信號(hào)處理中,有用信號(hào)通常表現(xiàn)為低頻信號(hào)或是一些比較平穩(wěn)的信號(hào),而噪聲信號(hào)則通常表現(xiàn)為高頻信號(hào)。在本問題中,信息基因數(shù)據(jù)為有用信號(hào),而信息基因采集過程中產(chǎn)生的隨機(jī)誤差等為噪聲,表現(xiàn)為高頻分量?;谛〔ǖ娜ピ敕椒ň褪菍ふ业綇暮胄盘?hào)空間到小波函數(shù)空間的最佳映射,即找到的估計(jì)值,使得其均方誤差(meansquare error)最?。? (62)多分辨率理論認(rèn)為,在尺度上,可分解成小波系數(shù): , (63)小波去噪算法首先把含噪信號(hào)小波分解,并設(shè)定一閾值,低于該閾值的小波系數(shù)被認(rèn)為是噪聲產(chǎn)生的,從而被清零,留下的有效系數(shù)經(jīng)小波逆變換后得到被測(cè)信號(hào)的估計(jì)值,大體流程可用下式表示 (64)小波消噪可按以下3個(gè)步驟進(jìn)行:(1) 首先對(duì)信號(hào)進(jìn)行小波分解。選擇小波并確定小波分解的層次N,然后對(duì)信號(hào)S進(jìn)行N層小波分解。如進(jìn)行三層分解(噪聲通常含在cd1,cd2,cd3中),分解過程如圖61所示。(2)小波分解高頻系數(shù)的閾值量化。對(duì)于第1層到第N層的每一層高頻系數(shù),選擇一個(gè)閾值,并且對(duì)高頻系數(shù)用閾值收縮處理。(3) 對(duì)信號(hào)進(jìn)行重構(gòu)。根據(jù)小波分解的第N層的低頻系數(shù)和閾值量化處理后的第1層到第N層的高頻系數(shù),進(jìn)行小波重構(gòu)。重構(gòu)過程如圖62所示。圖61 信號(hào)的小波分解樹圖62 信號(hào)的小波重構(gòu)樹 基于小波變換消除基因數(shù)據(jù)噪聲誤差本文使用Matlab小波工具箱(Wavelet)進(jìn)行閾值消噪處理。首先,在Matlab 中利用ddencmp函數(shù)產(chǎn)生信號(hào)默認(rèn)閾值,然后利用wden 函數(shù)進(jìn)行消噪處理。語法結(jié)構(gòu): [XD, CXD, LXD]=wden(X, tptr, sorh, scal, n, ’wavename’)[XD, CXD, LXD]=wden(C, L, tptr, sorh, scal, n, ’wavename’)說明: [XD, CXD, LXD]=wden(X, tptr, sorh, scal, n, ’wavename’)使用小波系數(shù)閾值,返回輸入信號(hào)X除噪后的信號(hào)XD,輸出參數(shù)[CXD, LXD]表示XD的小波分解結(jié)構(gòu)。輸入?yún)?shù)中,tptr同thselect函數(shù);sorh為‘s’或‘h’表示軟硬閾值;n表示在n層上的小波分解;wavename指定小波名稱;scal定義閾值調(diào)整比例。[XD, CXD, LXD]=wden(C, L, tptr, sorh, scal, n, ’wavename’)使用同上面一樣選項(xiàng),返回直接對(duì)小波分解結(jié)構(gòu)[C, L]除噪后的信號(hào)XD,在n層上,使用‘wavename’指定的正交小波。為最大限度地消除噪聲,同時(shí)保證原始數(shù)據(jù)信息損失最小。本文分別選擇用dbdbsymhaar四種不同小波基進(jìn)行去噪,去噪前后對(duì)比如圖63所示。(a) 原始數(shù)據(jù) (b) db3 小波基去噪 (c) db5小波基去噪 (d) sym8小波基去噪 (e) haar小波基去噪圖63 不同小波基去噪前后對(duì)比圖 由上圖可知:選擇各種小波基去噪都達(dá)到了預(yù)期效果,同時(shí)很好地保留了基因數(shù)據(jù)的原始信息,所以本文分別對(duì)將這四種小波基函數(shù)去噪后的數(shù)據(jù),利用前面提出的特征提取方法,再將獲得特征信息基因集合,輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試,得到的分類實(shí)驗(yàn)結(jié)果如下表所示。表61 四種小波基去噪后選取的特征基因及分類準(zhǔn)確率選用的小波基函數(shù)db3小波db5小波sym8小波Haar小波提取的特征信息基因R08183T65758T62496H29293X73478H72965X78817U37012H78386M59371T84049R37482M26252X72018R37464M31303———R46069———X72018留一交叉校驗(yàn)準(zhǔn)確率%%%%獨(dú)立測(cè)試實(shí)驗(yàn)準(zhǔn)確率%%%100%由上表可知:利用db5小波基去噪處理后的基因數(shù)據(jù)進(jìn)行獨(dú)立測(cè)試實(shí)驗(yàn)的準(zhǔn)確率低于去噪前,說明基于該小波基函數(shù)的去噪使原始數(shù)據(jù)損失了有效信息。而利用sym8和Haar小波基函數(shù)去噪后的基因數(shù)據(jù)均得到了較高的分類準(zhǔn)確率。經(jīng)Haar小波基去噪后提取出6個(gè)特征信息基因,利用PNN進(jìn)行獨(dú)立測(cè)試實(shí)驗(yàn)的分類準(zhǔn)確率達(dá)到了100%。七、問題四的建模與求解在腫瘤研究領(lǐng)域通常會(huì)已知若干個(gè)信息基因與某種癌癥的關(guān)系密切,所以本文采用信息融合的方法,利用加權(quán)評(píng)分法(Weighted Grade, WG)建立了融入生理學(xué)確定信息基因的多信源信息融合模型。通過對(duì)PNNWG模型求解,驗(yàn)證了提出融合模型可有效提高原有分類器的準(zhǔn)確性,達(dá)到了多源信息融合的目的。 PNNWG多信源信息融合模型的建立本文設(shè)計(jì)了包含個(gè)概率神經(jīng)網(wǎng)絡(luò)和加權(quán)評(píng)分機(jī)制的多信源信息融合模型(PNNWG),模型框架如圖71所示。圖71 PNNWG多信源信息融合模型為驗(yàn)證本文方法的有效性,選用未經(jīng)小波去噪的數(shù)據(jù)所提取的特征基因子集(%)輸入概率神經(jīng)網(wǎng)絡(luò)進(jìn)行分類識(shí)別。設(shè)基于特征信息基因進(jìn)行神經(jīng)網(wǎng)絡(luò)分類的輸出向量為(即概率神經(jīng)網(wǎng)絡(luò)1的輸出向量),該網(wǎng)絡(luò)分類準(zhǔn)確率,可看作網(wǎng)絡(luò)結(jié)果的可信度。利用其他確定信息基因進(jìn)行神經(jīng)網(wǎng)絡(luò)分類的輸出向量為 (71)其中表示概率神經(jīng)網(wǎng)絡(luò)個(gè)數(shù),確定信息基因?yàn)閭€(gè),確定信息基因的可信度分別設(shè)為。對(duì)個(gè)神經(jīng)網(wǎng)絡(luò)輸出結(jié)果賦予權(quán)值為 (72)為加權(quán)評(píng)分向量,其中 (73)由于確定信息基因的分類結(jié)果可作為重要參考,具有糾正概率神經(jīng)網(wǎng)絡(luò)1的錯(cuò)誤分類的作用,故分別取,表示判斷結(jié)果為正常樣本,表示判斷結(jié)果為腫瘤樣本。設(shè)定投票評(píng)分法的閾值判據(jù)模型為: (74) 模型的求解下面結(jié)合特征提取的信息基因,引入題中給定的確定信息基因——5號(hào)染色體長臂APC基因與ras相關(guān)基因?yàn)榇_定基因樣本數(shù)據(jù),利用多信源融合網(wǎng)絡(luò)進(jìn)行分類識(shí)別,確定基因樣本數(shù)據(jù)見表71所示。表71 確定基因樣本編號(hào)及功能描述基因類型基因編號(hào)基因功能描述APC基因L35545Homo sapiens endothelial cell protein C/APC receptor (EPCR) mRNA, plete cds.ras相關(guān)基因H04311RAS GTPASEACTIVATINGLIKE PROTEIN IQGAP1 (Homo sapiens)H42477RASRELATED C3 BOTULINUM TOXIN SUBSTRATE 1 (Homo sapiens)M28214RASRELATED PROTEIN RAB3B (HUMAN)。.R22779RASRELATED PROTEIN RAB11 (HUMAN)。.R53941RASRELATED C3 BOTULINUM TOXIN SUBSTRATE 1 (Homo sapiens)T70197RASRELATED C3 BOTULINUM TOXIN SUBSTRATE 1 (Homo sapiens)T71207RASRELATED C3 BOTULINUM TOXIN SUBSTRATE 2 (Homo sapiens)X54871 mRNA for rasrelated protein Rab5b.Z29677 mRNA for rasrelated GTPbinding protein.如前所述,實(shí)驗(yàn)中同樣選取40個(gè)訓(xùn)練樣本,22個(gè)測(cè)試樣本。加權(quán)評(píng)分過程如下:Step1 將特征基因信息子集輸入概率神經(jīng)網(wǎng)絡(luò)分類器,得到測(cè)試樣本輸出向量:Step2 分別將APC相關(guān)基因和ras相關(guān)基因輸入概率神經(jīng)網(wǎng)絡(luò)分類器,分別得到測(cè)試樣本的輸出向量:和Step3 得到加權(quán)得分向量 (75) 其中,三個(gè)向量的可信度分別為,可計(jì)算得到三個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)重分別為Step4 由加權(quán)評(píng)分法的閾值判據(jù) (76)得到最終分類結(jié)果向量由結(jié)果可知,前8個(gè)正常個(gè)體測(cè)試樣本分類正確6個(gè),后14個(gè)腫瘤測(cè)試樣本分類正確13個(gè),正確率為%。與第二問分類效果相比,%。通過加權(quán)評(píng)分法對(duì)不同特征信息子集的神經(jīng)網(wǎng)絡(luò)輸出進(jìn)行信息融合,可以綜合不同類型信息,從而克服由單一特征信息提取和識(shí)別帶來的誤判。八、模型和算法評(píng)價(jià)與改進(jìn)方向 (1)本文的主要結(jié)果驗(yàn)證了提出的特征基因信息提取方法的準(zhǔn)確性和有效性,且設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)分類器可通過調(diào)用Matlab神經(jīng)網(wǎng)絡(luò)工具箱,具有編程簡(jiǎn)單、可移植性好、求解速度快的優(yōu)點(diǎn); (2)由第三問的求解可知,利用小波變換去噪方法消除數(shù)據(jù)的隨機(jī)誤差,使數(shù)據(jù)信息更加準(zhǔn)確,為特征提取提供了有利條件。利用去噪后的數(shù)據(jù)得到的分類識(shí)別準(zhǔn)確率高的優(yōu)點(diǎn); (3)利用加權(quán)評(píng)分法建立的融入生理學(xué)的確定信息基因的多信源信息融合模型可有效提高原有分類器的準(zhǔn)確性,達(dá)到了多源信息融合的目的,同時(shí)模型和算法具有簡(jiǎn)潔高效、易于編程實(shí)現(xiàn)等優(yōu)點(diǎn)。 進(jìn)一步研究的方向 (1)如果把基因表達(dá)譜看成一種信號(hào),那么我們就可以采用信號(hào)處理的方法來處理腫瘤基因表達(dá)譜樣本。 (2)有興趣深入的研究思路:PNNDS多信源信息融合模型由于時(shí)間有限,下述思路未能完全實(shí)現(xiàn),在此述及以供后續(xù)工作參考之用。為網(wǎng)絡(luò)使模型獲得更好的分類結(jié)果,可設(shè)計(jì)了包含個(gè)概率神經(jīng)網(wǎng)絡(luò)和DS證據(jù)理論的多信源信息融合模型(PNNDS),模型框架如圖81所示。圖81 PNNDS多信源信息融合模型PNNDS多信源信息融合模型的兩個(gè)重要步驟表述如下:1)概率神經(jīng)網(wǎng)絡(luò)單一特征基因信息分類識(shí)別各概率神經(jīng)網(wǎng)絡(luò)分別對(duì)不同的特征基因信息進(jìn)行分類識(shí)別,分別處理不同信息來源的數(shù)據(jù)樣本(包括提取的特征信息基因和臨床生理學(xué)信息等),由此通過區(qū)分不同來源的信息基因子集而形成個(gè)概率神經(jīng)網(wǎng)絡(luò)。2)DS證據(jù)理論決策融合將每個(gè)神經(jīng)網(wǎng)絡(luò)的輸出值經(jīng)過轉(zhuǎn)換后作為證據(jù)理論在不同特征信息基因下的獨(dú)立證據(jù),即成為各類信息的基本概率分配。每個(gè)網(wǎng)絡(luò)的診斷能力和可靠程度是不同的,因此每個(gè)網(wǎng)絡(luò)存在一個(gè)可靠性系數(shù),表示對(duì)專家判定結(jié)果的信任程度。其具體公式如下[9]:設(shè)第個(gè)網(wǎng)絡(luò)的第個(gè)輸出值為,則有 (81)式中,代表第個(gè)證據(jù)對(duì)狀態(tài)的概率分配,為不確定性的基本概率分配函數(shù),代表神經(jīng)網(wǎng)絡(luò)的個(gè)數(shù)。然后根據(jù)證據(jù)理論合并規(guī)則公式得到合并后的各狀態(tài)的基本概率分配。最后通過如下決策規(guī)則得到最終決策輸出:設(shè),滿足 (82) (83)若有 (84)則即為判定是否為致癌基因,其中、為預(yù)先設(shè)定的閾值。從方法的機(jī)理上看,PNNDS多信源信息融合模型具有以下優(yōu)點(diǎn):1)可降低每個(gè)神經(jīng)網(wǎng)絡(luò)處理數(shù)據(jù)樣本的維數(shù),充分利用概率神經(jīng)網(wǎng)絡(luò)收斂速度快和計(jì)算機(jī)并行處理能力,可以加快神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度和診斷決策時(shí)間,進(jìn)而解決高維輸入神經(jīng)網(wǎng)絡(luò)訓(xùn)練收斂速度慢和診斷時(shí)間長等問題。分類各信息基因子集的神經(jīng)網(wǎng)絡(luò)工作相互獨(dú)立,新特征基因信息增加方便,該分類識(shí)別系統(tǒng)具有可擴(kuò)展性強(qiáng)的特點(diǎn);2)通過DS證據(jù)理論對(duì)不同特征信息子集的神經(jīng)網(wǎng)絡(luò)輸出進(jìn)行信息融合,可以綜合不同類型信息,從而克服由單一特征信息提取和識(shí)別帶來的誤判。九、參考文獻(xiàn)[1] 李穎新
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1