freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

腫瘤信息基因啟發(fā)式寬度優(yōu)先搜索算法研究-wenkub.com

2024-08-31 20:03 本頁(yè)面
   

【正文】 greid. Learning Rough Set Classifiers from Gene Expressions and Clinical Data. Fundamenta Informaticae, 2020, 53: 155–183. 13 Khan J, Wei JS, Ringner M, et al. Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural works[J]. Nature Med, 2020,7: 673679. 14 SungBae Cho and HongHee Won. Machine learning in DNA microarray analysis for cancer classification. Proceedings of the First AsiaPacific Bioinformatics Conference on Bioinformatics, 2020, 189198. 15 Ron Kohavi, Gee H. John. Wrappers for feature subset selection. Artificial Intelligence, 1997,97(12): 273324. 16 Momiao Xiong, Xiangzhong Fang, and Jinying Zhao. Biomarker identification by feature wrappers. Genome Research, 2020, 11: 18781887. 17 Li YingXin, Li JianGeng, and Ruan XiaoGang. Study of informative gene selection for tissue classification based on tumor gene expression profiles. Chinese journal of puters, 2020, 29(2): 324330.(In Chinese) 18 李穎新 , 阮曉鋼 . 基于支持向量機(jī)的腫瘤分類(lèi)特征基因選取 . 計(jì)算機(jī)研究與發(fā)展 ,2020,42(10): 17961801. 19 Edmundo Bonilla Huerta, B233。例如, (1) 多類(lèi)別腫瘤分類(lèi)問(wèn)題研究得還不夠充分 ; (2) 信息基因選擇算法的優(yōu)劣 程度除根據(jù)其分類(lèi)性能作為評(píng)估準(zhǔn)則外,還沒(méi)有其 它統(tǒng)一的準(zhǔn)則來(lái)評(píng)估; (3) 腫瘤樣本集的規(guī)模過(guò)于小而影響評(píng)估的準(zhǔn)確度和可信度 ; (4) 腫瘤樣本數(shù)據(jù)集的數(shù)據(jù)格式不統(tǒng)一; (5) SVM 分 類(lèi)模型中 最佳 參數(shù) 選擇 問(wèn)題還需 更 有效的算法 ; (6) 腫瘤分類(lèi)模型的實(shí)用化研究; (7) 選出 的 腫瘤分類(lèi)信息 基因子集 還需要在 生物醫(yī)學(xué) 實(shí)踐中進(jìn)一步驗(yàn)證 ; (8) 腫瘤相關(guān)基因在不同人種中的表達(dá)差異性 。 實(shí)驗(yàn)采用三種腫瘤 基 因表達(dá)譜樣本 集 驗(yàn)證了這種新算法的可行性和有效性,對(duì)于急性白血病 樣本 集 ,只需 2 個(gè)基因就能獲得 100%的 全折 CV 分類(lèi) 準(zhǔn)確率, 對(duì)于難以分類(lèi)的結(jié)腸癌樣本 集 ,只需 4 個(gè)基因就可獲得 100%的 4折 CV 分類(lèi) 準(zhǔn)確率 , 但其全折 CV 分類(lèi)準(zhǔn)確率卻為 %, 而對(duì)于多腫瘤亞型 SRBCT 數(shù)據(jù)集,同樣只需 4 個(gè)信息基因就能獲得 100%的 全 折 CV 分類(lèi)準(zhǔn)確率 。ve Bayes) Leukemia 5 100% [41] Colon 3 % 15 6 遺傳算法 (Geic Algorithms) SVM Leukemia 6 100% [42] Colon 12 % 7 修訂的局部線(xiàn)性嵌入 (Revised locally linear embedding,LLE) SVM(RBF kernel) Leukemia % [43] Colon % 8 多 目 標(biāo) 演 化 算 法 (Multiobjective Evolutionary Algorithms) 基因表達(dá)差異判別 Leukemia 4 100% [44] Colon 7 % 9 遞歸特征刪除方法 (Recursive Feature Elimination, RFE) SVM Leukemia 2 100% [10] Colon 4 % 10 修訂的特征記分準(zhǔn) 則與 兩兩冗余分析 (RFSC and Pairwise Redundancy Analysis) SVM(RBF kernel) Leukemia 16 100% [18] 11 修訂的特征記分準(zhǔn)則與因子分析 (RFSC and Factor Analysis) SVM(RBF kernel) Leukemia 100% [24] Colon % 12 修訂的特征記分準(zhǔn)則與獨(dú)立分量分析 (RFSC and Independent Component Analysis) SVM(RBF kernel) Leukemia 100% [25] Colon % 13 基因?qū)Ψ诸?lèi)和不同疾病的重要性 ANN SRBCT 96 100% [45] 14 GESSES(geic evolution of subsets of expressed sequences) kNN SRBCT 12177。 還有很多信息基因 沒(méi)有查到相關(guān)醫(yī)學(xué)文獻(xiàn),有些可能已被研究,但還有些信息基因可能沒(méi)有被研究過(guò)。圖 4 繪制了 急性白血病數(shù) 據(jù)集的兩 基因 子集 {X95735, HG1612HT1612}構(gòu)成的二維散點(diǎn)圖 ,這兩個(gè)基因的全折交叉驗(yàn)證分類(lèi)準(zhǔn)確率為 100%,從圖中也能看出兩類(lèi)樣本能夠被清晰地分開(kāi),樣本邊界非常清楚。對(duì)比表 4 和 表 5 發(fā)現(xiàn),采用方法 2 和 3 獲得的最佳信息基因子集的數(shù)量比采用方法 1 獲得的最佳信息基因子集的數(shù)量多,所以可以 得出方法 2 和 3 略?xún)?yōu)于方法 1 的結(jié)論 , 也就是說(shuō),采用秩和檢驗(yàn)統(tǒng)計(jì)量初選信息基因的方法優(yōu)于采用 Bhattacharyya 特征記分準(zhǔn)則初選信息基因的方法。 10 圖 3 Leukemia 和 Colon Tumor 兩個(gè)數(shù)據(jù)集 的 )701( ?? itopi 的分能性能比較 實(shí)驗(yàn)結(jié)果 表 4 給出了 采用 方法 1 在三種腫瘤數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn) 所獲得的 部分實(shí)驗(yàn)結(jié)果 ,表中的 C 和 ? 欄 表示分類(lèi)器 SVM( RBF) 所需要的參數(shù),其值表示 相應(yīng)基因子集獲得最高 4折交叉驗(yàn)證分類(lèi)準(zhǔn)確率時(shí)的參數(shù)取值(最佳參數(shù)對(duì)的取值 并不是唯一的) , max 欄表示 相應(yīng)基因子集獲得的最 高 4折交叉驗(yàn)證分類(lèi)準(zhǔn)確率, mean和 std 分別表示相應(yīng)基因子集 的全折交叉驗(yàn)證分類(lèi)準(zhǔn)確率和標(biāo)準(zhǔn)差 。 表 3 實(shí)驗(yàn)中 針對(duì)三種 腫瘤樣本 集 的閾值設(shè)定情況 實(shí)驗(yàn)方法 數(shù)據(jù)集 兩基因子集 三基因子集 四基因子集 方法 1 BFSC+HBSA+SVM Leukemia 100%( 7 個(gè)) N N Colon Tumor 90%( 129 個(gè)) 95%( 137 個(gè)) 100%( 2 個(gè)) SRBCT 82%( 216 個(gè) ) 96%( 92 個(gè)) 100%( 433 個(gè)) 方法 2 Wilcoxon+HBSA+SVM Leukemia 100%( 14 個(gè)) N N Colon Tumor 90%( 230 個(gè)) 95%( 307 個(gè)) 100%( 7 個(gè)) 方法 3 KruskalWallis+HBSA+SVM SRBCT 83%( 221 個(gè)) 96%( 93 個(gè)) 100%( 504 個(gè)) 實(shí)驗(yàn)結(jié)果 與分析 FSC 與 BFSC方法的比較 首先采用 FSC 和 BFSC 兩種 特征記分準(zhǔn)則 為每一個(gè)基因 Gg? 計(jì)算分值,然后 按每一個(gè)基因分值大小降序排列基因,并記 itop 表示排在前面的 i 個(gè)基因 所構(gòu)成的信息基因子集,圖 3 繪制了 針 對(duì) Leukemia 和Colon Tumor 兩種數(shù)據(jù)集的 )701( ?? itopi 的 4折交叉驗(yàn)證分類(lèi)準(zhǔn)確率的變化情況 。 表 2 SRBCT 數(shù)據(jù)集的特點(diǎn)描述 腫瘤亞型 原數(shù)據(jù)集 訓(xùn)練集 測(cè)試集 EWS 29 23 6 9 NB 18 12 6 RMS 25 20 5 BL 11 8 3 NonSRBCT 5 0 5 Total 88 63 25 實(shí)驗(yàn)方法 針對(duì) Leukemia、 Colon Tumor和 SRBCT 三種腫瘤樣本集分別設(shè)計(jì)了三種實(shí)驗(yàn)方法: BFSC+HBSA+SVM、Wilcoxon+HBSA+SVM 和 KruskalWallis+HBSA+SVM,分別把這三種方法命名為方法 方法 2 和方法 3。 表 1 網(wǎng)上發(fā)布的 與腫瘤有關(guān)的 二分類(lèi) 樣本 集 ( Leukemia 和 Colon Tumor) 序號(hào) 數(shù)據(jù)集名稱(chēng)與下載網(wǎng)址 基因數(shù)量 樣本總量 正類(lèi)樣本數(shù)量 負(fù)類(lèi)樣本數(shù)量 1 急性白血病數(shù)據(jù)集 (Leukemia Dataset)[1] 7,129 72 47(ALL) 25(AML) 2 結(jié)腸癌數(shù)據(jù)集 (Colon Tumor Dataset)[33] 2,000 62 40(Tumor) 22(Normal) 我們從網(wǎng)站 下載了 SRBCT 數(shù)據(jù)集,該數(shù)據(jù)集包括 88個(gè)樣本,每一個(gè)樣本包含 2,308 個(gè)基因。 然而在 HBSA 算法中直接采用全折交叉驗(yàn)證分類(lèi)準(zhǔn)確率作為啟發(fā)信息會(huì)大幅增加計(jì)算量,因此我們 首先 采用 計(jì)算量相對(duì)較小的 4折 交叉驗(yàn)證 分類(lèi)準(zhǔn)確率作為 HBSA 算法的啟發(fā)信息, 搜索出所有具有最 高 4折交叉驗(yàn)證分類(lèi)準(zhǔn)確率的 最佳信息 基因子集 *A 后,再采用 全折交叉驗(yàn)證方法來(lái)評(píng)估 *A 中的 基因子集 , 實(shí)驗(yàn)證明 采用這種評(píng)估方法獲得的分類(lèi)模型的分類(lèi)性能與具體的樣本劃分關(guān)系不大。 我們的 實(shí)驗(yàn)發(fā)現(xiàn),樣本集的不同劃分對(duì)分類(lèi)準(zhǔn)確率有一定的影響 ,且 5折或 10折交叉驗(yàn)證分類(lèi)準(zhǔn)確率也不能客觀反映腫瘤分類(lèi)模 型的泛化性能。通常 在分類(lèi)前樣本 集已經(jīng)過(guò)規(guī)格 化處理,所以樣 本集對(duì)參數(shù) C 不敏感,因此 , 在 實(shí)驗(yàn)中參數(shù) C 分別取 200、 400、 600、 800 和 1000 即可滿(mǎn)足需求 , 而參數(shù) ? 可以這樣取值:對(duì) C 的每一個(gè)取值,如果 ? 值在 110- 量級(jí)則 ? 分別取 , ? ,如果 ? 值在210- 量級(jí)則 ? 分別取 , ? ,依次類(lèi)推, 限定 ? 最小取值在 510- 量級(jí), 最大取值在 10量級(jí), 8 這相當(dāng)于在一個(gè)受限的二維網(wǎng)格上搜索最佳參數(shù)對(duì),實(shí)驗(yàn)表明這是一個(gè)有效的尋找最佳參數(shù)對(duì) ( C , ? )的方法 ,且能大 幅 減少計(jì)算量 。 支持向量機(jī) SVM 是由 Vapnik[26]提出的基于統(tǒng)計(jì)學(xué)習(xí)理論并采用結(jié) 構(gòu)風(fēng)險(xiǎn)最小化原理的一種機(jī)器學(xué)習(xí)方法,具有較強(qiáng)的泛化能力, 采用數(shù)量有限 的訓(xùn)練集就可以得到一個(gè)針對(duì)獨(dú)立測(cè)試集的分類(lèi)錯(cuò)誤率相對(duì)較小的分類(lèi)模型 。 對(duì)于能夠以 100%準(zhǔn)確率來(lái)分類(lèi)的腫瘤樣本數(shù)據(jù)集,當(dāng) HBSA 算法發(fā)現(xiàn)了能夠以 100%準(zhǔn)確率來(lái)分類(lèi)樣本集的信息基 因子集后,算法就結(jié)束了,但是對(duì)于不能夠以 100%準(zhǔn)確率來(lái)分類(lèi)的腫瘤樣本數(shù)據(jù)集, 算法則執(zhí)行到指定的迭代 深度 Depth 時(shí) 結(jié)束,但我們并不知道 Depth 設(shè)為何值比較合適, Depth 值設(shè)置不當(dāng)會(huì)導(dǎo)致求得的信息基因子集 遠(yuǎn)離最佳條件 。 //選擇前 p 個(gè)基因 構(gòu)成 初選信息 基因集合 *G ; 6. For each gene *Ggi? 7. }{:][ igiColumn ? ; 8. ][:][ iC o lu mniR o w ? ; 9. End for 10. iter:=1; 11. Repeat //第一次迭代求 CM 時(shí), CM 為一個(gè)對(duì)稱(chēng)矩陣 ,所以只需求下三角陣 ; 12. 構(gòu)造分類(lèi)矩陣 CM , 使 Row 的每一個(gè)分量依次對(duì)應(yīng)于 CM 每一行, 使 Column 依次對(duì)應(yīng)于 每一列; 13. 計(jì)算分類(lèi)矩陣 CM , ])[][(, jC o l u m niR o wA c ca ji ?= ; //計(jì)算前需要對(duì) ][][ jC o lu mniR o w ?所標(biāo)記的樣本集做規(guī)格 化處理 (均值為 0,方差為 1); 14. 把分類(lèi)矩陣 CM 轉(zhuǎn)化為一維向量 ),( 21 pwvvvV ?? ? , 使每一個(gè)分量][][].)1[( jC o l u m niR o ws e tjpiV ????- , jiacjpiV ,].)1[( ???- , 然后對(duì) V 中的 分量 按 信息 基因子集的分類(lèi)性能 指標(biāo) 降序排列 ,并選出前 w 個(gè)分量, 重新構(gòu)造 行標(biāo)記向量setiViRow ].[:][ ? , wi??1 。 下面給出 HBSA 算法實(shí)現(xiàn)的基本框架 , 算法中的 )(TAcc 可以采用 分類(lèi)器 對(duì)樣本的實(shí)際分類(lèi)準(zhǔn)確率來(lái)度量 ,我們的 實(shí)驗(yàn)采用 SVM 分類(lèi)器來(lái) 完成對(duì)腫瘤數(shù)據(jù)集的分類(lèi)任務(wù),這時(shí) )(TAcc 返回 信息基因子集 T 對(duì) 腫瘤 樣本 集 的 SVM 分類(lèi) 準(zhǔn)確率 。 HBSA 算法還可以根據(jù)具體情況靈活使用,比如在選擇每一層的待擴(kuò)展節(jié)點(diǎn)時(shí),未必每次都 固定 選擇 前 p 個(gè) 節(jié)點(diǎn),
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1