freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

腫瘤信息基因啟發(fā)式寬度優(yōu)先搜索算法研究(參考版)

2024-09-08 20:03本頁面
  

【正文】 atrice Duval, and JinKao Hao. A hybrid GA/SVM approach for gene selection and classification of microarray data. EvoWorkshops, 2020, 3444. 20 邊肇祺,張學(xué)工 . 模式識別 (第二版 ). 北京 : 清華大學(xué)出版社 , 2020, . 21 朱云華,李穎新,阮曉鋼 . 基于基因表達譜的 SRBCT 分類研究 . 計算機工程與應(yīng)用, 2020, 41(1): 221223. 22 鄧林,馬盡文,裴健 . 秩和基因選取方法及其在腫瘤診斷中的應(yīng)用 . 科學(xué)通報。rsett, Fekadu Yadetie, Arne K. Sandvik, Astrid L230。這些問題都是我們今后需 要 重點 開展的研究 工作 。 目前,雖然針對腫瘤分類問題已經(jīng)開展 了大量研究, 但仍然還有許多問題需要解決。 與其它腫瘤分類 方法 對于同樣的樣本 集所獲得的實驗結(jié)果 相比, 采用HBSA 算法 獲得的 實驗結(jié)果具有明顯的優(yōu)越性 ,不僅分類準確率高而且所選出的 信息基因數(shù)量 非常 少 ,只需 3 或 4 個,與假設(shè)一致 。 本文 提出的 HBSA 算法是一種信息基因選擇的 FilterWrapper 算法 ,其分類過程模型屬迭代模型 , 能夠 盡可能 多地選出 基因 數(shù)量 盡 可能少而分類能力盡可能強的候選信息基因子集。 2 100% [46] 5 研究 結(jié)論與未來工作 一次 實驗 就能同時測出成千上萬個基因表達的 DNA 微陣列技術(shù)的出現(xiàn)為腫瘤學(xué)的研究提供了一種全新的研究方法,并在醫(yī)學(xué)制藥和臨床應(yīng)用領(lǐng)域備受關(guān)注,因此采用基因表達譜對腫瘤進行分類檢測正逐步形成生物信息學(xué)的一個重要研究領(lǐng)域。 表 6 針對 三種 腫瘤樣本 集的不同分類方法所獲得的分類實驗結(jié)果比較 序號 基因 選擇 或特征抽取 方法 分類器 樣本集 信息基因數(shù)量 識別精度 參考文獻 1 BFSC或秩和檢驗方法 啟發(fā)式寬度優(yōu)先搜索 (HBSA) SVM(RBF kernel) Leukemia 2 100% 本文 Colon 4 100% SRBCT 4 100% 3 特征記分 準則 (Feature Score Criterion, FSC) SVM Leukemia % [40] Colon % 4 模糊邏輯與遺傳算法 (Fuzzy Logic and GA) SVM Leukemia 25 100% [19] Colon 10 % 5 采用 ReliefF 進行基因初 選,然后采用HykGene 進行精選 樸素 Bayes 分類器 (Na239。 相關(guān)工作 比較 正是 因為基于基因表達譜的腫瘤分類檢測方法很有希望應(yīng)用于醫(yī)學(xué)臨床診斷, 所以腫瘤分類問題得到廣泛研究 ,表 6 給出了針對 三 種 腫瘤樣本 集采用不同 的 基因選擇方法 或特征抽取方法的分類實驗結(jié)果 的比較情況 ,這些都是目前腫瘤分類問題 研究中獲得的非常好的實驗結(jié)果 。 13 圖 4 急性白血病數(shù)據(jù)集的兩個基因 {X95735, HG1612HT1612}構(gòu)成的二維散點圖 圖 5 結(jié)腸癌 數(shù)據(jù)集的兩個基因 {J02854, R08021}構(gòu)成的二維散點圖 14 圖 6 SRBCT 數(shù)據(jù)集的三 個基因 {207274, 812105, 43733}構(gòu)成的三 維散點圖 實驗結(jié)果的生物醫(yī)學(xué)解釋 根據(jù)生物醫(yī)學(xué)文獻可 知,所發(fā)現(xiàn)的許多分類能力強的信息基 因多與腫瘤的發(fā)生發(fā)展存在密切聯(lián) 系,例如,基因X95735 和 M23197 是與白血病密切相關(guān)的兩個基 因 [34, 35]; 基因 M36634(Vasoactive Intestinal Peptide,VIP)則與結(jié)腸癌存在密切關(guān)系 [36, 37], VIP 可促進結(jié)腸癌細胞 系 Lovo 和 HT29 等的 增值和 AOM 誘發(fā)的結(jié)腸癌的生長,并能使癌細胞鳥氨酸脫羧酶活性升高和 ODC_mRNA 含量增加;基因 H06524(Gelsolin Precursor) 在幾種癌細胞中都是低表達的 [38], Gelsolin 是一種控制細胞凋亡的多功能 肌動蛋白。 圖 5 繪制了 結(jié)腸癌 數(shù)據(jù)集的兩 基因 子集 {J02854, R08021}構(gòu)成的二維散點圖 ,這兩個基因的全折交叉驗證分類準確率為 %,由圖可知兩類樣本并不能被清晰地分開,樣本邊界比較模糊,當然可采用三基因子集 {J02854,R08021,U30825}來繪制三維散點圖, 這樣 兩類樣本的邊界會更清晰一些 。 表 5 采用 方法 2 和 3 獲得的 部分 實驗結(jié)果 Dataset 序號 基因組合 4折 CV CV 準確率 % C ? max mean std Leukemia 1 {M23197, M31523} 200 100 2 {M23197, Y07604} 200 100 3 {M23197, U46751} 200 100 4 {M23197, U88666} 200 100 5 {X95735, HG1612HT1612} 200 100 100 0 6 {M31523, X62654} 200 100 7 {M31523, L47738} 200 100 8 {M31523, X85116} 200 100 9 {L09209, X68560} 200 100 100 0 10 {L09209, L07633} 200 100 11 {M63379, Z15115} 200 100 12 {X59417, Y07604} 200 100 Colon 1 {H23544, D42047} 1000 12 Tumor 2 {R87126, K03460, R08021} 200 3 {J02854, R08021,U30825} 200 4 {J02854, R08021, T70062} 200 5 {J02854, R08021, H55758} 200 6 {T60155, U09587, R08021} 800 7 {U02493, X12496, M16937} 200 8 {H06524, M58050, R62549, H24030} 200 100 9 {T60155, U09587, R08021, M58050} 200 100 10 {H24030, X12496, R08021, T51858} 200 100 11 {X12496, R08021, R67999, T70062} 400 100 12 {X12496, R08021, L28010, D00860} 200 100 SRBCT 1 {52076, 812105} 200 2 {207274, 812105, 43733} 200 3 {770394, 207274, 812105, 491565} 200 100 4 {295985, 207274, 629896, 1435862} 200 100 5 {295985, 784224, 624360, 810057} 800 100 6 {1435862, 207274, 812105, 383188} 200 100 7 {1435862, 629896, 207274, 21652} 200 100 8 {1435862, 629896, 207274, 812105} 200 100 9 {52076, 244618, 812105, 43733} 200 100 10 {377461, 207274, 812105, 25499} 200 100 11 {770394, 207274, 812105, 25499} 200 100 100 0 12 {295985, 207274, 878652, 365826} 200 100 分類結(jié)果的可視化 分類結(jié)果的可視化對于腫瘤的臨床診斷是很有意義的,它能幫助醫(yī)務(wù)人員以可視化的方式分析臨床樣本并積累診斷經(jīng)驗。 實驗結(jié)果與我們的假設(shè)非常吻合,表明 只需 3 或 4 個信息基因就能以很高的分類準確率分類腫瘤樣本集的 假設(shè)是成立的。 表 5 給出了采用方法 2 和方法 3 所獲得的部分實驗結(jié)果,表中欄目的含義同表 4。 由 實驗結(jié)果可知,分值高的基因組合在一起未必能獲得高的分類準確率 ,參數(shù) C 的取值可以固定為 200 以進一步減少搜索最佳參數(shù)對的計算量 。 因此,從總體上說,在選擇信息基因方面 BFSC 方法 略 優(yōu)于 FSC 方法,所以,我們采用 BFSC 方法首先選出前 300 個 基因 作為初選信息基因子集 *G ,然后在這 300個基因范圍內(nèi)采用 HBSA 算法進一步精選信息基因子集。 比較發(fā)現(xiàn),對于Leukemia 數(shù)據(jù)集, 采用 BFSC 方法選出的信息基因子集的分類性能略 優(yōu)于 FSC,盡 管兩種方法都能選 出 CV準 確率高達 100% 的信 息基因子集 ,但采用 BFSC 方法選出的獲 得 100%CV 分類準確率的信息基因子集比采 用 FSC 方 法 所獲得的要多。 針對每一個腫瘤樣本集,當算法執(zhí)行結(jié)束時便可獲得最佳信息基因子集集合 *A ,但由于 *A 中的信息基因子集是通 過 4折交叉驗證方法獲取的,其分類準確率可能受樣本集的不同劃分的影響,所以我們還可進一步采用全折交叉驗證方法來評估 *A 中的信息基因子集的分類性能以優(yōu)選出更客觀的信息基因子集。表 3 描述了 采用三種實驗方法 分別 對三種腫瘤樣本集的閾值設(shè)定情況,現(xiàn)以 采用 方法 1 對 Colon Tumor 數(shù)據(jù)集進行分類 加以說明: 首先采用 BFSC 記分準則選出前 300 個信息基因,然后采用 HBSA+SVM 算法 計算 每兩個基因子集對樣 本的分類情況,設(shè)定閾值為 90%,則分類準確率大于 90%的兩基因子集共發(fā)現(xiàn) 129個,再以這 129 個兩基因子集為基礎(chǔ)搜索三基因子集,發(fā)現(xiàn)分類準確率大于 閾值 95%的三基因子集共有 137個,最后再以此為基礎(chǔ)搜索四基因子集,發(fā)現(xiàn)分類準確率為 100%的四基因子集共有 2 個,搜索結(jié)束。 測試樣本集包括 6 個 EWS 樣本、 5 個 RMS 樣本、 6 個 NB 樣本、 3 個 BL 樣本和 5 個非腫瘤樣本, 在我們的 實驗中 去掉了這 5 個非腫瘤樣本。根據(jù)發(fā)布者的建議 ,樣本被劃分為 63 個訓(xùn)練樣本和 25 個測試樣本,且測試樣本集中 包括 5 個與腫瘤無關(guān)的樣本 , 其數(shù)據(jù)集特征描述見表 2。 由于 Leukemia 和 Colon Tumor 這兩個數(shù)據(jù)集都是二分類數(shù)據(jù)集, 所以不妨稱一類為正類樣本,另一類為負類樣本,具體信息見表 1。 4 實驗 實驗數(shù)據(jù) 為便于實驗結(jié)果比較,我們采用了三種研究得 比較充分的腫瘤數(shù)據(jù)集,一種是白血病數(shù)據(jù)集 (Leukemia dataset)[1], 一種是結(jié)腸癌數(shù)據(jù)集 (Colon Tumor dataset)[33],另一種是多腫瘤亞型的 SRBCT 數(shù)據(jù)集 [13]。 因此, 具有最大分類準確率均值與最小標準 差的基因子集的泛化誤差也是最小的 ,稱這種評估方法 為全折交叉驗證方法,采用這種方法獲得的分類準確率 均值 被稱為全折 交叉驗證分類準確率 ,而標準差表示樣本集的不同劃分對分類準確率的 影響程度 。為消除樣本集的不同劃分對分類器泛化性能的影響,有必要設(shè)計 一種能夠客觀反映分類器性能的評估方法。 由于腫瘤樣 本規(guī)模小,許多文獻采用留一法 (Leaveoneout Cross Validation, LOOCV)來評估腫瘤分類模型,但是 , Breiman 等 [31]認為 5折 或 10折 交叉驗證方法優(yōu)于留一法 ,而 Asyali 等 [32]針對基因表達譜樣本集的交叉驗證評估方法也是這樣推薦的 。 由于分類器的泛化性能涉及它在獨立測試集上的預(yù)測能力,因此,分類器性能評估方法在實際的分類器設(shè)計中非常重要,因此,如何評估分類器的性能 是一個值得 進一步 探討的問題。 然而 , 搜索最佳 參數(shù) 對 ( C ,? ) 是 一件 非常耗時的工作 。它將輸入數(shù)據(jù)映射到高維特征空間,構(gòu)造最優(yōu)分類超平面,用來區(qū)分 帶有 標記的兩 類樣本,當線性不可分時,可用核函數(shù)把數(shù)據(jù)自動地映射到線性空間 ,在腫瘤分類領(lǐng)域常用 Gauss 徑向基核函數(shù) (Radial Basis Function, RBF) )e x p (),( 2yxyxK ??? ?來完成這一任務(wù) [27], SVM 非常 適合 這種 具有高維和小樣本特點的腫瘤 數(shù)據(jù)集 [28,29]。盡管 這是一個 多項式時間復(fù)雜度算法,但 算法 的執(zhí)行仍然十分耗時,不過 最佳信息基因子集的選擇工作主要在實驗室完 成,臨床應(yīng)用只是依據(jù)所選擇的 最佳信息基因子集 為標記基因 來診斷腫瘤,所以 HBSA 算法是可行的 。 對于這種情況,則 以第 iter+ 1 次迭代求得的最高分類準確率1?iteraccuracy 不大于第 iter 次求得的 iteraccuracy 為迭代結(jié) 束條件 是一個比較好的解決方法 。//算法結(jié)束 ,返回搜索到 的 最佳信息基因子集 ,我們認為 *A? 就是與腫瘤 的發(fā)生發(fā)展有 特 定 聯(lián) 系的基因集合 。 15. ).m ax ( cVa
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1