freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

碩士畢業(yè)論文-蛋白質生物功能的機器學習方法研究-資料下載頁

2025-01-17 00:56本頁面
  

【正文】 取 p%的樣本作為此輪過程中的訓練集。然后 使用 一個基準分類器對 該訓練集做訓練,并保存本輪所對應的分類器。最后用訓練過程中所有產生的分類器來對原始訓練集做分類,并對分類結果進行投票。原始訓練集中的某些樣本 也許 會多次出現(xiàn)在 各輪所產生的 訓練集里,而另外一些樣本則可能一次也不出現(xiàn)??梢哉fBagging 通過多重取樣所組成訓練集,增加了 各個 基準分類器之間的訓練差異 性 ,從而有效地提高了 整個分類器體系 的推廣能力,并最終 將體系 集成生成一個較強的分類器。 Bagging 的算法流程 為 : Initial: 原始訓練樣本 S, 訓練次數 num, 取樣比例 p, 基準分類器類型baseClassifier。 循環(huán) t=1,...num,在循環(huán)中的每一次: 1. 從初始訓練樣本集 S 中 按照比例 p 抽取 m 個樣本,組成新的訓練集39。 11{( , ), .. .( , )}mmS x y x y? ; 2. 在訓練集 S’上用基本分類器 baseClassifier 進行訓練,得到 第 t 輪學習器 訓練好的分類器 ht, 3. 保存結果模型 ht; 4. 通過投票法,將各個弱學習器 12, ,..., th h h 通過投票法集合成最終的強學習器? ?( ) ( )Aih x sign h x? ? 雖然在算法描述中各個基準分類器的訓練過程是按照循環(huán) 不變式進行的,但是上海大學碩士學位論文 2022 年 5 月 13 由于 Bagging 的各輪訓練集之間的相互獨立性,所以 Bagging 各個基本分類器的訓練過程可以并行進行, 從而得以 節(jié)省大量的建模時間。 變 量 壓縮 / 篩選 算法 在研究生物信息學的問題中,有許多問題要涉及到蛋白質序列。而由于蛋白質序列的復雜性,往往會導致在將序列表征后會產生數千個變量,比如用 AAIndex的 531 個參數去表征一個長度為 9 的肽段,那么變量數就會達到 4779 個。過多的變量會使計算量增大,更有可能使所得的模型不穩(wěn)定,推廣能力比較差。所以在一些時候對變量的信息進行壓縮、轉化、篩 選可以降低變量之間的冗余性、去除無用的變量、并提高分類器訓練得效率和準確度。我們這里介紹本文用到的幾種變量壓縮 /篩選算法。 主成分變換 主成分分析法( Principal Component Analysis, PCA)是一種 經典 的多元統(tǒng)計分析技術。 其核心 目的是將數據降維以排除眾多信息共存中相互重疊的信息 。 其做法是將 把 原始變量 組合 成彼此線性無關的 變量。但 同時又盡可能 地 減少因為這種組合而帶來的樣本集信息損失。 可以說主成分分析法可以同時承擔降維和表征數據的手段 [47]。 其 步驟可概括如下: 計算標準化 矩陣 X 及其協(xié)方差陣 C , 并 求出 C 的 M 個非零特征根( 1, 2, , )i iM? ? 及其 對 應的 M 個單位化特征向量, 并 按非零特征根大小順序 進行排 序后 , 構成如下 MM? 階特征向量集矩陣: ? ?ij MM??Vv =????????????MMMMMMvvvvvvvvv???????212222111211 (21) V 中的 每一列 都 代表一個特征向量 ,接著 計算主成分矩陣 Y : 上海大學碩士學位論文 2022 年 5 月 14 11 12 121 22 212= =MMN N N My y yy y yy y y????????Y X V (22) 其中通過計算可得到 第 i 個主成分的方差貢獻率 cD ,計算方法為 ??? kjc jiD1?? (23) 在實際應用中可取前幾個對信息量貢獻較大(即 cD 較大)的主成分便可達到空間維數下降而使信息量丟失盡可能少的目的 ,一般取到包含 95%的信息量的主成分就 足夠了 。 然而主成分分析的缺點是,降維后由于采取的是變量之間的組合,導致 主成分 變量的物理意義丟失,也就是說變量的解釋性會降低。 CFS 算法 對于 前 2種方法 來說 , 沒有 考慮到 變量之間的相關性。這樣可能會導致訓練集的信息有一定的冗余性 , 從 而 影響變量篩選的結果 與模型的可靠性 。 其實 在經過變量篩選后, 好 的變量子集應該與 目標 變量 有 著較 高 的 關聯(lián) 度, 而各個 自變量 之間 卻保持比較小的 關聯(lián) 度 [48]。 CFS (Correlationbased Feature Subset)算法 正 是一個 使用該原則的 啟發(fā)式 變量篩選 算法 [49]。 對于連續(xù)變量, CFS方法用 變量子集的得分來衡量其關聯(lián)度 : (24) 其中 k是子集的變量數。 rcf是子集中所有自變量和目標變量之間相關性的均值, rff是子集中每 2個自變量相關性的均值。而對于連續(xù) 離散型變量,則 CFS采用前面決策樹中提到得方法,把連續(xù)變量進行離 散化處理 。假如離散化 后的變量分別叫 X和Y。則 分別對離散化后的變量 計算其先驗信息熵和后驗信息熵。 上海大學碩士學位論文 2022 年 5 月 15 (25) 接著再計算信息增益即先驗信息熵和后驗信息熵的差值 。 (26) 最后計算 2個變量之間的均勻不確定度,其公式如下。如不確定度越大就越不相關,反之則越相關。 (27) 再 逐一評估每個 變量 子集中各個 變量之間的相關性 , 就可以 搜索出與目標相關性最大而 變量 之間冗余性最小的 變量 子集 。 本章小結 本章主要介紹了本文工作中用到的常見的幾種機器學習算法的原理和實現(xiàn)算法: 決策樹算法 、 支持向量機、 投票組合算法、 AdaBoost 與 Bagging 算法;應用極為廣泛的支持向量機算法 以及 PCA 和 CFS 變量篩選方法。 每個算法都有各自的優(yōu)點和 局限性 ,都有各自具有的應用領域。 上海大學碩士學位論文 2022 年 5 月 16 第三章 蛋白質 小分子 相互作用 預報的 集成學習研究 引言 目前 在藥物設計領域的主要設計策略在于基于機理和基于結構 的二 大方法 [5]。其中前者 以諸如蛋白質、核酸之類的大分子為研究對象,從疾病發(fā)生的源頭結合大分子在三維空間的功能進行藥物設計。而后者則以先導化合物的結構為研究對象,以 QSAR 為研究手段對新藥進行設計 [50]。近年來機理和結構 二 大方法的結合 越來越受到重視,比如,以蛋白質為靶并結合小分子的 結構 , 探討 它們 之間的相互作用來進一步闡明 它們 之間的機理。而在以蛋白質為中心的研究中,酶這一特殊的蛋白質更是研究藥物靶向的熱點。 酶 分子的主要功能是催化化學反應 ,而且 它還維系了生命的新陳代謝 [51]。 新陳代謝由一系列復雜的代謝 反應 組成,大多數的 這些 反應可 劃分到 代謝途徑中 , 反應中的 小分子通過與酶的 相互作用和 催化, 從 上一個反應的產物 變成了下次 反應的底物。越來 越多的證據 顯示 : 在 代謝途徑中 ,由于各種酶之間的生物關聯(lián)性 ,使得一個酶 反應 的 產物能作為底物直接 傳遞到 下一個 反應中 酶的活性位 點。因此, 研究小分子與酶 之間的 相互作用,可以預測一些未知“小分子 酶對”能否相互作用,進而可以揭示小分子的生物功能, 追 蹤反應的途徑,并 為科學家們探索 各種 代謝 或催化機理 提供了新的 研究 思路。 本章我們就以代謝途徑中的酶和底物為對象,用機器學習的方法對其之間的相互作用進行了研究和探討。 數據來源 與表征 數據來源 KEGG 是分析基因功能 、 聯(lián)系基因組信息和功能信息的知識庫 [52]。 該 數據庫包含了諸如小分子化合物信息 、 酶分子 和其對應 反應的 一些 信息 。 我們 首先從該數據庫中共 收集到 小分子化合物 14229 個。 根據這些化學物是否在代謝途徑參與了反上海大學碩士學位論文 2022 年 5 月 17 應 , 我們 去除 了那些 不參與反應的化合物 。這樣我們 共得到 505 個 小分子 化合物 。這些分子實際都參與了代謝途徑中的反應,并明確能找到與之對應的酶以形成“酶和底物”關系 ; 然后,我們 收集到能夠與這些 小分子 化合物反應的酶 787 個 。 在 代謝途徑中 ,往往 一個反應 中的小分子化合物會與若干個 酶相互作用 。即 一個反應可以用 一個或 多個 “酶和底物”對 來 進行 表示。 我們把 一個酶和 底物 之間存在作用的稱為“相互作用對” 即 Networking couple, 同時這些相互作用對也被定義為正樣本。我們把不存在作用的酶和底物對 稱為 “無相互作用對” ,也叫 UnNetworking couple,類似地,它們被定義為負樣本 。 根據先前的定義, 我們一共得到 3551 個正樣本。 而對于負樣本來說,我們 把這 505 個化合物和 787 個酶任意 兩兩進行配對, 只要某對酶和底物之間不存在相互作用的,即可判為負樣本。如此,最終負樣本的數量在 393768 個負樣本。 負樣本的數量遠遠超過了正樣本。 考慮到樣本的平衡 會影響到建模的質量 ,我們把正負樣本按照 1: 2 的比例分別構建訓 練集 和測試集。其中,訓練集中含有 正樣本 3001,負樣本 5996。而 測試集 的 正樣本 和 負樣本數分別為 550 和 1102。 數據 表征 由于我們的建模體系中,同時包含了酶和底物 2 個對象,而且這 2 個對象之間是以 ―酶 底物 ‖單位這樣成 對 的形式出現(xiàn)的。所以我們需要把酶和底物都進行表征以形成各自的特征向量 M 和 P。然后我們把這 2 個特征向量組成一個混合空間特征向量。也就是說訓練集和測試集中的每一條數據實際都由酶和底物共同 表征 組成 。 上海大學碩士學位論文 2022 年 5 月 18 圖 酶和底物表征示意圖 酶的參數表征 對于酶的表征來說 , 可 以使用諸如 氨基酸組成 、擬 氨基酸組成 ( PseAA position), 以及 AAindex 表征下 的 肽段掃描方法 等。 用 前 二 種方法 對 酶 進行表征時,往往會丟失過多的有意義的序列信息 ;而采用 AAindex 的 表征手段,掃描固定長度的肽段,并將肽段中的每個 氨基酸用 五百多 個特性來表征,那么 對于一個殘基個數上千的蛋白質來說,其數據量會發(fā)生爆炸式增長,非常 不利于 訓練和預報 。 更重要的是 AAindex 能捕捉蛋白質殘基的局部信息,但是對于像酶和底物這樣需要蛋白質全局信息的情況下,則顯得無能為力。 在本研究中 ,我們根據氨基酸的組 成和分布法來 對酶進行表征 [53]。這種表征手段,既考慮了氨基酸組成,又以分布的形式,涉及到了蛋白質序列的全局情況。同時該方法可以自由選擇指定的物化參數來對序列進行表征,具有很好的擴展性。對于物化參數的選擇,我們嘗試使用了諸如 殘基疏 水性、溶解性、范德華力、極性、極化特性、以及 蛋白質 二級結構等 參數 [54] [55] [56] [57], 這些參數已有很多文獻 報道 對蛋白質的性質有比較大的影響 。 在獲取這些物化參數的過程中,除了根據已發(fā)表文獻,我們還利用 PredAcc 軟件來預測蛋白質序列的溶解特性 [57]。 上海大學碩士學位論文 2022 年 5 月 19 氨基酸的組成和分布法 的一個很重要特點就是能獲取殘基的分布特性。其原理如下: 針對 氨基酸的 某種物化 屬性,可以把一個蛋白質序列轉變?yōu)閷傩孕蛄?。 比如我們 考察一個叫 S 的物化參數 來表征某個殘基 , 并分別 用 A B, E 三個字母 來表示 該參數的 3 種水平 。 參數 S 可 將 一個蛋白質序列 轉 化 為 對應的屬性序列 。我們把轉變后的序列稱為 屬性 字 母序列。 比如, 假設有一條長度為 40 個 殘基 的蛋白質序列, 用 S 表征該序列后,字母序列就 包含 15 個 A, 11 個 B 和 14 個 E 類型殘基,則 其序列排列情況如圖 所示。 然后我們針對該字母序列,再 用組成 (position 簡寫 C)、轉換
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1