freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

碩士畢業(yè)論文-蛋白質(zhì)生物功能的機器學(xué)習(xí)方法研究(編輯修改稿)

2025-02-13 00:56 本頁面
 

【文章內(nèi)容簡介】 .............................................. 40 在 線 Web 預(yù)報 系 統(tǒng)設(shè)計 架構(gòu)與原理 ........................................................ 41 在 線預(yù)報 系 統(tǒng)設(shè)計 架構(gòu) ....................................................................... 41 在 線 預(yù)報 系 統(tǒng)設(shè)計 原理 ....................................................................... 43 在 線預(yù)報 服 務(wù) 器的 實現(xiàn) 以及 優(yōu) 化 .............................................................. 44 蛋白 質(zhì)間 相互作用分 類 在 線預(yù)報 系 統(tǒng) ............................................... 44 蛋 白 質(zhì) 翻 譯 后修 飾 sumo 位點的在 線預(yù)報 系 統(tǒng) ................................ 46 蛋白 質(zhì) 和 小分子 相互作用 的在 線預(yù)報 系 統(tǒng) ....................................... 48 本章小 結(jié) ...................................................................................................... 50 第六章 總結(jié) 與展望 ......................................................................................................... 52 全文 總結(jié) ...................................................................................................... 52 工作展望 ...................................................................................................... 53 參考文獻 ........................................................................................................................... 54 作者在攻 讀碩 士學(xué)位期 間 公 開發(fā) 表的 論 文 和 專 利 ...................................................... 61 致 謝 ................................................................................................................................... 62 上海大學(xué)碩士學(xué)位論文 2022 年 5 月 1 第 一 章 緒論 機器學(xué)習(xí)方法概述 機器學(xué)習(xí) 是人工智能領(lǐng)域中與算法相關(guān)的 一 個子領(lǐng)域,其 研究主旨是使用計算機模擬人類的學(xué)習(xí)活動 ,也就是說如何使機器不斷地進行學(xué)習(xí),當然, 這里的學(xué) 習(xí)是指從數(shù)據(jù)中學(xué)習(xí) [1]。這就相當于將一組數(shù)據(jù)傳遞給算法,然后去由這些算法預(yù)報出和這些數(shù)據(jù)相關(guān)的一些屬性和信息。 其 重點在于 對未知的數(shù)據(jù)進行預(yù)報 。機器學(xué)習(xí)之所有這種作用,是因為在同一主題的大量數(shù)據(jù)中一般都含有某些模式,通過對數(shù)據(jù)的學(xué)習(xí),可以對這些 隱含的 模 式 進行歸納和整理 , 以此得到一個模型。而做出預(yù)報的就是這個學(xué)習(xí)后的模型 [2]。 在機器學(xué)習(xí)領(lǐng)域中有許多不同的算法,從宏觀上可以把這些算法分成有人監(jiān)督學(xué)習(xí)、無人監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等。應(yīng)該說所有算法都各有千秋、各有所長,并適應(yīng)于不用的問題,有些算法直觀明了,比如決策樹。而有的算法比如人工神經(jīng)網(wǎng)絡(luò)其學(xué)習(xí)過程則是一個黑箱。 應(yīng)該 說機器學(xué)習(xí)仍然是一門高速發(fā)展的學(xué)科,我們也要看到其缺點和限制。大部分的方法受限在大規(guī)模樣本的學(xué)習(xí)情況 ,而對于小樣本數(shù)據(jù)集的學(xué)習(xí)可能會產(chǎn)生錯誤的 學(xué)習(xí)和理解 。然而在進行大規(guī)模數(shù)據(jù)處理的時候控制計算復(fù)雜度、缺失值的處理和分析、非 均衡樣本的分類界限等課題都 迫切地需要有效地解決。 對于機器學(xué)習(xí)這一迷人的方法,我們應(yīng)抱著辯證的角度去看。機器學(xué)習(xí)的結(jié)果更應(yīng)該被視作為一種獲取新信息 、新知識的途徑。從模型中我們提取有益的信息并利用之。 對于機器學(xué)習(xí)的結(jié)果進行分析和解釋是非常重要的環(huán)節(jié)。 人類擁有的學(xué)習(xí)能力要遠遠大于機器, 因此 從某 種角度說我們 人類也是某種機器??偟恼f來,機器學(xué)習(xí)應(yīng)該成為一名科研 工作者的工具,正確使用它可以有效降低工作量、提高工作質(zhì)量。 上海大學(xué)碩士學(xué)位論文 2022 年 5 月 2 蛋白質(zhì)的生物學(xué)基礎(chǔ) 蛋白質(zhì)是由 20 種常見氨基酸組成的生物大分子。 對于 兩兩氨基酸來說 可以通過 羧基與氨基的縮合形成酰胺鍵,也叫肽鍵 。多個氨基酸通過肽鍵連接形成了多肽鏈 。從另一個角度來說蛋白質(zhì)就是通過肽鍵把氨基酸聚合起來的多肽 鏈大分子 。 而由于氨基酸之間的 脫水反應(yīng),所以在蛋白質(zhì)中的氨基酸又被稱作殘基。在后文我們的 研究對象一般針對蛋白質(zhì),所以我們會交替使用氨基酸和殘基這 2 個名字來稱呼多 肽鏈中的氨基酸。 就蛋白質(zhì)的結(jié)構(gòu)來說,可以分為一、二、三、四級結(jié)構(gòu)。 蛋白質(zhì)的一級結(jié)構(gòu)是指構(gòu)成蛋白質(zhì)大分子的殘基的排列順序 。一級結(jié)構(gòu)是蛋白質(zhì)結(jié)構(gòu)的基礎(chǔ),它影響著蛋白質(zhì) 更高層次的 結(jié)構(gòu)。每種蛋白質(zhì)都具有特定的一級結(jié)構(gòu)。但是一些彼此相關(guān)的蛋白質(zhì),其一級結(jié)構(gòu)具有不同程度的相似性 [3]。 蛋白質(zhì)的一級結(jié)構(gòu) 派生出二級結(jié)構(gòu)。它是指多肽鏈沿一維方向排列成為具有周期性結(jié)構(gòu)的構(gòu)象。二級結(jié)構(gòu)其實指 的 是多肽鏈的局部構(gòu)象 ,其基本的類型有 α螺旋、β折疊以及 回折 [3]。 α螺旋是很常見的二級結(jié)構(gòu),也很容易進行識別。 其特征是:每圈含有 個殘基,螺距為 ,殘基高度 ,螺旋半徑是 ,相鄰螺旋間形成氫鍵,取向與螺旋軸幾乎平行。 β折疊也在蛋白質(zhì)中普遍的存在著 。每個β折疊的平均長度約相當于 個殘基。 一般來說,單個的β折疊 很難形成肽鍵,所以 不太穩(wěn)定 。 只有通過肽鏈之間的氫鍵使多個β折疊形成一組β折疊才可以比較穩(wěn)定。這樣的一組β折疊叫β折疊片 [4]。 而回折結(jié)構(gòu)指的是多肽鏈發(fā)生 180176。的結(jié)構(gòu)轉(zhuǎn)彎。這樣的回折并非像α螺旋那樣是一種周期性扭轉(zhuǎn)。回折主要分為 2種:β轉(zhuǎn)角和γ 轉(zhuǎn)角。前者 是 由 4 個連續(xù)的殘基構(gòu)成的,其中首個殘基中的羰基會和第 4 個殘基的亞氨基產(chǎn)生氫鍵作用。 而γ轉(zhuǎn)角則由 3 個連續(xù)的氨基酸組成,并也會形成氫鍵,只不過是由第一個和第三個來形成 [5]。 蛋白質(zhì)的結(jié)構(gòu)還可進一步分成三級結(jié)構(gòu)和 四級結(jié)構(gòu) ,這里就不詳細加以描述了。 上海大學(xué)碩士學(xué)位論文 2022 年 5 月 3 機器學(xué) 習(xí) 在蛋白 質(zhì) 生物功能注 釋 中的 應(yīng) 用 蛋白質(zhì)相關(guān)數(shù)據(jù) 的 不斷膨脹給機器學(xué)習(xí)在這一領(lǐng)域的應(yīng)用做好了鋪墊 [6]。各大主流生物數(shù)據(jù)庫更是收集了海量的生物學(xué)數(shù)據(jù)。所以把機器學(xué)習(xí)算法用在和蛋白質(zhì)相關(guān)信息的 建模和 預(yù)報上是非常合適的。 近年來 ,蛋白質(zhì) 的生物功能的 研究逐漸得到重視 。機器學(xué)習(xí)方法在蛋白質(zhì)和核酸、蛋白質(zhì)和蛋白質(zhì)、蛋白 質(zhì)和小分子相互作用 、蛋白質(zhì)亞細胞定位 以及蛋白質(zhì)翻譯后修飾等領(lǐng)域的研究都有很多的報道 [7]。 我們下面分別從表征手段和方法應(yīng)用予以介紹。 表征手段 氨基酸組成 在前面的小節(jié)中我們介紹了 蛋白質(zhì)是由 20 種常見氨基酸組成的生物大分子。所以把蛋白質(zhì)序列中 氨基酸 組 成 含量來表征序列是一個直接又基本的方法。它反映了 序列的全局 屬性。 在這樣的方法的 表示下,整個序列成為了 一個 20 維 的向量 。Nakashima 用 氨基酸組成的方法來預(yù)報蛋白質(zhì) 類型 [8]。 Stawiski 等用氨基酸 組 成 等變 量 預(yù)測 蛋白 質(zhì) 與 核酸 之 間 的 作用 [9]。 Chou 用 氨基酸 組 成來 表征 蛋白 質(zhì) 以 預(yù)報 其結(jié) 構(gòu) 的分 類 [10]。 擬氨基酸組成 在氨基酸組成的基礎(chǔ)上 ,Chou 等提出了擬 氨基酸組成 [11]。它 被定義為一個(20+λ) 維的向量, 前 20 維元素代表 前面提到過的氨基酸組成。而后λ 維元素則表示序列相關(guān)因子,該因子 可以根據(jù)殘基的疏水指數(shù) 、親水指數(shù)和側(cè)鏈分子量 等性質(zhì)計算得到。由于擬氨基酸組成進一步加入了氨基酸的物化性質(zhì) , 而且 該方法加入了可以擴展 的物化性質(zhì)參數(shù) ,所以 預(yù)報 正確率 有所提高。 Chou 和 Cai 發(fā)展了基于 連續(xù)模式 的擬 氨基酸組成 [12]。 Fang 等 用 擬 氨基酸 組 成 研究 了 蛋白 質(zhì) 與 DNA 相互作用分 類 體系,取得了比較好的推廣效果 [13]。 上海大學(xué)碩士學(xué)位論文 2022 年 5 月 4 物化性質(zhì)表征 用物化參數(shù)來表征蛋白質(zhì)序列也是一種很成熟的表征手段。應(yīng)該說在前面提到的擬氨基酸組成中已經(jīng)引入了部分物化性質(zhì)。而我們這里主要介紹利用 AAIndex氨基酸索引數(shù)據(jù)庫來表征蛋白質(zhì)序列。 AAIndex 收集了 大量 常見氨基酸的各種物化性質(zhì) 參數(shù) [14]。它包括了疏水性指數(shù)、電負性、酸堿性、結(jié)構(gòu)性、溶劑可及性等各種參數(shù)。一般來說用 AAIndex 的表征方法 不會對整個蛋白質(zhì)序列進行表征,而是和指定長度的肽段結(jié)合起來進行。 Lu 等用 AAIndex 和 mRMR 篩選相結(jié)合,研究了糖基化位點的預(yù)報 [15]。 Guan 等 選用了 93 個 AAIndex 參數(shù)研究了肽段和蛋白質(zhì)之間的相互作用 [16]。 算法 應(yīng) 用 研究 蛋白質(zhì)及其作用對象 是一個既重要又具有挑戰(zhàn)的課題。通過研究小分子與蛋白質(zhì) [17]、蛋白質(zhì)與蛋白質(zhì) 相互作用 [18]、 DNA 與蛋白質(zhì)之間的作用 [19, 20],可以揭示 有機 小分子的生物功能 以及設(shè)計藥物 [21],理解 蛋白 質(zhì) 在 生物的 各 種過 程 中 的 重要 作用 。 我們這一小節(jié)主要介紹不同算法在蛋白質(zhì)領(lǐng)域的發(fā)展。 Cai 等用最近鄰算法研究了 酶和底物之間的相互作用 [22]。 Liu 等用了蛋白質(zhì)組成 及 其物化結(jié)構(gòu)信息等 114 個參數(shù),用十組交叉驗證的 mRMRKNN 的變量篩選方法研究了果蠅體系的 46 萬條蛋白質(zhì)相互作用關(guān)系,總體 正確率 達到了 73% [18]。Cai 等 采用 支持 向量機方法來研究 驗證蛋白質(zhì)與 DNA 之間有無相互作用 , 其多 組交叉驗證的 正確率 達到 %[23]。 蛋白質(zhì)在細胞中只有被轉(zhuǎn)運到正確的部位才能參與到細胞的各種生命活動。所以蛋白質(zhì)亞細胞定位也成為了蛋白質(zhì)生物功能的機器學(xué)習(xí)熱點。 Cedano 等人提出了 ProtLoek 算法并對五類亞細胞定位進行預(yù)測 [24]。 Hubbard 運用神經(jīng)網(wǎng)絡(luò)方法分別對 4 種真核生物蛋白質(zhì)和 3 種原核生物蛋白質(zhì) 進行了分類 [25]。 Chou 提出了基于SVM 算法來 對 十二類不同的亞細胞定位 進行預(yù)報 [11]。 Niu 等用 AdaBoost 的 集成學(xué)習(xí)方法對蛋白質(zhì) 12 類亞細胞定位進 行了預(yù)報 [26]。 上海大學(xué)碩士學(xué)位論文 2022 年 5 月 5 翻譯后的蛋白質(zhì)還需要額外的反應(yīng)來對自己進行結(jié)構(gòu)上的修飾。這些反應(yīng)包括添加新的基團如磷酸化、糖基化,以及對已有的基團進行修飾,如巰基的氧化。這些修飾對于蛋白質(zhì)功能有重要的作用。在機器學(xué)習(xí)領(lǐng)域?qū)Ψg后修飾也形成了一個研究熱點。 Plewczynski 等用對 SVM 方法對 SwissProt 數(shù)據(jù)庫中的各種翻譯后修飾建立了預(yù)報模型 [27]。 Blom 等用人工神經(jīng)網(wǎng)絡(luò)方法 對蛋白質(zhì)的磷酸化問題進行了研究,并建立了在線預(yù)報系統(tǒng) [28]。 Xue 等用 GPS 和 MotifX 方法 對蛋白質(zhì)的SUMO 化修飾位點進行了研究,其多組交叉驗證 正確率 達到了 %[29]。 生物 在線 Web 預(yù)報系統(tǒng)簡介 目前, 不少針對蛋白質(zhì)生物功能的 研究 以 實 驗或 量化模擬 方法為 主。用實驗方法研究 蛋白質(zhì)生物功能 ,人力物力投入大 ,實驗成本高。而與 量化模擬 有 關(guān)的研究大多是依靠已建的相關(guān)數(shù)據(jù)庫 用 分子動力學(xué) 以及量子力學(xué) 的模擬方法。這些方法 模擬精度和可解釋性好,但 往往 模擬 時間長 、 計算復(fù)雜度高 、難以實現(xiàn)批量的 快速 預(yù)報、 并且一般需要配
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1