freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

dna序列分類(2000年數學建模競賽題)-全文預覽

2025-09-16 15:13 上一頁面

下一頁面
  

【正文】 se pbd(n)=2。 else lby(i)=2 。 else pbd(i)=2 。 tx(i)=ux*x(i,:).39。 u12=*u1+*u2。u2=mean(y)。ss=ffd*vx1。 ex2=ex1(38: 41,:)。 cx=cov(ffx)。 .91 .91 .91 .00 .00 .91 .91 。 .91 .00 .00 .00 .00 .00 .91 .91 .00 .00 .00 .00 .91。 .91 .00 .00 .00 .00 .00 .91 .00 .00 。 .00 .00 .90 .00 .90 。 .00 .00 .90 .90 .00 .00 。 .91 .91 .91。 .00 .00 .00 .00 .00 .00 .00 .91。 .91 .91 .91 .91 .00 。 .90 .90 .90 。 .90 .90 .90 .90 .90 。 。 .00 。 。 。 。 .94 .94 .94 .94 .94 .94 .94。 .00 .00 。 .00 .89 .00 .00 .00 .00 。 .00 .00 .96 .00 。 .98 .00 .00 .98 .00 .00 .00 。 。 。 .89 。 。 .00 .98 。 。 。 。 。 。,status=39。對研究 DNA序列的規(guī)律性和結構提供了一種有效的分類模型。 缺點: 由于只考慮了 DNA 樣本序列中 1字符串、 2字符串、 3字符串出現的頻率作為特征,DNA 序列的分類不一定與實際情況完全相符。 2. 僅用 4個特征參數即圓滿解決了較為復雜的分類問題。只有第三組的這一個結果有較大差異,占總數的 5%。 每次取出一個學習樣本,以其余學習樣本作訓練集,用分類模型對未知類別的第21~40 個樣本進行預報, 其結果有以下特點: ( 1) 除分別取出 1 17, 20 的預報結果不同外,分別取出其余 16 中一個,預報結果均為: 22, 23, 25, 27, 29, 34, 35, 36, 37,占 80%。為了進一步考查分類模型的有效性和可靠性,我們采用的方法是:預先留一部分學習樣本不參加訓練,然后用分類決策模型對其作預報,將預報成功率作為預報能力的指標。 因此,得出分類的數學模型為: ( 1) 特征選?。喝?W=( r1,r2,r3,r4),求 Y=XW,得出特征參數向量就是 Y的 4個列向量。取分類門檻值為: U0=U(α *X 1+(1α )*X 2) 其中 0α 1,本問題中兩類樣本的個數相等,可取 α =1/2。即應在不同母體下,使 U(x)的取值盡量分開?;咀鞣ㄊ窃趯W習樣本集的基礎上確定某個判決規(guī)則,使按這種判決規(guī)則對被甄別對象進行分類所造成的錯誤識別率最小或引起的損失最少。 現將反映 20 個已知類別樣本的 41 個特征的隨機向量 X 進行特征提取。特征的提取就是通過變換的方法用低維空間來表示樣本,使得 X的大部分特性能由 Y來表達,即將 p 維隨機向量 X變換成 q維隨機向量 Y( qp)。(不考慮字符串在序列片段中的起始位置,也采用“滾動”算法。(用“滾動”算法,如 attcg 有 at,tt,tc,cg 共 4個 2字符串) (程序與附錄一類似 ) 表 2 AA AC AT AG TA TC TG TT CA CT CC CG GA GT GC GG 1. .90 1 2. .90 3. .90 .90 .90 .90 .90 4. .90 5. .90 6. .00 .00 .90 7. .90 .90 .90 8. 9. .90 .00 2. 70 10. 11. .91 .91 .91 .91 .00 12. .91 .91 .91 .00 .91 .00 13. 2 14. .91 .00 .91 .9 1 .91 .00 .00 .00 .00 .00 .00 .00 .91 16. . .00 .91 .00 .91 .91 .913 .91 .91 20. .91 .91 .00 .00 .91 3. 3字符串的排列出現的頻率 A, T, C, G 這 4 個字符組成了 64 種不同的 3 字符串。由于在不用于編碼蛋白質的序列片段中, A和 T的含量特別多些,因此我們將 A和 T是否特別豐富作為一個特征。本問題的學習樣本數為 20個,故特征參數的個數以 6— 8 個為宜。在列舉了盡可能完備的特征參數集之后,就要借助于數學 的方法,使特征參數的數目(在保證分類良好的前提下)減到最小。給出的已知類別的樣本稱為學習樣本。 3. 較長的 182 個自然序列與已知類別的 20 個樣本序列具有共同的特征。 作為研究 DNA序列的結構的嘗試,提出以下對序列集 合進行分類的問題: 1)請從 20 個已知類別的人工制造的序列(其中序列標號 1— 10 為 A 類, 1120 為 B類)中提取特征,構造分類方法,并用這些已知類別的序列,衡量你的方法是否足夠好。又例如,在不用于編碼蛋白質的序列片段中, A和 T的含量特別多些,于是以某些堿基特別豐富作為特征去研究 DNA序列的結構也取得了一些結果。 最后通過檢驗證明所用的分類數學模型效率較高。DNA 序列分類 摘要 本問題是一個“有人管理分類問題 ”。 2) 182 個自然序列: 1, 4, 8, 10, 27, 29, 32, 41, 43, 48, 54, 63, 70, 72, 75, 76,81, 86, 90, 92, 102, 110, 116, 119, 126, 131, 144, 150, 157, 159, 160, 161,162, 163, 164, 165, 166, 169, 170, 182 為 B 類,其余為 A 類。例如,在全序列中有一些是用于編碼蛋白質的序列片段,即由這 4個字符組成的 64種不同的 3字符串,其中大多數用于編碼構成蛋白質的 20種氨基酸。目前在這項研究中最普通的思想是省略序列的某些細節(jié),突出特征,然后將其表示成適當的數學對象。 2. 64 種 3 字符串壓縮為 20 組后不影響分類的結果。這是模式識別中的“有人管理分類”問題,即事先規(guī)定了分類的標準和種類的數目,通過大批已知樣本的信息處理找出規(guī)律,再用計算機預報未知。這就是特征形成和提取的過程。模式識別計算一般要求樣本數至少為變量數的3 倍,否則結果不夠可靠。 i. 1 個字符的出現頻率 表 1列出了 20 個樣本中 A, T, C, G這 4個字符出現的頻率。表 2 列出了 20 個樣本中各 2字符串出現的頻率。因此,在計算 3字符串的出現頻率時,我們根據圖 1將代表同一種氨基酸的 3 字符串合成一類,只統(tǒng)計 20類 3字符串的出現頻率。 (二 )特征的提取 上述基本特征集中有 41 個變量,即樣本處于一個高維空間中。就可以用低維特征 Y=( y1,y2, ?? yq)來反映高維特征( x1,x2?? xp)的變化特性 。分類決策就是在特征空間中用統(tǒng)計的方法把被識別對象歸為某一類別。 ( 1)式的含義是:構造一個線性判別函數 U(x)對樣本進行分類,使得平均出錯概率最小。其中 X i 為第 i 類母體的均值矩陣的估計,∑ i為第 i 類母體的方差矩陣的估計。但是,若取 W=( r1,r2,r3),求 Y=XW,以 Y的 3個分量作為特征參數向量,再用 Fisher 線性判別法對 20 個學習樣本進行 分類,則第四個樣本不能正確分類。 三 . 分類模型的有效性考查 前面建立的分類數學模型對 20 個學習樣本進行了正確分類。 表 4 取出樣品序號 取出樣本類別預報 后 20 組樣本中 A 類序號預報 1 A 22, 23, 25, 27, 29, 34, 35, 36, 37 2 A 22, 23, 25, 27, 29, 34, 35, 36, 37 3 A 22, 23, 25, 27, 29, 34, 35, 36, 37 4 A 23, 25, 27, 29, 34, 35, 36, 37 5 A 22, 23, 25, 27, 29, 34, 35, 36, 37 6 A 22, 23, 25, 27, 29, 34, 35, 36, 37 7 A 22, 23, 25, 27, 29, 34, 35, 36, 37
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1