freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

聚類分析ppt課件(已修改)

2025-01-29 19:20 本頁面
 

【正文】 聚類分析 Yuan Kehong 20220331 2 對(duì) 10位應(yīng)聘者做智能檢驗(yàn)。 3項(xiàng)指標(biāo) X, Y和 Z分別表示數(shù)學(xué)推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對(duì)應(yīng)聘者進(jìn)行分類。 應(yīng)聘者 1 2 3 4 5 6 7 8 9 10 X 28 18 11 21 26 20 16 14 24 22 Y 29 23 22 23 29 23 22 23 29 27 Z 28 18 16 22 26 22 22 24 24 24 什么是聚類分析 3 我們直觀地來看, 計(jì)算 4號(hào)和 6號(hào)得分的離差平方和: (2120)2+(2323)2+(2222)2=1 計(jì)算 1號(hào)和 2號(hào)得分的離差平方和: (2818)2+(2923)2+(2818)2=236 計(jì)算 1號(hào)和 3號(hào)得分的離差平方和為 482,由此可見一般, 歐氏距離很大的應(yīng)聘者沒有被聚在一起 。 由此,我們的問題是如何來選擇樣品間相似的測(cè)度指標(biāo),如何將有相似性的類連接起來? 什么是聚類分析 4 4 分析兒童的生長期。有如下的資料是 111歲的男孩平均每年的增重: 問男孩的發(fā)育可分為幾個(gè)階段 。 年齡 1 2 3 4 5 6 7 8 9 10 11 增加重量(公斤) 什么是聚類分析 5 Alizadeh et al., Nature 403:50311, 2022 6 基因芯片流程(一) 1. 實(shí)驗(yàn)設(shè)計(jì) 2. 樣品制備(指 mRNA或總 RNA樣品,包括對(duì)照組和實(shí)驗(yàn)組) 3. 芯片制備(包括 PCR,純化,點(diǎn)樣等步驟) 4. 芯片雜交(將 mRNA或總 RNA分別進(jìn)行逆轉(zhuǎn)錄生成 cDNA,在此步驟中將對(duì)照組和實(shí)驗(yàn)組 cDNA分別標(biāo)記 CY3和 CY5熒光信號(hào)) 5. 芯片掃描(采用激光掃描儀,分別用 532nm和635nm波長激光掃描芯片,對(duì)于每張芯片,得到CY3和 CY5通道兩幅圖象) 7 基因芯片流程(二) 6. 圖象處理(采用專門軟件,對(duì)圖象進(jìn)行分析,提取每個(gè)點(diǎn)上的數(shù)字信號(hào)),得到原始數(shù)據(jù)表。 7. 數(shù)據(jù)校正和篩選(對(duì) cy5或 cy3信號(hào)進(jìn)行校正,消除實(shí)驗(yàn)或掃描等各環(huán)節(jié)因素對(duì)數(shù)據(jù)的影響,同時(shí)利用篩選規(guī)則對(duì)數(shù)據(jù)中的“壞點(diǎn)”,“小點(diǎn)”,“低信號(hào)點(diǎn)”進(jìn)行篩選,并作標(biāo)記。) 8. 差異表達(dá)基因的確定(采用 ratio值對(duì)差異基因進(jìn)行判斷,或采用統(tǒng)計(jì)方法如線性回歸、主成分分析、調(diào)整 P值算法等對(duì)差異基因進(jìn)行統(tǒng)計(jì)推斷) 9. 生物信息學(xué)分析(如 cluster 算法、差異基因的同源性比對(duì),差異基因的相關(guān)文獻(xiàn)檢索等) 8 基因芯片應(yīng)用 ? 基因表達(dá)檢測(cè) – 特異性相關(guān)的基因:差異表達(dá)的基因 – 基因功能研究 – 健康狀況的檢測(cè) – 毒理學(xué)研究 – 藥物作用機(jī)制的研究 ? 定位克隆 ? 基因突變和多態(tài)性檢測(cè) ? 確定重疊群克隆的排序 9 聚類分析根據(jù)一批樣品的許多觀測(cè)指標(biāo) , 按照一定的數(shù)學(xué)公式具體地計(jì)算一些樣品或一些參數(shù) (指標(biāo) )的 相似程度 ,把相似的樣品或指標(biāo)歸為一類 , 把不相似的歸為一類 。 例如對(duì)上市公司的經(jīng)營業(yè)績進(jìn)行分類;據(jù)經(jīng)濟(jì)信息和市場(chǎng)行情,客觀地對(duì)不同商品、不同用戶及時(shí)地進(jìn)行分類 例如當(dāng)我們對(duì)企業(yè)的經(jīng)濟(jì)效益進(jìn)行評(píng)價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡化指標(biāo)體系的目的。 11 具體例子 基因表達(dá)數(shù)據(jù)通常用矩陣 (aij)保存,矩陣第 i行對(duì)應(yīng)于第 i個(gè)基因 ,第 j列對(duì)應(yīng)于第 j個(gè)樣本,而矩陣的每個(gè)元素 aij記錄了第 i個(gè)基因在第 j個(gè)樣本中的 mRNA表達(dá)水平。 ( 1)用基因表達(dá)數(shù)據(jù)發(fā)現(xiàn)新的(未知的)腫瘤類型即無監(jiān)督學(xué)習(xí) ; ( 2)將腫瘤歸到已知癌癥類別中,即 有 監(jiān)督學(xué)習(xí) ; ( 3)指明哪些基因能刻劃出不同的腫瘤類型,即 特征選擇 。 12 聚類類型 ? Exclusive:只屬于某類 . ? Overlapping: 可以同時(shí)屬于多類 . Overlapping clusters Exclusive clusters 13 1. 樣本點(diǎn)之間 按什么刻畫相似程度 2. 樣本點(diǎn)和小類之間 按什么刻畫相似程度 按什么來刻畫相似程度 思考: 14 一 、 變量測(cè)量尺度的類型 為了將樣本進(jìn)行分類 , 就需要研究樣品之間的關(guān)系;而為了將變量進(jìn)行分類 , 就需要研究變量之間的關(guān)系 。 但無論是樣品之間的關(guān)系 , 還是變量之間的關(guān)系 , 都是用變量來描述的 , 變量的類型不同 , 描述方法也就不同 。 通常 , 變量按照測(cè)量它們的尺度不同 , 可以分為三類 。 (1)間隔尺度 。 指標(biāo)度量時(shí)用 數(shù)量 來表示 , 其數(shù)值由測(cè)量或計(jì)數(shù) 、 統(tǒng)計(jì)得到 , 如長度 、 重量 、 收入 、 支出等 。 一般來說 , 計(jì)數(shù)得到的數(shù)量是離散數(shù)量 , 測(cè)量得到的數(shù)量是連續(xù)數(shù)量 。 在間隔尺度中如果存在絕對(duì)零點(diǎn) , 又稱比例尺度 。 相似系數(shù)和距離 15 (2)順序尺度 。 指標(biāo)度量時(shí)沒有明確的數(shù)量表示 , 只有次序關(guān)系 , 或雖用數(shù)量表示 , 但相鄰兩數(shù)值之間的差距并不相等 , 它只表示一個(gè)有序狀態(tài)序列 。 如評(píng)價(jià)酒的味道 ,分成好 、 中 、 次三等 , 三等有次序關(guān)系 , 但沒有數(shù)量表示 。 (3)名義尺度 。 指標(biāo)度量時(shí)既沒有數(shù)量表示也沒有次序關(guān)系 , 只有一些特性狀態(tài) , 如眼睛的顏色 , 化學(xué)中催化劑的種類等 。 在名義尺度中只取兩種特性狀態(tài)的變量是很重要的 , 如電路的開和關(guān) , 天氣的有雨和無雨 , 人口性別的男和女 , 醫(yī)療診斷中的 “ 十 ” 和 “ 一 ” , 市場(chǎng)交易中的買和賣等都是此類變量 。 相似系數(shù)和距離 16 所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算把它變成為一個(gè)新值,而且數(shù)值的變化 不依賴 于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。 中心化變換 中心化變換是一種坐
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1