freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

統(tǒng)計學∶二十一世紀的挑戰(zhàn)和機遇(編輯修改稿)

2024-10-10 21:01 本頁面
 

【文章內容簡介】 我們的研究及研究生教育還沒有完全認識到與大規(guī)模數(shù)據相聯(lián)系的計算和其 它結果。 數(shù)據縮減和壓縮 我們需要更多的“壓縮原理”:費歇爾 (R. A. Fisher) 給出了許多重要的思想,例如:充分性、輔助性、條件變量,變換、樞軸法,和漸近最優(yōu)性,后來又有了不變方差。然而,在諸如模型選擇、預測和分類等領域顯然需要新思想來指導我們。 一種新思想是用“壓縮”作為數(shù)據分析中的指導性方法。對我們而言基本想法是一個好的理解數(shù)據的結構是我們不僅能夠壓縮儲存它們而且能夠解壓縮和幾乎恢復原始信息。例如,在信號和圖像數(shù)據領域,小波在表達和壓縮圖像中的曲線邊界時實際上不是最優(yōu)的。這就要求我 們需要新的表示系統(tǒng)以便更好地壓縮。 機器學習和神經網絡 現(xiàn)在有很多特別的方法和計算策略來處理“工業(yè)強度”的數(shù)據。其中大多數(shù)方法不能通過泛泛的理解推出來,而且它們也沒有被溶入到主流統(tǒng)計中來。這些方法是由機器學習協(xié)會等在分析龐大而復雜的數(shù)據中發(fā)展起來的,因此未來的工作應該包含把這些方法有條理地整合到核心統(tǒng)計中去。 這些研究大體上是建立模型和結構,這些模型和結構允許風險學科以及基于數(shù)據的風險評價。這將包括在定向適應的建模過程中研究一些主要的工具。 對大 p 小 n 的多元分析 在許多重要的統(tǒng)計應用 中,變量數(shù) (p )往往要比觀測單元數(shù) (n )小。這樣的例子包括曲線數(shù)據、光譜、圖像、以及 DNA微陣數(shù)據的分析。最近在荷蘭來頓 (Leiden)舉行的名為“高維數(shù)據: np?? 在數(shù)理統(tǒng)計和生物醫(yī)學中的應用”的研討會突出了該課題與統(tǒng)計中很多領域交叉研究的重要性。 下面這個比較特殊的例子可以用來描述其它領域的新息如何能夠證明本問題是有用的,因此加強了核心統(tǒng)計繼續(xù)往外延伸的觀點。隨機矩陣理論描述了這 樣一類模型和方法,這些模型和方法始于在數(shù)學物理中對復雜原子核能級的研究,并在最近 40 年里發(fā)展起來的。最近幾年這些思想引起了概率論和組合數(shù)學的興趣。 目前應用和研究在高維情況下統(tǒng)計和數(shù)據分析中的方法的時機似乎已經成熟。例如,在許多領域中科學家用大的數(shù)據矩陣(許多觀測值 (n )和許多變量 (p ))做研究,幾乎沒有統(tǒng)計理論來支持和理解用于維數(shù)縮減的啟發(fā)性方法,如主成分,典型相關等。 早期結果顯示大 n-大 p 理論有些時候提供了比經典的 大 n-固定 p 的漸近理論更有用和更好的近似。例如,關于“高斯正交總體”的 TracyWidom 分布提供了單一的分布,經過恰當?shù)闹行幕涂潭茸儞Q,它提供了關于極值主成分和典型相關系數(shù)在零假設下分布的非常精確的描述。 貝葉斯估計和有偏估計 九十年代帶來的計算技術的發(fā)展和效率使得貝葉斯方法可以在很廣泛的模型類中實現(xiàn)。未來幾十年的挑戰(zhàn)是充分研究和開發(fā)將貝葉斯方法和近代非參數(shù)、半參數(shù)統(tǒng)計方法聯(lián)系在一起的紐帶,包括將貝葉斯方法和頻率論方法的盡可能結合的研究。 一個顯然的結果是對于有許多變量的海量數(shù)據模型,無偏 性和近似無偏性的概念(例如MLE)將會變得毫無用處,因為統(tǒng)計方法中隱含的數(shù)據綜合的概念將由于無偏方法的復雜性和變化性而失去意義。因此需要更廣的“有偏估計理論”和處理有很多變量的海量數(shù)據的新理論。 除了“蒙特卡羅”方法在建模實踐中不斷增長的作用外,顯然也需要深入的,用于推斷的“蒙特卡羅”方法的分析。 在證明和計算實驗之間的中間地帶 未來幾十年對理論工作最后的挑戰(zhàn)是研究證明速度(太慢)和無約束的計算實驗的沼澤地(太武斷且沒有說服力)之間的協(xié)議中間地帶。 在數(shù)學證明中存在許多問題,由于證明太難以及證明 不太重要這兩個原因,嚴格的數(shù)學驗證也許要落后于方法的研究。例如,盡管幾十年的工作,有許多重要的統(tǒng)計模型類,例如混合模型,其中可識別性問題根本不考慮,因為含有很難的分析和需要研究的模型結構的不斷擴展。 對核心的機遇和需求 如果收集的數(shù)據和數(shù)據分析的需求呈指數(shù)增長,核心為什么要達到相應水平?這是因為統(tǒng)一的思想可能減弱增長,而統(tǒng)計的核心領域是可以產生思想和通過科學進行溝通的地方。也就是說,從在數(shù)據分析中能有效組織和傳達的觀點來看,發(fā)展核心領域統(tǒng)計實際上對科學而言是一個重要的基礎目的。 在數(shù)據分析方法激增 的領域之間,一個健康的統(tǒng)計核心理論(通過與應用有機的聯(lián)系)對于有效地消化,開發(fā)和傳播來說是最有希望的。由此可見,總的來說它是科學的重要基石。 適應核心外的數(shù)據分析 數(shù)據需求的增長對統(tǒng)計學家提出了獨特的挑戰(zhàn),要求他們在適當?shù)臅r間內為在其他領域發(fā)展出來的許多數(shù)據分析方法提供智力結構。正如一位首席統(tǒng)計學家說的:“如果我們不想被機器學習者或計算機科學家取代,他們專門從事某些有意義的應用領域,而且在他們自己的勢力范圍內有天然的優(yōu)勢,則我們必須經常考慮一些好的統(tǒng)計思想,這些統(tǒng)計思想容易被使用者接受。” 核心研究的分裂 我們的理解是統(tǒng)計的超越能力是很高的,且由于各種好的理由這種勢頭還在上升。一統(tǒng)的觀念可能減弱這種增長,而統(tǒng)計的核心領域是可以產生思想和通過科學進行交流的地方。但是這種增長也會產生這樣一種結果,我們認為是非故意的,即對基礎研究的相對忽略,以及統(tǒng)計領域分裂的潛在危險。 我們再次強調核心研究的重要性: FDR 例子說明對特殊方法的方法論 /理論洞察力擴大了它們潛在的應用。 有人或許會提到一些數(shù)據來支持下面的說法:在前些年里,根據由 Stephen Stigler 提出 的“出口得分”分析,《統(tǒng)計年鑒 》是最有影響力的統(tǒng)計雜志。然而,根據最近的趨勢反映,提交該雜志的論文已經下降了大約 25%,也許是非偶然的,美國作者的比例也由 20 年前的70%降到到現(xiàn)在的 35%。 這個人力資源問題注定會變得更壞,因為統(tǒng)計的博士生通過求職市場明顯發(fā)現(xiàn)超越技術有很高的價值。 在專業(yè)需求中的增長 統(tǒng)計的核心研究在工具上是多學科的:它至少借助于信息論、計算機科學、物理學以及概率論和傳統(tǒng)數(shù)學領域。 因為統(tǒng)計學家變得越來越重視數(shù)據(在解決現(xiàn)代規(guī)模和范圍的實際問題的意義上),在核心領域中需要的數(shù)學技巧已經提高。例如,統(tǒng)計學家也 許需要懂得復分析(鞍點)、代數(shù)學(列聯(lián)表)、馬爾可夫鏈( MCMC),或者泛函分析(建立復模型)。同時需要足夠多的計算機科學家去發(fā)展數(shù)據分析所需的算法和計算機軟件。 需要不斷增長的技術手段給予了我們 第二個 方面的挑戰(zhàn):保持核心活力作為統(tǒng)計思想整合的一個場所。 5.科學與工業(yè)中的統(tǒng)計 統(tǒng)計學作為一門學科,它的一個顯著特征就是它與整個自然科學、社會科學和技術的相互作用。這一章主要闡述統(tǒng)計學在廣泛的領域內對于人類提高認識所起的作用。 生物統(tǒng)計 二十世紀上半葉農業(yè)和遺傳統(tǒng)計學首先獲得了發(fā)展,在其基礎上發(fā)展 起來的生物統(tǒng)計學、統(tǒng)計流行病學、隨機化臨床試驗學已經成為攻克人類疾病的一個里程碑。這在過去的半個世紀里顯著提高了 人類 的期望壽命。 最近在分子生物和遺傳領域取得重要進展,使得人類在可以預見的將來在分子層面上對基礎生命過程的理解將有飛速的進展。該項研究的長期目標是把分子過程的知識應用到整個有機體和 種群 上。這些目標包括對個人醫(yī)療方案的改善(即設計出個性化基因療法),通過改良重要的農作物品種和家畜來緩解營養(yǎng)不良和饑餓問題,改進公共衛(wèi)生,以及更好地防范 生物恐怖 襲擊 (bioterrorism)。 除了對即將在下文討論的 ‘新’生物學所產生的問題的新解決方法外,統(tǒng)計研究的成功也依賴于對在過去半個世紀中發(fā)展起來的臨床診斷、實驗室試驗和野外試驗,以及觀測研究等統(tǒng)計方法更好的理解和這些方法的進一步的發(fā)展。 統(tǒng)計和計算方法已經扮演和會繼續(xù)扮演重要角色的大體上包括如下四個領域:( A)計算基因組學,特別包括生物分子序列分析和功能基因組學;( B)遺傳流行病學和基因定位( gene mapping);( C)進化和種群遺傳學以及生態(tài)學;( D)計算神經學。 ( A) 生物分子序列分析和功能基因組學 是一種生物研究方法,它是基于 DNA序列(基因構成片段) 分析、氨基酸序列(蛋白質的構成片段)分析,以及在各種細胞狀態(tài)下的 RNA和蛋白質的全 剖面 ( grobal profile)分析,來發(fā)現(xiàn)基因和蛋白質的結構和演化過程,以及它們在正常和不正常過程中的功能,例子包括 1 數(shù)據庫搜索:基于蛋白質序列對齊,比較新發(fā)現(xiàn)蛋白質與已研究過的有關蛋白質來推斷新蛋白質的機能。 2 識別基因組中的控制區(qū)域:這個基因組區(qū)域控制蛋白質的數(shù)量以及產生蛋白質的條件。 3 不同生物或動物種群的同源遺傳區(qū)域的序列對比:這是推斷它們種群 史的 第一步。 4 在正常和疾病細胞中基因表達水平的比較分析:它不僅可以 為那些表現(xiàn)出相似臨床癥狀的疾病提供客觀和不同的診斷,而且在了解疾病病理學中基因的過表達和欠表達規(guī)律的基礎上,為該類疾病大體上提供成功治療的途徑。 在這個領域很有希望的方向包括在分子醫(yī)藥學、細胞和發(fā)展生物學這些領域使用計算的和功能遺傳學的方法。 分子醫(yī)藥學 包括以下幾個方面的研究:用遺傳數(shù)據來識別對藥品毒性有風險的人群;基于基因型、 RNA和蛋白質 外形 ( profile)研究疾病子類型的更細的分類;根據用分子水平分析得到的預測模型來發(fā)展個性化的治療方法。在這個方向上研究的理由最終將依賴于傳統(tǒng)的針對臨床的生物統(tǒng)計學領 域,如臨床試驗和隊列研究。對生物統(tǒng)計學科來說,這是一個充滿無限機遇的領域。 盡管統(tǒng)計學在細胞和發(fā)展生物學方面還沒有完全建立起來,但隨著設計越來越大的試驗方案,例如,目前按 96 井或 384 井精心安排的試驗分析來平行獲得上千個基因 promoter活性的真實時間測量,新的統(tǒng)計和計算方法對將來該方向的進步是本質的。 借助于時衰顯微鏡( timelapsed),雜交和抗體著色中的大量圖象將動態(tài)地提供在有機體發(fā)展的每個階段上發(fā)生的關鍵分子事件。特別令人興奮的一個研究方向是研究方法的進步,它有能力把來自第一手文獻( PubMed,在線文章)和數(shù)據庫(如, Locus Link, OMIM,F(xiàn)lybase, Gene Ontology)與大型的功能功能基因組學和細胞成像數(shù)據分析信息結合起來。 ( B) 遺傳流行病學 的目標是理解環(huán)境和遺傳在人類疾病中的相對重要性。 基因定位 包括使用分子標記圖,來確定與感興趣的表現(xiàn)型有關的基因的位子。這經常是它邁向更好理解并治療動植物中遺傳疾病的第一步。 人們也希望對導致那些在重要農作物和家畜中具有所需特性的基因定位,或對 生物體 模型中表現(xiàn)型的基因定位,如對實驗鼠,這可以對類似的人類表現(xiàn)型的遺傳提供線索。 在實驗 生物體 中遺傳定位包括生殖試驗設計以獲得最多的信息。關于不能進行生殖實驗的人類基因定位則更復雜,一些方法解釋了家族成員間的關聯(lián),而另外一些方法包含了對一人群內個體之間更難于推斷和更復雜的關聯(lián)。 ( C)進化,種群遺傳學和生態(tài)學 研究發(fā)生在動植物中總群水平下的變化,這種變化是由于基因庫的隨機突變和環(huán)境發(fā)生引起的。雖然最初定位于進化關系的研究(例如,支持現(xiàn)代人類有共同非洲祖先假設的證據),種群基因的概念逐漸用于理解細菌和病毒的進化(為了提供合適的疫苗和藥品)和不同的動植物種群中蛋白質的進化(通過識別進化中保存下來的不 同物種中的相關蛋白質部分來理解蛋白質的結構和功能)。 ( D)運用現(xiàn)代神經成像學( PET, fMRI), 計算神經學 試圖在少量的交互神經水平下和整個大腦水平下來理解神經系統(tǒng)功能:在什么條件下,哪部分大腦被激活?正常人和精神病人的大腦在結構和 /或功能方面有什么區(qū)別?以及如何利用這些知識來診斷和治療? 計算神經學涵蓋了基本的分子生物學,從離子通道行為的研究、簡單神經網絡中的神經元脈沖建模、嗅覺視覺感受器的反應,到用于活大腦成像和冷凍切片技術的宏觀測量方法,再到計算視覺中的抽象方法。統(tǒng)計在分析的每個水平上發(fā)揮了至關重要 的作用。 統(tǒng)計方法和計算方法 對于這些大量的科學問題, 統(tǒng)計、概率和計算的方法已被證明是非常有用的 。一些方法適用于許多領域,而另外一些方法適用于某些特殊的領域。 隨機過程,從有限馬爾可夫鏈到點過程和高斯隨機場,在所有問題中都很有用。分類、聚類和主成分分析等統(tǒng)計方法廣泛地應用于( A)和( D),隨機過程中的似然分析和 /或貝葉斯分析在( A)、( B)和( C)中是非常重要的。由于大量產生的數(shù)據,如個體樣本中上萬個基因的微陣表達水平,或來自于分布于上千個個體基因的上千個標記的數(shù)據(將來可能達到十萬個),對產生于( A)、 ( B)和( D)中的多重比較問題提出了挑戰(zhàn)。 在計算和最大化( A )、( B)和( C)中的似然函數(shù)時,隱馬爾科夫模型和 MCMC(馬爾科夫-蒙特卡洛)提供了重要的計算算法。一部分統(tǒng)計方法雖然需要作適當?shù)男薷模ㄖ鞒煞智€,隨機過程的似然分析)來處理由現(xiàn)代生物實驗所產生的大量數(shù)據,但是這些方法仍然是經典的(例如,主成分、似然分析);其他統(tǒng)計方法(隱馬爾科夫模型、 MCMC)是近期與實現(xiàn)它們所需的現(xiàn)代計算技術同步發(fā)展起來的。 另外還有一些統(tǒng)計方法,它們對單個領域的發(fā)展是至關重要的。一個例子是運用樹(系統(tǒng)發(fā)育樹和 粘聯(lián) 樹)來 描述群體內部個體之間以及不同群體之間的進化關系。(樹在聚類分析中也起到一個方法的作用)。試驗設計和方差分量為基因定位提供了重要工具。 許多方法在與應用密切相關的領域中已經發(fā)展起來了,人們期望將來重要的貢獻來自于對 特定應用 有很深造詣的 統(tǒng)計學家。無論如何,這些方法是建立在一種理論框架上,這種理論是為了響應其他一些感知的需要而發(fā)展起來的,它們經常來自于與現(xiàn)代生物學無關的領
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1