【正文】
n layer, so delivering a highlyavailable service on top of a cluster of puters, each of which may be prone to failures. ? The project includes these modules: – Hadoop Common: The mon utilities that support the other Hadoop modules. – Hadoop Distributed File System (HDFS?): A distributed file system that provides high throughput access to application data. – Hadoop YARN: A framework for job scheduling and cluster resource management. – Hadoop MapReduce: A YARNbased system for parallel processing of large data sets. Hadoop特性 用戶可以輕松地在 Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應用程序。 Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。 Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。例如,它們遇到錯誤時不能自我校正;不會通過經(jīng)驗改善自身的性能;不會自動獲取和發(fā)現(xiàn)所需要的知識。它的應用已遍及人工智能的各個分支,如專家系統(tǒng)、自動推理、自然語言理解、模式識別、計算機視覺、智能機器人等領域。 ( 3)理論分析 從理論上探索各種可能的學習方法和獨立于應用領域的算法 機器學習是繼專家系統(tǒng)之后人工智能應用的又一重要研究領域,也是人工智能和神經(jīng)計算的核心研究課題之一。在工程與學術(shù)界也常直接簡稱為神經(jīng)網(wǎng)絡或類神經(jīng)網(wǎng)絡。網(wǎng)絡的輸出則依網(wǎng)絡的連接方式,權(quán)重值和激勵函數(shù)的不同而不同。 數(shù)據(jù)挖掘 之 聚類分析 聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。在不同的應用領域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。傳統(tǒng)的統(tǒng)計聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。與分類不同,無監(jiān)督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習算法自動確定標記,而分類學習的實例或數(shù)據(jù)對象有類別標記。不同研究者對于同一組數(shù)據(jù)進行聚類分析,所得到的聚類數(shù)未必一致。 支持向量機 (SVM) 一種聚類分析的理論 ? 支持向量機是由 Vapnik領導的 ATTBell實驗室研究小組在 1995年提出的一種新的非常有潛力的分類技術(shù), SVM是一種基于統(tǒng)計學習理論的模式識別方法,主要應用于模式識別領域。 LibSVM: 一個開源的SVM實現(xiàn) 右圖為 LibSVM的 demo 。直到 90年代,統(tǒng)計學習理論 (Statistical Learning Theory, SLT)的實現(xiàn)和由于神經(jīng)網(wǎng)絡等較新興的機器學習方法的研究遇到一些重要的困難,比如如何確定網(wǎng)絡結(jié)構(gòu)的問題、過學習與欠學習問題、局部極小點問題等,使得 SVM迅速發(fā)展和完善,在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應用到函數(shù)擬合等其他機器學習問題中。而且聚類能夠作為一個獨立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇數(shù)據(jù)的特征,集中對特定的聚簇集合作進一步地分析。 ? 聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類。 ? 從機器學習的角度講,簇相當于隱藏模式。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析的目標就是在相似的基礎上收集數(shù)據(jù)來分類。 基于 JAVA的開源 ANN框架 ? JOONE(Java Object Oriented Neural Network)是 sourcefe上一個用 java語言迅速開發(fā)神經(jīng)網(wǎng)絡的開源項目。每個節(jié)點代表一種特定的輸出函數(shù),稱為激勵函數(shù)( activation function)。對機器學習的討論和機器學習研究的進展,必將促使人工智能和整個科學技術(shù)的進一步發(fā)展 。 研究領域 目前,機器學習領域的研究工作主要圍繞以下三個方面進行: ( 1)面向任務的研究 研究和分析改進一組預定任務的執(zhí)行性能的學習系統(tǒng)。隨著人工智能的深入發(fā)展,這些局限性表現(xiàn)得愈加突出。 ? 機器學習在人工智能的研究中具有十分重要的地位。Hadoop 上的應用程序也可以使用其他語言編寫