【正文】
LibSVM: 一個(gè)開源的SVM實(shí)現(xiàn) 右圖為 LibSVM的 demo 。直到 90年代,統(tǒng)計(jì)學(xué)習(xí)理論 (Statistical Learning Theory, SLT)的實(shí)現(xiàn)和由于神經(jīng)網(wǎng)絡(luò)等較新興的機(jī)器學(xué)習(xí)方法的研究遇到一些重要的困難,比如如何確定網(wǎng)絡(luò)結(jié)構(gòu)的問題、過學(xué)習(xí)與欠學(xué)習(xí)問題、局部極小點(diǎn)問題等,使得 SVM迅速發(fā)展和完善,在解決小樣本、非線性及高維模式識(shí)別問題中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。 支持向量機(jī) (SVM) 一種聚類分析的理論 ? 支持向量機(jī)是由 Vapnik領(lǐng)導(dǎo)的 ATTBell實(shí)驗(yàn)室研究小組在 1995年提出的一種新的非常有潛力的分類技術(shù), SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的模式識(shí)別方法,主要應(yīng)用于模式識(shí)別領(lǐng)域。而且聚類能夠作為一個(gè)獨(dú)立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇?cái)?shù)據(jù)的特征,集中對(duì)特定的聚簇集合作進(jìn)一步地分析。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。 ? 聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類。與分類不同,無監(jiān)督學(xué)習(xí)不依賴預(yù)先定義的類或帶類標(biāo)記的訓(xùn)練實(shí)例,需要由聚類學(xué)習(xí)算法自動(dòng)確定標(biāo)記,而分類學(xué)習(xí)的實(shí)例或數(shù)據(jù)對(duì)象有類別標(biāo)記。 ? 從機(jī)器學(xué)習(xí)的角度講,簇相當(dāng)于隱藏模式。傳統(tǒng)的統(tǒng)計(jì)聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動(dòng)態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。 數(shù)據(jù)挖掘 之 聚類分析 聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過程。 基于 JAVA的開源 ANN框架 ? JOONE(Java Object Oriented Neural Network)是 sourcefe上一個(gè)用 java語言迅速開發(fā)神經(jīng)網(wǎng)絡(luò)的開源項(xiàng)目。網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式,權(quán)重值和激勵(lì)函數(shù)的不同而不同。每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激勵(lì)函數(shù)( activation function)。在工程與學(xué)術(shù)界也常直接簡稱為神經(jīng)網(wǎng)絡(luò)或類神經(jīng)網(wǎng)絡(luò)。對(duì)機(jī)器學(xué)習(xí)的討論和機(jī)器學(xué)習(xí)研究的進(jìn)展,必將促使人工智能和整個(gè)科學(xué)技術(shù)的進(jìn)一步發(fā)展 。 ( 3)理論分析 從理論上探索各種可能的學(xué)習(xí)方法和獨(dú)立于應(yīng)用領(lǐng)域的算法 機(jī)器學(xué)習(xí)是繼專家系統(tǒng)之后人工智能應(yīng)用的又一重要研究領(lǐng)域,也是人工智能和神經(jīng)計(jì)算的核心研究課題之一。 研究領(lǐng)域 目前,機(jī)器學(xué)習(xí)領(lǐng)域的研究工作主要圍繞以下三個(gè)方面進(jìn)行: ( 1)面向任務(wù)的研究 研究和分析改進(jìn)一組預(yù)定任務(wù)的執(zhí)行性能的學(xué)習(xí)系統(tǒng)。它的應(yīng)用已遍及人工智能的各個(gè)分支,如專家系統(tǒng)、自動(dòng)推理、自然語言理解、模式識(shí)別、計(jì)算機(jī)視覺、智能機(jī)器人等領(lǐng)域。隨著人工智能的深入發(fā)展,這些局限性表現(xiàn)得愈加突出。例如,它們遇到錯(cuò)誤時(shí)不能自我校正;不會(huì)通過經(jīng)驗(yàn)改善自身的性能;不會(huì)自動(dòng)獲取和發(fā)現(xiàn)所需要的知識(shí)。 ? 機(jī)器學(xué)習(xí)在人工智能的研究中具有十分重要的地位。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。Hadoop 上的應(yīng)用程序也可以使用其他語言編寫,比如 C++。 Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。 Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非常快。 Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。 Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。 project develops open source software for reliable, scalable, distributed puting. – The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of puters using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local putation and storage. Rather than rely on hardware to deliver highavailability, the library itself is designed to detect and handle fai