【正文】
關(guān)系像互聯(lián)網(wǎng)、云計算以及物聯(lián)網(wǎng)等技術(shù)一樣,大數(shù)據(jù)時代的到來勢必會再次讓信息技術(shù)領(lǐng)域煥然一新。在制定行業(yè)的標準時,性能、持有成本和能源效率是成功的三大關(guān)鍵。.從數(shù)據(jù)集成到數(shù)據(jù)分析,直到最后的數(shù)據(jù)解釋,易用性應(yīng)當貫穿整個大數(shù)據(jù)的流程.易用性的挑戰(zhàn)突出體現(xiàn)在兩個方面:首先大數(shù)據(jù)時代的數(shù)據(jù)量大,分析更復(fù)雜,得到的結(jié)果形式更加多樣化.其復(fù)雜程度已經(jīng)遠遠超出傳統(tǒng)的關(guān)系數(shù)據(jù)庫.其次大數(shù)據(jù)已經(jīng)廣泛滲透到人們生活的各個方面,很多行業(yè)都開始有了大數(shù)據(jù)分析的需求.數(shù)據(jù)庫產(chǎn)品的成功離不開以TPC系列為代表的測試基準的產(chǎn)生.正是有了這些測試基準,才能夠準確地衡量不同數(shù)據(jù)庫產(chǎn)品的性能,并對其存在的問題進行改進。硬件的快速升級換代有力地促進了大數(shù)據(jù)的發(fā)展。如果對私人數(shù)據(jù)使用不當,尤其是泄漏有一定關(guān)聯(lián)的多組數(shù)據(jù),將導(dǎo)致用戶的隱私泄漏。計算機的出現(xiàn)使得越來越多的數(shù)據(jù)以數(shù)字化的形式存儲在電腦中,互聯(lián)網(wǎng)的發(fā)展則使數(shù)據(jù)更加容易產(chǎn)生和傳播,數(shù)據(jù)隱私問題越來越嚴重.大數(shù)據(jù)高度依賴數(shù)據(jù)存儲與共享,必須考慮尋求更好的方法消除各種隱患與漏洞,才能有效地管控安全風(fēng)險。據(jù)阿里巴巴稱,雖然其各類業(yè)務(wù)產(chǎn)生的數(shù)據(jù)為數(shù)據(jù)分析創(chuàng)造了非常好的基礎(chǔ)條件,然而卻招聘不到合適的數(shù)據(jù)科學(xué)家而影響了研發(fā)進展。傳統(tǒng)意義上的數(shù)據(jù)分析主要針對結(jié)構(gòu)化數(shù)據(jù)展開,且已經(jīng)形成了一整套行之有效的分析體系.首先利用數(shù)據(jù)庫來存儲結(jié)構(gòu)化數(shù)據(jù),在此基礎(chǔ)上構(gòu)建數(shù)據(jù)倉庫,根據(jù)需要構(gòu)建數(shù)據(jù)立方體進行聯(lián)機分析處理(online analytical processing,OI。(二)面臨的挑戰(zhàn) 數(shù)據(jù)的廣泛存在性使得數(shù)據(jù)越來越多地散布于不同的數(shù)據(jù)管理系統(tǒng)中,為了便于進行數(shù)據(jù)分析需要進行數(shù)據(jù)的集成.數(shù)據(jù)集成看起來并不是一個新的問題,但是大數(shù)據(jù)時代的數(shù)據(jù)集成卻有了新的需求,因此也面臨著新的挑戰(zhàn).1)廣泛的異構(gòu)性.傳統(tǒng)的數(shù)據(jù)集成中也會面對數(shù)據(jù)異構(gòu)的問題,但是在大數(shù)據(jù)時代這種異構(gòu)性出現(xiàn)了新的變化,大量出現(xiàn)的各種數(shù)據(jù)本身是非結(jié)構(gòu)化的或弱結(jié)構(gòu)化的,如留言、博客、圖像、視頻數(shù)據(jù)等,如何將這些數(shù)據(jù)轉(zhuǎn)化成一個結(jié)構(gòu)化的格式是研究者面臨的一項重大挑戰(zhàn).2)數(shù)據(jù)質(zhì)量.數(shù)據(jù)量大不一定就代表信息量或者數(shù)據(jù)價值的增大,大數(shù)據(jù)最為嚴重的風(fēng)險存在于數(shù)據(jù)分析層面。信息安全預(yù)計未來3年CAGR有望保持35%~40%的快速增長,十二五期間潛在產(chǎn)值將超4000億元。,使商業(yè)智能信息安全和云計算具有更大潛力。隨著移動互聯(lián)網(wǎng)物聯(lián)網(wǎng)等新興IT技術(shù)逐漸步入主流,大數(shù)據(jù)使得數(shù)據(jù)價值極大提高,無處不在的數(shù)據(jù),對信息安全提出了更高要求 同時,大數(shù)據(jù)領(lǐng)域出現(xiàn)的許多新興技術(shù)與產(chǎn)品將為安全分析提供新的可能性。大數(shù)據(jù)的重心將從存儲和傳輸,過渡到數(shù)據(jù)的挖掘和應(yīng)用,這將深刻影響企業(yè)的商業(yè)模式 據(jù)麥肯錫測算,大數(shù)據(jù)的應(yīng)用每年潛在可為美國醫(yī)療健康業(yè)和歐洲政府分別節(jié)省3000億美元和1000億歐元,利用個人位置信息潛在可創(chuàng)造出6000億美元價值,因此大數(shù)據(jù)應(yīng)用具有遠超萬億美元的大市場。關(guān)系數(shù)據(jù)庫在很長的時間里成為數(shù)據(jù)管理的最佳選擇,但是在大數(shù)據(jù)時代,數(shù)據(jù)管理、分析等的需求多樣化使得關(guān)系數(shù)據(jù)庫在很多場景不再適用.而HadOop是目前最為流行的大數(shù)據(jù)處理平臺.而Hadoop最先是Doug Cutting模仿GFS,MapReduce實現(xiàn)的一個云計算開源平臺,后貢獻給Apache.Hadoop已經(jīng)發(fā)展成為包括文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(HBase、Cassandra)、數(shù)據(jù)處理(MapReduce)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)(Ecosystem).某種程度上可以說Hadoop已經(jīng)成為大數(shù)據(jù)處理工具事實上的標準.三、大數(shù)據(jù)時代面臨的機遇與挑戰(zhàn)綜上所述,大數(shù)據(jù)時代的數(shù)據(jù)存在著如下幾個特點:多源異構(gòu);分布廣泛;動態(tài)增長;先有數(shù)據(jù)后有模式.正是這些與傳統(tǒng)數(shù)據(jù)管理迥然不同的特點,使得大數(shù)據(jù)時代的數(shù)據(jù)管理面臨著新的機遇與挑戰(zhàn)。據(jù)查詢是數(shù)據(jù)庫最重要的應(yīng)用之一,而索引則是解決數(shù)據(jù)查詢問題的有效方案。大數(shù)據(jù)的基礎(chǔ)平臺與支撐技術(shù)如果將各種大數(shù)據(jù)的應(yīng)用比作一輛輛“汽車”,支撐起這些“汽車”運行的“高速公路”就是云計算.正是云計算技術(shù)在數(shù)據(jù)存儲、管理與分析等方面的支撐,才使得大數(shù)據(jù)有用武之地.文件系統(tǒng)是支撐上層應(yīng)用的基礎(chǔ)。隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)本身就是資產(chǎn)云計算為數(shù)據(jù)資產(chǎn)提供了保管訪問的場所和渠道,但如何盤活數(shù)據(jù)資產(chǎn),使其為國家治理企業(yè)決策乃至個人生活服務(wù),是大數(shù)據(jù)的核心議題,也是云計算的靈魂和必然的升級方向。在物聯(lián)網(wǎng)時代,成萬上億計的網(wǎng)絡(luò)傳感器嵌入在數(shù)量不斷增長的智能電表、移動電話、汽車等物理設(shè)備中,不斷感知、生成并傳輸超大規(guī)模的有關(guān)地理位置、振動、溫度、濕度等新型數(shù)據(jù)。同時,隨著存儲設(shè)備、內(nèi)存、處理器等電腦元件成本的穩(wěn)定下降,使得之前較昂貴的大規(guī)模數(shù)據(jù)存儲和處理變得十分經(jīng)濟,也使得大數(shù)據(jù)的存在成為可能。一、大數(shù)據(jù)的基本概念及大數(shù)據(jù)時代產(chǎn)生的必然數(shù)據(jù)是云計算技術(shù)的延伸,更是社會進步和發(fā)展的必然結(jié)果,大數(shù)據(jù)時代的到來引領(lǐng)了未來IT技術(shù)發(fā)展的戰(zhàn)略走向。第一篇:大數(shù)據(jù)信息檢索論文大數(shù)據(jù)的概念、技術(shù)與挑戰(zhàn)學(xué) 院: 專業(yè)名稱:學(xué) 號: 姓 名:信息科學(xué)與技術(shù)學(xué)院 計算機應(yīng)用技術(shù)指導(dǎo)教師: 時 間:大數(shù)據(jù)的概念、技術(shù)與挑戰(zhàn)【摘要】計算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新興服務(wù)促使人類社會的數(shù)據(jù)種類和規(guī)模正以前所未有的速度增長,大數(shù)據(jù)時代正式到來.數(shù)據(jù)從簡單的處理對象開始轉(zhuǎn)變?yōu)橐环N基礎(chǔ)性資源,如何更好地管理和利用大數(shù)據(jù)已經(jīng)成為普遍關(guān)注的話題.大數(shù)據(jù)的規(guī)模效應(yīng)給數(shù)據(jù)存儲、管理以及數(shù)據(jù)分析帶來了極大的挑戰(zhàn),數(shù)據(jù)管理方式上的變革正在醞釀和發(fā)生.對大數(shù)據(jù)的基本概念進行剖析,并對大數(shù)據(jù)的主要應(yīng)用作簡單對比.在此基礎(chǔ)上,闡述大數(shù)據(jù)處理的基本框架,并就云計算技術(shù)對于大數(shù)據(jù)時代數(shù)據(jù)管理所產(chǎn)生的作用進行分析.最后歸納總結(jié)大數(shù)據(jù)時代所面臨的新挑戰(zhàn).【關(guān)鍵詞】大數(shù)據(jù),技術(shù),挑戰(zhàn),數(shù)據(jù)分析,云計算近年來,伴隨著物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)等新技術(shù)的迅猛發(fā)展,數(shù)據(jù)正以前所未有的速度不斷增長和積累,大數(shù)據(jù)時代已經(jīng)到來,這引起了產(chǎn)業(yè)界 學(xué)術(shù)界 科技界和政府機構(gòu)的廣泛關(guān)注。大數(shù)據(jù)的火熱并不意味著對于大數(shù)據(jù)的了解深入,反而表明大數(shù)據(jù)存在過度炒作的危險.大數(shù)據(jù)的基本概念、關(guān)鍵技術(shù)以及對其利用上均存在很多的疑問和爭議。在信息和網(wǎng)絡(luò)技術(shù)飛速發(fā)展的今天,越來越多的企業(yè)業(yè)務(wù)及社會活動實現(xiàn)了數(shù)字化,特別是隨著數(shù)據(jù)生成的自動化及數(shù)據(jù)生成速度的加快,數(shù)據(jù)量也隨之快速增長。傳感器數(shù)據(jù)也是大數(shù)據(jù)的主要來源之一。二、大數(shù)據(jù)的特點及關(guān)鍵技術(shù)分析大數(shù)據(jù)不是一種新技術(shù),也不是一種新產(chǎn)品,而是一種新現(xiàn)象,是近來研究的一個技術(shù)熱點 大數(shù)據(jù)具有以下4個特點,即4個V:(1)數(shù)據(jù)體量(Volumes)巨大大型數(shù)據(jù)集,從TB級別,躍升到PB級別;(2)數(shù)據(jù)類別(Variety)繁多 數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式?jīng)_破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);(3)價值(Value)密度低 以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅一兩秒鐘;(4)處理速度(Velocity)快 包含大量在線或?qū)崟r數(shù)據(jù)分析處理的需求,1秒定律。原始的數(shù)據(jù)存儲在文件系統(tǒng)之中,但是用戶習(xí)慣通過數(shù)據(jù)庫系統(tǒng)來存取文件.因為這樣會屏蔽掉底層的細節(jié),且方便數(shù)據(jù)管理.直接采用關(guān)系模型的分布式數(shù)據(jù)庫并不能適應(yīng)大數(shù)據(jù)時代的數(shù)據(jù)存儲。而數(shù)據(jù)分析技術(shù)是最核心的業(yè)務(wù)。(一)大數(shù)據(jù)帶來的機遇,將從多個方面創(chuàng)造價值。,為信息安全帶來發(fā)展契機。信息安全和云計算貫穿于大數(shù)據(jù)產(chǎn)業(yè)鏈的各個環(huán)節(jié),云安全等關(guān)鍵技術(shù)將更安全地保護數(shù)據(jù) 大數(shù)據(jù)對信息安全的要求和促進將推動信息安全產(chǎn)業(yè)的大發(fā)展。大數(shù)據(jù)產(chǎn)業(yè)鏈按產(chǎn)品形態(tài)分為硬件基礎(chǔ)軟件和應(yīng)用軟件三大領(lǐng)域,商業(yè)智能信息安全和云計算主題橫跨三大領(lǐng)域,將構(gòu)成產(chǎn)業(yè)鏈中快速發(fā)展的三駕馬車就國內(nèi)而言,商業(yè)智能市場已步入成長期,預(yù)計未來3年復(fù)合年均增長率(CAGR)為35%,十二五期間潛在產(chǎn)值將超300億元。云計算剛進入成長期,預(yù)計未來5年CAGR將超50%,2015年產(chǎn)業(yè)規(guī)模預(yù)計將達1萬億元。數(shù)據(jù)量的增大會帶來規(guī)律的喪失和嚴重失真。AP),可以進行多個維度的下鉆(drill一down)或上卷(roll—up)操作.對于從數(shù)據(jù)中提煉更深層次的知識的需求促使數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,并發(fā)明了聚類、關(guān)聯(lián)分析等一系列在實踐中行之有效的方法.這一整套處理流程在處理相對較少的結(jié)構(gòu)化數(shù)據(jù)時極為高效.但是隨著大數(shù)據(jù)時代的到來,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的迅猛增長,給傳統(tǒng)的分析技術(shù)帶來了巨大的沖擊和挑戰(zhàn)。隱私問題由來已久,這基本也是大家最關(guān)心的問題。數(shù)據(jù)的隱私保護是大數(shù)據(jù)分析和處理面臨的重要問題,既是技術(shù)問題也是社會學(xué)問題。在能源價格上漲、數(shù)據(jù)中心存儲規(guī)模不斷擴大的今天,高能耗已逐漸成為制約大數(shù)據(jù)快速發(fā)展的一個主要瓶頸.從小型集群到大規(guī)模數(shù)據(jù)中心都面臨著降低能耗的問題,但是尚未引起足夠多的重視,相關(guān)的研究成果也較少.在大數(shù)據(jù)管理系統(tǒng)中,能耗主要由兩大部分組成:硬件能耗和軟件能耗,二者之中又以硬件能耗為主.理想狀態(tài)下,整個大數(shù)據(jù)管理系統(tǒng)的能耗應(yīng)該和系統(tǒng)利用率成正比.但是實際情況并不像預(yù)期情況,系統(tǒng)利用率為0時仍然有能量消耗??梢酝ㄟ^舍棄一些不必要的性能和精確性來獲取更為重要的性能和精確性。在過去20年里,產(chǎn)業(yè)基準起到了很大的作用。產(chǎn)業(yè)界標準的基準都扮演了非常重要的作用,進一步推動了計算機產(chǎn)業(yè)科學(xué)的發(fā)展【33】。大數(shù)據(jù)時代下,每個個體都是數(shù)據(jù)的產(chǎn)生者,企業(yè)的任何一項業(yè)務(wù)活動都可以用數(shù)據(jù)來表示,如何保證大數(shù)據(jù)的質(zhì)量,如何建模、提取并利用隱藏在大數(shù)據(jù)中的信息以提升企業(yè)信息系統(tǒng)績效、提升企業(yè)決策能力,成為擺在業(yè)界和學(xué)術(shù)界面前的重大難題。感謝:郭彥紅老師給予的的指導(dǎo)和提供的課件,以及所參考的文獻的所有作者。計算機研究與發(fā)展[146169,2013] [2]朱志軍,閏蕾,等.大數(shù)據(jù)——大價值、大機遇、大變革[M】.電子工業(yè)出版社,2012.[3]大數(shù)據(jù)分析技術(shù)的發(fā)展[EB/OL]. 2012-05-16. : //tech. ccidnet. /art/32963/20120516/3859799_1. html.第二篇:大數(shù)據(jù)信息檢索論文(范文)淺談大數(shù)據(jù)的概念、技術(shù)與挑戰(zhàn)王濤(信管110502220)摘要:計算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新興服務(wù)促使人類社會的數(shù)據(jù)種類和規(guī)模正以前所未有的速度增長,大數(shù)據(jù)時代正式到來.數(shù)據(jù)從簡單的處理對象開始轉(zhuǎn)變?yōu)橐环N基礎(chǔ)性資源,如何更好地管理和利用大數(shù)據(jù)就云計算技術(shù)對于大數(shù)據(jù)時代數(shù)據(jù)管理所產(chǎn)生的作用進行分析.最后歸納總結(jié)大數(shù)據(jù)時代所面臨的新挑戰(zhàn).關(guān)鍵詞:大數(shù)據(jù);技術(shù);挑戰(zhàn);數(shù)據(jù)分析;云計算Abstract: Data type and amount in human society is growing in amazing speed which is caused by emerging new services such as cloud puting,internet of things and social network,the era of big data has e. Data has been fundamental resource from simple dealing object,and how to manage and utilize big data better has attracted much attention.key words:big da