正文內(nèi)容

一篇文章讓你認識并讀懂大數(shù)據(jù)(編輯修改稿)

2025-05-15 04:27 本頁面

　

【文章內(nèi)容簡介】進行手工定向刪除。只不過他們保護的不是客戶的隱私，而大多是丑聞。還有一種職業(yè)叫人肉專家，他們負責從互聯(lián)網(wǎng)上找到一個與他們根本就無關(guān)系用戶的任意信息。這是很可怕的事情，也就是說，如果有人想找到你，只需要兩個條件：1你上過網(wǎng)，留下過痕跡；2你的親朋好友或僅僅是認識你的人上過網(wǎng)，留下過你的痕跡。這兩個條件滿足其一，人肉專家就可以很輕松的找到你，可能還知道你現(xiàn)在正在某個餐廳和誰一起共進晚餐。當很多互聯(lián)網(wǎng)企業(yè)意識到隱私對于用戶的重要性時，為了繼續(xù)得到用戶的信任，他們采取了很多辦法，比如google承諾僅保留用戶的搜索記錄9個月，瀏覽器廠商提供了無痕沖浪模式，社交網(wǎng)站拒絕公共搜索引擎的爬蟲進入，并將提供出去的數(shù)據(jù)全部采取匿名方式處理等。在這種復雜的環(huán)境里面，很多人依然沒有建立對于信息隱私的保護意識，讓自己一直處于被滋擾，被精心設計，被利用，被監(jiān)視的處境中?？墒?，我們能做的幾乎微乎其微，因為個人隱私數(shù)據(jù)已經(jīng)無法由我們自己掌控了，就像一首詩里說到的：“如果你現(xiàn)在繼續(xù)麻木，那就別指望這麻木能抵擋得住被”扒光”那一刻的驚恐和絕望……”和大數(shù)據(jù)相關(guān)的技術(shù)216。云技術(shù)大數(shù)據(jù)常和云計算聯(lián)系到一起，因為實時的大型數(shù)據(jù)集分析需要分布式處理框架來向數(shù)十、數(shù)百或甚至數(shù)萬的電腦分配工作?？梢哉f，云計算充當了工業(yè)革命時期的發(fā)動機的角色，而大數(shù)據(jù)則是電。云計算思想的起源是麥卡錫在上世紀60年代提出的：把計算能力作為一種像水和電一樣的公用事業(yè)提供給用戶。如今，在Google、Amazon、Facebook等一批互聯(lián)網(wǎng)企業(yè)引領下，一種行之有效的模式出現(xiàn)了：云計算提供基礎架構(gòu)平臺，大數(shù)據(jù)應用運行在這個平臺上。業(yè)內(nèi)是這么形容兩者的關(guān)系：沒有大數(shù)據(jù)的信息積淀，則云計算的計算能力再強大，也難以找到用武之地；沒有云計算的處理能力，則大數(shù)據(jù)的信息積淀再豐富，也終究只是鏡花水月。那么大數(shù)據(jù)到底需要哪些云計算技術(shù)呢？這里暫且列舉一些，比如虛擬化技術(shù)，分布式處理技術(shù)，海量數(shù)據(jù)的存儲和管理技術(shù)，NoSQL、實時流數(shù)據(jù)處理、智能分析技術(shù)（類似模式識別以及自然語言理解）等。云計算和大數(shù)據(jù)之間的關(guān)系可以用下面的一張圖來說明，兩者之間結(jié)合后會產(chǎn)生如下效應：可以提供更多基于海量業(yè)務數(shù)據(jù)的創(chuàng)新型服務；通過云計算技術(shù)的不斷發(fā)展降低大數(shù)據(jù)業(yè)務的創(chuàng)新成本。如果將云計算與大數(shù)據(jù)進行一些比較，最明顯的區(qū)分在兩個方面：第一，在概念上兩者有所不同，云計算改變了IT，而大數(shù)據(jù)則改變了業(yè)務。然而大數(shù)據(jù)必須有云作為基礎架構(gòu)，才能得以順暢運營。第二，大數(shù)據(jù)和云計算的目標受眾不同，云計算是CIO等關(guān)心的技術(shù)層，是一個進階的IT解決方案。而大數(shù)據(jù)是CEO關(guān)注的、是業(yè)務層的產(chǎn)品，而大數(shù)據(jù)的決策者是業(yè)務層。216。分布式處理技術(shù)分布式處理系統(tǒng)可以將不同地點的或具有不同功能的或擁有不同數(shù)據(jù)的多臺計算機用通信網(wǎng)絡連接起來，在控制系統(tǒng)的統(tǒng)一管理控制下，協(xié)調(diào)地完成信息處理任務—這就是分布式處理系統(tǒng)的定義。以Hadoop（Yahoo）為例進行說明，Hadoop是一個實現(xiàn)了MapReduce模式的能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架，是以一種可靠、高效、可伸縮的方式進行處理的。而MapReduce是Google提出的一種云計算的核心計算模式，是一種分布式運算技術(shù)，也是簡化的分布式編程模式，MapReduce模式的主要思想是將自動分割要執(zhí)行的問題（例如程序）拆解成map（映射）和reduce（化簡）的方式，在數(shù)據(jù)被分割后通過Map 函數(shù)的程序?qū)?shù)據(jù)映射成不同的區(qū)塊，分配給計算機機群處理達到分布式運算的效果，在通過Reduce 函數(shù)的程序?qū)⒔Y(jié)果匯整，從而輸出開發(fā)者需要的結(jié)果。再來看看Hadoop的特性，第一，它是可靠的，因為它假設計算元素和存儲會失敗，因此它維護多個工作數(shù)據(jù)副本，確保能夠針對失敗的節(jié)點重新分布處理。其次，Hadoop 是高效的，因為它以并行的方式工作，通過并行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級數(shù)據(jù)。此外，Hadoop 依賴于社區(qū)服務器，因此它的成本比較低，任何人都可以使用。你也可以這么理解Hadoop的構(gòu)成，Hadoop=HDFS（文件系統(tǒng)，數(shù)據(jù)存儲技術(shù)相關(guān)）+HBase（數(shù)據(jù)庫）+MapReduce（數(shù)據(jù)處理）+……OthersHadoop用到的一些技術(shù)有：167。 HDFS: Hadoop分布式文件系統(tǒng)(Distributed File System) － HDFS (HadoopDistributed File System)167。 MapReduce：并行計算框架167。 HBase: 類似Google BigTable的分布式NoSQL列數(shù)據(jù)庫。167。 Hive：數(shù)據(jù)倉庫工具，由Facebook貢獻。167。 Zookeeper：分布式鎖設施，提供類似Google Chubby的功能，由Facebook貢獻。167。 Avro：新的數(shù)據(jù)序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機制。167。 Pig:大數(shù)據(jù)分析平臺，為用戶提供多種接口。167。 Ambari：Hadoop管理工具，可以快捷的監(jiān)控、部署、管理集群。167。 Sqoop：用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫間進行數(shù)據(jù)的傳遞。說了這么多，舉個實際的例子，雖然這個例子有些陳舊，但是淘寶的海量數(shù)據(jù)技術(shù)架構(gòu)還是有助于我們理解對于大數(shù)據(jù)的運作處理機制:如上圖所示，淘寶的海量數(shù)據(jù)產(chǎn)品技術(shù)架構(gòu)分為五個層次，從上至下來看它們分別是：數(shù)據(jù)源，計算層，存儲層，查詢層和產(chǎn)品層。數(shù)據(jù)來源層。存放著淘寶各店的交易數(shù)據(jù)。在數(shù)據(jù)源層產(chǎn)生的數(shù)據(jù)，通過DataX，DbSync和Timetunel準實時的傳輸?shù)较旅娴?點所述的“云梯”。計算層。在這個計算層內(nèi)，淘寶采用的是Hadoop集群，這個集群，我們暫且稱之為云梯，是計算層的主要組成部分。在云梯上，系統(tǒng)每天會對數(shù)據(jù)產(chǎn)品進行不同的MapReduce計算。存儲層。在這一層，淘寶采用了兩個東西，一個使MyFox，一個是Prom。MyFox是基于MySQL的分布式關(guān)系型數(shù)據(jù)庫的集群，Prom是基于Hadoop Hbase技術(shù)的一個NoSQL的存儲集群。查詢層。在這一層中，Glider是以HTTP協(xié)議對外提供restful方式的接口。數(shù)據(jù)產(chǎn)品通過一個唯一的URL來獲取到它想要的數(shù)據(jù)。同時，數(shù)據(jù)查詢即是通過MyFox來查詢的。最后一層是產(chǎn)品層，這個就不用解釋了。216。存儲技術(shù)大數(shù)據(jù)可以抽象的分為大數(shù)據(jù)存儲和大數(shù)據(jù)分析，這兩者的關(guān)系是：大數(shù)據(jù)存儲的目的是支撐大數(shù)據(jù)分析。到目前為止，還是兩種截然不同的計算機技術(shù)領域：大數(shù)據(jù)存儲致力于研發(fā)可以擴展至PB甚至EB級別的數(shù)據(jù)存儲平臺；大數(shù)據(jù)分析關(guān)注在最短時間內(nèi)處理大量不同類型的數(shù)據(jù)集。提到存儲，有一個著名的摩爾定律相信大家都聽過：18個月集成電路的復雜性就增加一倍。所以，存儲器的成本大約每1824個月就下降一半。成本的不斷下降也造就了大數(shù)據(jù)的可存儲性。比如，Google大約管理著超過50萬臺服務器和100萬塊硬盤，而且Google還在不斷的擴大計算能力和存儲能力，其中很多的擴展都是

點擊復制文檔內(nèi)容

公司管理相關(guān)推薦

帶您認識大數(shù)據(jù)-資料下載頁

【總結(jié)】帶您認識大數(shù)據(jù)本刊編輯部“大數(shù)據(jù)”的由來2008年9月4日，英國《自然》雜志刊登了一個名為“BigData”的專輯，首次提出大數(shù)據(jù)概念，該專輯對如何研究PB級容量的大數(shù)據(jù)流，以及目前正在制訂的、用以最為充分地利用海量數(shù)據(jù)的最新策略進行了探討。2011、2012年達沃斯世界經(jīng)濟論壇將大數(shù)據(jù)作為專題討論的主題之一，發(fā)布了《大數(shù)據(jù)、大影響：國際發(fā)展新的可能性》等系列報告。2011

2025-06-27 14:23

曹劌論戰(zhàn)-(左傳莊公十年中的一篇文章)-資料下載頁

【總結(jié)】曹劌論戰(zhàn)（《左傳·莊公十年》中的一篇文章）《曹劌論戰(zhàn)》出自《左傳·莊公十年》。講述了曹劌在長勺之戰(zhàn)中對此次戰(zhàn)爭的一番評論，并在戰(zhàn)時活用“一鼓作氣，再而衰，三而竭”的原理擊退強大的齊軍的史實。文章說明了在戰(zhàn)爭中如何正確運用戰(zhàn)略防御原則——只有“取信于民”，實行“敵疲我打”的正確方針，選擇反攻和追擊的有利時機，才能以小敵大，以弱勝強。作品名稱《曹劌論戰(zhàn)》外文

2025-06-28 10:10

一篇勵志文章-資料下載頁

【總結(jié)】刻苦拼搏攀登人生理想的巔峰一位清華在校生的報告各位同學好：今天，我非常榮幸的站在這里給大家做一個關(guān)于高中學習方面的報告,下面我將結(jié)合自己在高中三年和大學三年的所見所感所想，通過一些事例向大家說明我們將會在高中遇到的一些問題及處理辦法。我希望大家從我的報告中吸取經(jīng)驗教訓，少走彎路，并且為自己樹立目標，堅定信心，最終走進理想的大學。我們?nèi)绾未_定目標，樹立理想我們中學每年考上重點大

2025-08-04 23:16

大數(shù)據(jù)技術(shù)的初步認識-資料下載頁

【總結(jié)】精選資料大數(shù)據(jù)技術(shù)調(diào)研大數(shù)據(jù)研發(fā)小組蘇林東2017/05北京應用物理與計算數(shù)學研究所，大數(shù)據(jù)聯(lián)合實驗室，2017目錄?什么是大數(shù)據(jù)技術(shù)？?大數(shù)據(jù)技術(shù)發(fā)展歷程?大數(shù)據(jù)生命周期?大數(shù)據(jù)技術(shù)生態(tài)?大數(shù)據(jù)技術(shù)應用2什么是大數(shù)據(jù)技術(shù)？●大數(shù)據(jù)技術(shù)——在巨量的數(shù)據(jù)資源中提取到有價

2025-07-30 07:41

作文讓你的文章會唱歌-資料下載頁

【總結(jié)】睢寧新世紀中學年級初三學科語文教案主備王洪參教學課題讓你的作文會唱歌時間2012/11/29學情分析學生作文語言太平淡，缺少文采和意蘊。教學目標1、能發(fā)現(xiàn)和認識自己語言上的不足，有意識地提煉語言。2、積累積極健康歌詞，豐富語言詞匯。3、巧妙運用歌詞，讓語句更生動地照應主題，成為點睛之筆。教學重點

2025-05-11 23:23

一句話讓你讀懂詩經(jīng)最美篇目-資料下載頁

【總結(jié)】第一篇：一句話讓你讀懂《詩經(jīng)》最美篇目全國領導的中小學生在線一對一輔導平臺一句話讓你讀懂《詩經(jīng)》最美篇目清風自來兮，汝心安在否?走進靈魂深處，最美不過《詩經(jīng)》，且歌且吟，領略一世繁華。一句...

2025-11-06 12:16

大數(shù)據(jù)的認識與思考-資料下載頁

【總結(jié)】“大數(shù)據(jù)”的認識與思考劉姝祎目錄1“大數(shù)據(jù)”的時代背景 4“大數(shù)據(jù)”的概念 4“大數(shù)據(jù)”產(chǎn)生的背景 4“大數(shù)據(jù)”的特征 5“大數(shù)據(jù)”的發(fā)展階段 5“大數(shù)據(jù)”帶來的機遇 62“大數(shù)據(jù)”的關(guān)鍵技術(shù) 9“大數(shù)據(jù)”的采集和預處理 9“大數(shù)據(jù)”存儲技術(shù) 10“大數(shù)據(jù)”

2025-06-29 12:23

4你要學習,你要學習,你要學習——這篇文章太給力了-資料下載頁

【總結(jié)】第1頁共19頁你要學習,你要學習,你要學習——這篇文章太給力了第一篇。你要學習，你要學習，你要學習——這篇文章太給力了寂寞。一個人早起晚睡不難，但在一群晚起早睡的人中早起晚睡不...

2025-08-18 02:48

讓你的文章亮起來-資料下載頁

【總結(jié)】讓你的文章亮起來！可著色之處一、標題二、開頭三、主體構(gòu)思四、語言五、結(jié)尾六、文面一、擬一個新穎別致的標題發(fā)散思維擬題法形象化擬題法借用化用擬題法

2025-10-31 05:14

40篇文章掌握3500詞匯-資料下載頁

【總結(jié)】40篇文章掌握3500詞匯--------------------------------------------------------------------------------來源：高中英語教學交流發(fā)布時間：2012-12-1110:54:56查看次數(shù)：4175-------------------------------------------------

2025-05-29 22:04

英語短篇文章-資料下載頁

【總結(jié)】第一篇：英語短篇文章 Theone-secondtipforwhenyou’refeelingnervousandunconfidentissimplytosmile!Youdon’tjusts...

2025-10-04 19:03

文明審計需做好“三篇文章”-資料下載頁

【總結(jié)】文明審計需做好“三篇文章”2015年《審計署文明審計暫行辦法》的出臺，對審計行為提出了更高、更明確的文明要求，對不文明行為提出了處罰意見，筆者認為，當前需積極著眼于“人”、“事”、“愛”三個字，做好文明審計的“大文章”。一、做好“人”字文章，老實厚道，文明做人做事先做人，文明審計首先體現(xiàn)在與人打交道方面，要會做人，需做到三個必須。必須厚道做人。要樹立正確的世界觀、人生觀、價值

2025-04-15 08:06

40篇文章搞定英語高考3500詞匯-資料下載頁

【總結(jié)】英語高考3500詞匯1．一宗謀殺案　　Whengivingalectureaboutthesignificanceofpunctuation,theacademicprofessorwasinterruptedandarrestedbythepoliceformurderinghiswife,areceptionistofakinde

2025-05-11 22:17

2022在北大校園bbs引起轟動的一篇文章參考演講稿-資料下載頁

【總結(jié)】在北大校園BBS引起轟動的一篇文章參考演講稿　　國旗下的講話: 　　　　主講:劉悅欽　　我從東北的哈爾濱來到了上海,異鄉(xiāng)的生活,給了我更多的時機接觸不同的人和事,也讓我有時機能夠更深的考慮...

2025-01-17 05:03

影響企業(yè)家的33篇文章-資料下載頁

【總結(jié)】《什么是戰(zhàn)略？》陳春花的推薦　　陳春花，華南理工大學工商管理學院教授　　推薦語：善弈者，謀勢　　"善弈者，謀勢，不善弈者，謀子"，是古人對弈棋之道的經(jīng)驗性概括。高明的棋手與人對弈，總是顧全大局，籌劃全盤，攻守有度，進退得宜，方可穩(wěn)操勝券。若只注意謀子，一時殺伐雖然痛快，卻忽略了大勢的變化，縱使開頭略有小得，最終也會因籌劃而失去未來。優(yōu)秀的企業(yè)領導

2025-04-16 02:06