freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

讀大數(shù)據(jù)時代有感(編輯修改稿)

2024-10-13 18:51 本頁面
 

【文章內(nèi)容簡介】 們的偉大。這提示我們應(yīng)該樂于接受類似的不準確,因為不準確正是我們之所以為人的特征之一。以上就是我的一些感悟,在大數(shù)據(jù)時代的背景下,我們應(yīng)該看到其更深層次的東西,抓住機遇迎接挑戰(zhàn),不斷進步。摘錄部分:下面摘錄一部分我在知乎上看到的關(guān)于《大數(shù)據(jù)時代》的討論,網(wǎng)友提出的質(zhì)疑同樣值得我們深思。作者:AndyHsu來源:知乎鏈接:《大數(shù)據(jù)時代:生活、工作、思維的大變革》。我看推薦說這是?迄今為止最好的一本大數(shù)據(jù)專著?。目前公司在搞Hadoop、大數(shù)據(jù)應(yīng)用,外面各類零碎的資料也非常多,那么想我應(yīng)該去看一下這?最好?的專著吧。一、主要觀點上可以探討的地方作者提出了關(guān)于大數(shù)據(jù)的?擲地有聲?的三個原則。這三個原則凡講大數(shù)據(jù)必被提及,很多人奉為圭臬。但是我覺得每一點都值得探討。這三點分別是:不是隨機樣本,而是全體數(shù)據(jù);不是精確性,而是混雜性;不是因果關(guān)系,而是相關(guān)關(guān)系??赐曛蟾杏X都有點不是那么回事。,而是全體數(shù)據(jù)這個說得好像人類從來就不知道使用全體數(shù)據(jù)可以得到更全面的結(jié)論,而非要去煞費苦心發(fā)展出一套抽樣技術(shù)一樣。人類早就知道處理全量數(shù)據(jù)的好處,而之所以要進行抽樣分析,原因不外乎兩點:一是處理能力跟不上,二是數(shù)據(jù)收集能力跟不上。作者認為人類之前主要受限于數(shù)據(jù)的處理能力而不去處理全量數(shù)據(jù),但在目前機器處理能力有了巨大的提升的時代,限制絕大多數(shù)應(yīng)用的瓶頸不是計算能力而是數(shù)據(jù)采集能力(不要去提那些極少數(shù)需要超級計算機的場合,那個和多數(shù)人無關(guān)、和本書的商業(yè)主題也無關(guān))。但是即便如此,抽樣所要針對的很多應(yīng)用場景是不太可能收集全量數(shù)據(jù)的情況。比如人口普查,無論計算機力量如何強大,當前很多數(shù)據(jù)還是要人工去收集,所以這個普查還是要用抽樣的方式。有意思的是,作者用人口普查是抽樣分析來說明非?全量?時代我們被迫采用了抽樣,而最終也沒法說我們是否已經(jīng)可以用全量數(shù)據(jù)來做人口普查了。實際上至少在目前,對于人口普查,抽樣還是必然的選擇(嗯,你可以設(shè)想,以后人人都裝一塊芯片,你可以在你的PPT里講給你的客戶和老板聽)。再比如我們統(tǒng)計里的經(jīng)典問題:怎么估算一批零件的使用壽命?怎么去分析一批奶品里的三聚氰胺?以前我們不可能去做全量測試,因為這意味著這批零件就廢了,這批奶也全部用于測試了,這樣測出結(jié)果也沒啥意義了(嗯,你也可以說:我我們?nèi)ナ占瘹v史上所有此類零件的使用情況來進行分析吧.....嗯,加油吧,雄心勃勃的騷年)?,F(xiàn)在 ?我們還是必須依賴抽樣,是必須。即便不提這些例子,僅從邏輯而言:收集、處理數(shù)據(jù)的行為本身也在不斷產(chǎn)生著新的數(shù)據(jù)。我們又怎么證明這些數(shù)據(jù)不是你需要的?全量?的一部分呢?作者的行文中,關(guān)于什么是?全量?,處于不斷的搖擺之中。有時指?我們需要的所有數(shù)據(jù)?,有時指?我們能收集到的所有數(shù)據(jù)?。作者舉了人口普查的例子,這個全量顯然指前者。而在很多商業(yè)案例中,又顯然指后者。我們有能力處理越來越多的、在以前不敢想象的大量數(shù)據(jù),但是至少目前看,我們還沒可能說我們處理了?全量?。我們最多可以說我們能處理我們能搜集到的?全量?,但如果據(jù)此產(chǎn)生了我們已經(jīng)沒有遺漏數(shù)據(jù)了的感覺,認為所有數(shù)據(jù)盡在掌握了,那我認為是一種很可能導(dǎo)致錯誤的錯覺。,而是混雜性這個么,說得好像以前的人類在使用?抽樣?數(shù)據(jù)時竟然都認為取到的數(shù)據(jù)是?精確?的一樣。在使用抽樣數(shù)據(jù)的時候,我們就知道要容忍一定的誤差。我們甚至知道在就算取得了?全樣?數(shù)據(jù)的時候,也可能因為有各種原因而導(dǎo)致的不精確,統(tǒng)計實踐中對此有相當多的案例。人類從未奢望過我們通過數(shù)據(jù)分析取得的多數(shù)結(jié)論是精確的。我們從來都要在信息混雜的情況下做出大多數(shù)的決策。,而是相關(guān)關(guān)系這是很多人(包括作者)認為最有價值、最重大的發(fā)現(xiàn),而實際上卻也是最收到批評的一個觀點。連譯者周濤教授在序言里都表示看不下去了,他至于認為如果放棄對因果關(guān)系的分析,是人類的墮落。我不說這么高的哲學層面,只從邏輯和技術(shù)上討論一下。計算機能夠提供給我們的結(jié)論(到目前為止以及在可見的未來),都是相關(guān)性。計算機從未提供過明確的因果關(guān)系給人類。是否因果關(guān)系,是人類在數(shù)據(jù)基礎(chǔ)上,進行的人為判斷。一直有相當多的應(yīng)用,也是只考慮相關(guān)性,不考慮因果關(guān)系的:確定因果關(guān)系,是需要更大的精力、更多的投入的。所以只看相關(guān)性而不看因果性也不是什么新的結(jié)論(實際上已經(jīng)是個很舊的結(jié)論了)。而這個相關(guān)性是不是可以作為決策的基礎(chǔ)呢?這個一樣離不開人的判斷。有一個這樣的故事:通過大量的數(shù)據(jù)分析,慈善組織得出結(jié)論:一個國家、地區(qū)的電視機的普及率與發(fā)達富裕程度很有關(guān)系(冰箱、洗衣機、空調(diào)、高跟鞋、牛仔褲,etc.,也會和發(fā)達程度有這樣的相關(guān)性),于是他們就向貧困國家贈送了很多電視,認為此舉可以促進該國的經(jīng)濟發(fā)展。你可以鬼扯電視的普及與經(jīng)濟文化的密切相關(guān),但是實際上最終發(fā)現(xiàn)更可能是經(jīng)濟發(fā)展導(dǎo)致了電視的普及,而不是反過來。所以,我們真的不需要因果分析嗎?說得玩笑一點:這個世界真的不需要腦子了嗎?作者舉了一個例子:谷歌分析搜索關(guān)鍵字來確定哪里可能發(fā)生了流行病。認為這就是利用了相關(guān)性而不是因果性。這是沒有利用因果判斷嗎?現(xiàn)在在投入巨大的機器資源進行分析之前,分析師已經(jīng)預(yù)計了得病的癥狀可能會導(dǎo)致人們?nèi)ゾW(wǎng)上進行相關(guān)搜索(影響了搜索行為)。谷歌存儲的用戶上網(wǎng)信息肯定遠遠不止一個搜索關(guān)鍵字,分析師為何不開足馬力把?全量?數(shù)據(jù)、各個指標都分析一遍呢?比如用戶上網(wǎng)地點?上網(wǎng)時間?上網(wǎng)頻率?上網(wǎng)語言?瀏覽器版本?客戶端操作系統(tǒng)?etc...為何會像導(dǎo)彈一樣精確地將機器資源投放到了關(guān)鍵字上呢?總之,對于這些原則,作者為了顯出新意,說得過于絕對。而排除掉絕對的成分后,這些觀點也就不顯得是創(chuàng)新了。作者把三個數(shù)據(jù)分析人員一直秉持的原則,當做全新的東西講了出來。時代在變化,我們或許應(yīng)該經(jīng)常重新審視這些原則,來確認自己的思想是不是僵化了、是不是過時了。我贊同作者重新審視這些看法,但是我覺得沒必要講得這么極端。二、細節(jié)論據(jù)上可以探討的地方除了三個大原則不足以令人完全信服,在一些細節(jié)上,作者的引證也不是很嚴謹。如第51頁,對于拼寫檢查的算法的優(yōu)化。作者提到,通過輸入大量的數(shù)據(jù),4種常見語法檢查算法的準確率提高了很多,以此說明大數(shù)據(jù)發(fā)揮了作用。這確實是個很有啟發(fā)性的例子,可以去做更深入的分析和研究,但是.....僅僅4個例子,夠得出很有力的結(jié)論嗎?4個算法,作者沒注意
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1