freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于測(cè)量的在線視頻流媒體質(zhì)量因素分析畢業(yè)論文-全文預(yù)覽

  

【正文】 //生成新的聚類中心的Map(類別,新聚類中心) tempDist = sum(((kPoints[x] y) ** 2) for (x, y) in newPoints) // 計(jì)算當(dāng)前與之前向量vectors的delta值 for (x, y) in newPoints: kPoints[x] = y //更新聚類中心到kPoint print Final centers: + str(kPoints) 在Spark中運(yùn)行 $ ~/$ ./bin/sparksubmit ~/ 5   第一個(gè)參數(shù)是k,即聚類質(zhì)心點(diǎn)(cluster centroids)。 首先通過(guò)下面的命令安裝pip,pip是Python的一個(gè)安裝和管理擴(kuò)展庫(kù)的工具。 將文本文檔qos中的第三,四,五,六列打印,并保存到新建的QOS文本文檔中。此待待測(cè)量數(shù)據(jù)文檔命名為qos,含有10140條,由用戶uid、ip地址,觀看視頻時(shí)間、緩沖次數(shù)、拖動(dòng)次數(shù),非拖動(dòng)緩沖次數(shù)這六個(gè)字段組成。 3. 對(duì)初值敏感,對(duì)于不同的初始值,可能會(huì)導(dǎo)致不同的聚類結(jié)果。 3. 算法嘗試找出使平方誤差函數(shù)值最小的k個(gè)劃分。 算法的性能分析 優(yōu)點(diǎn):1. kmeans算法是解決聚類問(wèn)題的一種經(jīng)典算法,算法簡(jiǎn)單、快速。即對(duì)每個(gè)點(diǎn)確定其聚類中心點(diǎn) 再計(jì)算其聚類新中心。μi是群組Si內(nèi)所有元素xj的重心,或叫中心點(diǎn)。對(duì)剩余的每個(gè)對(duì)象根據(jù)其與各個(gè)簇中心的距離,將它賦給最近的簇,然后重新計(jì)算每個(gè)簇的平均值。 Kmeans algorithm Kmeans[6]算法是一種得到最廣泛使用的基于劃分的聚類算法[7],把n個(gè)對(duì)象分為k個(gè)簇,以使簇內(nèi)具有較高的相似度。由聚類所生成的簇是一組數(shù)據(jù)對(duì)象的集合,這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似,與其他簇中的對(duì)象彼此相異。 然后輸入scala val count = (line = ( )).map(word = (word, 1)).reduceByKey(_+_) scala () 在字?jǐn)?shù)統(tǒng)計(jì)的例子里,map一段文本的所有文字,然后通過(guò)單詞reduce它們,最后總結(jié)出單詞的個(gè)數(shù)。 解壓編譯   :   $ tar zxvf   運(yùn)行sbt進(jìn)行編譯:   $ cd ~/   $ sbt assembly 這個(gè)步驟會(huì)下載很多庫(kù),然后進(jìn)行編譯,編譯時(shí)間大概會(huì)在1個(gè)小時(shí)左右。 安裝Scala Spark使用Scala開發(fā)的,在安裝Spark之前,先在各個(gè)節(jié)上將Scala安裝好?! ? jps  檢查各進(jìn)程是否運(yùn)行,這時(shí),應(yīng)該看到有6個(gè)java虛擬機(jī)的進(jìn)程,分別是Jps, NameNode, SecondaryNameNode, DataNode, JobTracker, TaskTracker,看到6個(gè)是對(duì)的,表明啟動(dòng)成功。上述方式就是設(shè)置公鑰/私鑰登錄。ssh是一個(gè)很著名的安全外殼協(xié)議Secure Shell Protocol。比如說(shuō),在開機(jī)的時(shí)候,登錄用戶是kavin,那么在命令終端里,”~”就表示目錄”/home/kavin”,如果開機(jī)時(shí)候,登錄用戶是john,那么”~”就表示”/home/john”目錄。 Java環(huán)境安裝與配置完成,這是我們搭建Hadoop的基礎(chǔ),因?yàn)镠adoop平臺(tái)是基于Java進(jìn)行開發(fā)與運(yùn)行的。 $ source /etc/profile 如果更改了/etc/profile配置文件,它只會(huì)在新的終端里生效,現(xiàn)在正在使用的終端是不會(huì)生效的。 添加配置: 在/etc/profile文件末尾加上如下的三行代碼: export JAVA_HOME=/usr/local/lib/ export CLASSPATH=.:$JAVA_HOME/jre/lib/:$JAVA_HOME/lib/: $JAVA_HOME/lib/ export PATH=$PATH:$JAVA_HOME/bin 保存文件,然后退出。 $ cd /usr/local/libcd就是change directory的縮寫,切換當(dāng)前目錄?;蛘呖梢源蜷_命令終端運(yùn)行”uname a”命令看一下,在筆者的筆記本上運(yùn)行這個(gè)命令結(jié)果如下:Linux ubuntu 38~precise1Ubuntu SMP Fri May 16 20:47:57 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux   后面的x86_64表明系統(tǒng)是64位的?! 拇a到動(dòng)態(tài)運(yùn)行。它要么是一個(gè)Scala的普通集合,要么是一個(gè)值,要么是空,最終或返回到Driver程序,或把RDD寫入到文件系統(tǒng)中。  它們本質(zhì)區(qū)別是:   Transformation返回值還是一個(gè)RDD。   Spark的本地模式支持多線程,有一定的單機(jī)并發(fā)處理能力。每一個(gè)RDD都是一個(gè)不可變的分布式可重算 的數(shù)據(jù)集,其記錄著確定性的操作繼承關(guān)系(lineage),所以只要輸入數(shù)據(jù)是可容錯(cuò)的,那么任意一個(gè)RDD的分區(qū)(Partition)出錯(cuò)或不可 用,都是可以利用原始輸入數(shù)據(jù)通過(guò)轉(zhuǎn)換操作而重新算出的。 2. 當(dāng)前RDD默認(rèn)是存儲(chǔ)于內(nèi)存,但當(dāng)內(nèi)存不足時(shí),RDD會(huì)spill到disk。 2. RDD的不變性,可以實(shí)現(xiàn)類Hadoop MapReduce的推測(cè)式執(zhí)行。 4. 可以控制存儲(chǔ)級(jí)別(內(nèi)存、磁盤等)來(lái)進(jìn)行重用。2. 通過(guò)已存在的RDD轉(zhuǎn)換得到新RDD。RDD必須是可序列化的。將它理解為一個(gè)大的集合,將所有數(shù)據(jù)都加載到內(nèi)存中,方便進(jìn)行多次重用。用戶可以命名,物化,控制中間結(jié)果的存儲(chǔ)、分區(qū)等。比如map,filter,flatMap,sample,groupByKey, union, join, cogroup, reduceByKey, mapValues, sort, partionBy等多種操作類型,Spark把這些操作稱為Transformations。就是對(duì)于那種增量修改的應(yīng)用模型不適合。Spark的迭代,內(nèi)存運(yùn)算能力以及交互式計(jì)算,能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce的算法。而對(duì)RDD的轉(zhuǎn)換與操作通過(guò)Scala閉包(字面量函數(shù))來(lái)表示,Scala使用Java對(duì)象來(lái)表示閉包且都是可序列化的,以此把對(duì)RDD的閉包操作發(fā)送到各Workers節(jié)點(diǎn)。與 Hadoop 類似,Spark 支持單節(jié)點(diǎn)集群或多節(jié)點(diǎn)集群。通過(guò)名為 Mesos的第三方集群框架可以支持此行為。Spark是在 Scala語(yǔ)言中實(shí)現(xiàn)的,它將Scala用作其應(yīng)用程序框架,而Scala的語(yǔ)言特點(diǎn)也鑄就了大部分Spark的成功。列舉了本論文的研究成果,并分析了研究工作的不足,展望了進(jìn)一步研究的內(nèi)容和方向。  第三章描述了平臺(tái)的搭載過(guò)程并通過(guò)運(yùn)行例子驗(yàn)證其有效性。 論文組織結(jié)構(gòu)  第一章闡述了課題的背景及意義。(2) 通過(guò)安裝hadoop、jdk、scala、spark,并配置環(huán)境變量,搭建完成Spark平臺(tái)。因此特別適合于機(jī)器學(xué)習(xí)處理來(lái)分析大數(shù)據(jù)。RDD能夠從磁盤讀取然后保持在內(nèi)存中,提高了性能,這和Hadoop大部分基于磁盤的速度要快多。需要反復(fù)操作的次數(shù)越多,所需讀取的數(shù)據(jù)量越大,受益越大,數(shù)據(jù)量小但是計(jì)算密集度較大的場(chǎng)合,受益就相對(duì)較小。這些集合是彈性的,如果數(shù)據(jù)集一部分丟失,則可以對(duì)它們進(jìn)行重建。而MapReduce處理框架則擅長(zhǎng)復(fù)雜的批處理操作、登陸過(guò)濾、ETL(數(shù)據(jù)抽取、轉(zhuǎn)換、加載)、網(wǎng)頁(yè)索引等應(yīng)用,MapReduce在低延遲業(yè)務(wù)上一直被人所詬病。在今天,數(shù)據(jù)處理要求非常快,作為Hadoop的替代者,Spark性能比MapReduce提升很多,使其成為一大熱門開源項(xiàng)目。HDFS已然成為大數(shù)據(jù)公認(rèn)的存儲(chǔ),而MapReduce作為其搭配的數(shù)據(jù)處理框架在大數(shù)據(jù)發(fā)展的早期表現(xiàn)出了重大的價(jià)值。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。與傳統(tǒng)的先下載后播放的做法相比,流媒體技術(shù)有很大的優(yōu)勢(shì),如實(shí)時(shí)性強(qiáng),有利于保護(hù)版權(quán)等。 10 RDD的內(nèi)部表示 11 Local模式和Mesos模式 11 作用于RDD的各種操作 11 Spark的編程模型 12第三章 Spark平臺(tái)搭建 13 安裝Ubuntu Linux操作系統(tǒng) 13 配置安裝Java JDK 13 下載jdk 13 安裝jdk 14 配置環(huán)境變量 14 檢查是否安裝成功 14 搭建Hadoop環(huán)境 15 下載安裝Hadoop 15 配置hadoop 15 安裝rsync和ssh 16 配置ssh免登錄 16 啟動(dòng)hadoop 17 安裝Scala 18 部署Spark 20 20 解壓編譯 20 設(shè)置SPARK_HOME環(huán)境變量 20 驗(yàn)證spark環(huán)境 21第四章 機(jī)器學(xué)習(xí)算法模型 22 聚類分析 23 Kmeans algorithm 23 算法描述 24 算法的性能分析 24第五章 實(shí)驗(yàn)處理與實(shí)驗(yàn)分析 25 預(yù)處理待測(cè)量的數(shù)據(jù)集 26 待測(cè)量數(shù)據(jù)集的條數(shù) 26 運(yùn)用KMeans算法 27 下載NumPy 27 Kmeans算法的python代碼 28 在Spark中運(yùn)行 29 聚類效果及分析 30 Kmeans中k值的選取 30 本次實(shí)驗(yàn)結(jié)果分析 32 結(jié)論 33第六章 結(jié)束語(yǔ) 34參考文獻(xiàn) 34附錄 36第一章 前言1.1 課題研究背景和意義流媒體(Video Streaming)是指在Internet中使用流式傳輸技術(shù)的連續(xù)時(shí)基媒體,視頻流媒體(Media Streaming)業(yè)務(wù)是指支持多媒體數(shù)據(jù)流通過(guò)網(wǎng)絡(luò)從服務(wù)器向客戶機(jī)傳送,接收方邊接收邊播放的技術(shù)。在流媒體的背后進(jìn)行著的是對(duì)大數(shù)據(jù)的挖掘,數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。提到大數(shù)據(jù),自然不能不提Hadoop[1]。優(yōu)酷土豆作為國(guó)內(nèi)最大的視頻網(wǎng)站,和國(guó)內(nèi)其他互聯(lián)網(wǎng)巨頭一樣,率先看到大數(shù)據(jù)對(duì)公司業(yè)務(wù)的價(jià)值,早在2009年就開始使用Hadoop集群,隨著這些年業(yè)務(wù)迅猛發(fā)展,優(yōu)酷土豆又率先嘗試了仍處于大數(shù)據(jù)前沿領(lǐng)域的Spark內(nèi)存計(jì)算框架,很好地解決了機(jī)器學(xué)習(xí)和圖計(jì)算多次迭代的瓶頸問(wèn)題,使得公司大數(shù)據(jù)分析更加完善。Spark內(nèi)存計(jì)算框架適合各種迭代算法和交互式數(shù)據(jù)分析,能夠提升大數(shù)據(jù)處理的實(shí)時(shí)性和準(zhǔn)確性。RDD 是分布在一組節(jié)點(diǎn)中的只讀對(duì)象集合。Spark是基于內(nèi)存的迭代計(jì)算框架,適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場(chǎng)合。為了優(yōu)化這些類型的工作負(fù)載,Spark 引進(jìn)了內(nèi)存集群計(jì)算的概念,可在內(nèi)存集群計(jì)算中將數(shù)據(jù)集緩存在內(nèi)存中,以縮短訪問(wèn)延遲。本實(shí)驗(yàn)選擇Spark是因?yàn)閭鹘y(tǒng)的并行計(jì)算模型無(wú)法有效的解決迭代計(jì)算(iterative)和交互式計(jì)算(interactive);而Spark的使命便是解決這兩個(gè)問(wèn)題,這也是它存在的價(jià)值和理由。包括:(1) 對(duì)Spark平臺(tái)下的RDD(彈性分布式數(shù)據(jù)集),機(jī)器學(xué)習(xí)算法KMeans以及相關(guān)的機(jī)制進(jìn)行了分析和研究,這為運(yùn)用機(jī)器學(xué)習(xí)算法進(jìn)行分析打好了基礎(chǔ)。(5) 從理論上分析了實(shí)驗(yàn)結(jié)果。  第二章詳細(xì)介紹了Spark開發(fā)平臺(tái),對(duì)RDD的相關(guān)特性,框架,機(jī)制進(jìn)行了深入的討論。   第六章為全文總結(jié)。Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。盡管創(chuàng)建Spark是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實(shí)際上它是對(duì)Hadoop的補(bǔ)充,可以在Hadoop文件系統(tǒng)中并行運(yùn)行。用戶編寫的Spark程序被稱為Driver程序,Driver程序會(huì)連接master并定義了對(duì)各RDD的轉(zhuǎn)換與操作,這些驅(qū)動(dòng)程序可實(shí)現(xiàn)在單一節(jié)點(diǎn)上執(zhí)行的操作或在一組節(jié)點(diǎn)上并行執(zhí)行的操作。該設(shè)置充許 Spark 與 Hadoop 共存于節(jié)點(diǎn)的一個(gè)共享池中。除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。   由于RDD的特性,Spark不適用那種異步細(xì)粒度更新狀態(tài)的應(yīng)用,例如web服務(wù)的存儲(chǔ)或者是增量的web爬蟲和索引。 Spark與Hadoop對(duì)比   Spark提供的數(shù)據(jù)集操作類型有很多種,不像Hadoop只提供了Map和Reduce兩種操作。各個(gè)處理節(jié)點(diǎn)之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。RDD是Spark最核心的東西,也是設(shè)計(jì)精華所在。它表示已被分區(qū),不可變的并能夠被并行操作的數(shù)據(jù)集合,不同的數(shù)據(jù)集格式對(duì)應(yīng)不同的RDD實(shí)現(xiàn)。 RDD的主要?jiǎng)?chuàng)建方式1. 從Hadoop文件系統(tǒng)(或與Hadoop兼容的其它存儲(chǔ)系統(tǒng))輸入(例如HDFS)創(chuàng)建。 3. 失敗自動(dòng)重建。 RDD的好處1. RDD只能從持久存儲(chǔ)或通過(guò)Transformations操作產(chǎn)生,相比于分布式共享內(nèi)存(DSM)可以更高效實(shí)現(xiàn)容錯(cuò),對(duì)于丟失部分?jǐn)?shù)據(jù)分區(qū)只需根據(jù)它的lineage就可重新計(jì)算出來(lái),而不需要做特定的Checkpoint。 RDD的存儲(chǔ)與分區(qū)1. 用戶可以選擇不同的存儲(chǔ)級(jí)別存儲(chǔ)RDD以便重用。首先我們要明確一下Spark中RDD的容錯(cuò)機(jī)制。 RDD的內(nèi)部表示 在RDD的內(nèi)部實(shí)現(xiàn)中每個(gè)RDD都可以使用5個(gè)方面的特性來(lái)表示:1. 分區(qū)列表(數(shù)據(jù)塊列表) 2. 計(jì)算每個(gè)分片的函數(shù)(根據(jù)父RDD計(jì)算出此RDD)
點(diǎn)擊復(fù)制文檔內(nèi)容
電大資料相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1