freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于測量的在線視頻流媒體質(zhì)量因素分析畢業(yè)論文-全文預(yù)覽

2025-07-17 20:49 上一頁面

下一頁面
  

【正文】 //生成新的聚類中心的Map(類別,新聚類中心) tempDist = sum(((kPoints[x] y) ** 2) for (x, y) in newPoints) // 計算當(dāng)前與之前向量vectors的delta值 for (x, y) in newPoints: kPoints[x] = y //更新聚類中心到kPoint print Final centers: + str(kPoints) 在Spark中運行 $ ~/$ ./bin/sparksubmit ~/ 5   第一個參數(shù)是k,即聚類質(zhì)心點(cluster centroids)。 首先通過下面的命令安裝pip,pip是Python的一個安裝和管理擴展庫的工具。 將文本文檔qos中的第三,四,五,六列打印,并保存到新建的QOS文本文檔中。此待待測量數(shù)據(jù)文檔命名為qos,含有10140條,由用戶uid、ip地址,觀看視頻時間、緩沖次數(shù)、拖動次數(shù),非拖動緩沖次數(shù)這六個字段組成。 3. 對初值敏感,對于不同的初始值,可能會導(dǎo)致不同的聚類結(jié)果。 3. 算法嘗試找出使平方誤差函數(shù)值最小的k個劃分。 算法的性能分析 優(yōu)點:1. kmeans算法是解決聚類問題的一種經(jīng)典算法,算法簡單、快速。即對每個點確定其聚類中心點 再計算其聚類新中心。μi是群組Si內(nèi)所有元素xj的重心,或叫中心點。對剩余的每個對象根據(jù)其與各個簇中心的距離,將它賦給最近的簇,然后重新計算每個簇的平均值。 Kmeans algorithm Kmeans[6]算法是一種得到最廣泛使用的基于劃分的聚類算法[7],把n個對象分為k個簇,以使簇內(nèi)具有較高的相似度。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象彼此相異。 然后輸入scala val count = (line = ( )).map(word = (word, 1)).reduceByKey(_+_) scala () 在字?jǐn)?shù)統(tǒng)計的例子里,map一段文本的所有文字,然后通過單詞reduce它們,最后總結(jié)出單詞的個數(shù)。 解壓編譯   :   $ tar zxvf   運行sbt進(jìn)行編譯:   $ cd ~/   $ sbt assembly 這個步驟會下載很多庫,然后進(jìn)行編譯,編譯時間大概會在1個小時左右。 安裝Scala Spark使用Scala開發(fā)的,在安裝Spark之前,先在各個節(jié)上將Scala安裝好?! ? jps  檢查各進(jìn)程是否運行,這時,應(yīng)該看到有6個java虛擬機的進(jìn)程,分別是Jps, NameNode, SecondaryNameNode, DataNode, JobTracker, TaskTracker,看到6個是對的,表明啟動成功。上述方式就是設(shè)置公鑰/私鑰登錄。ssh是一個很著名的安全外殼協(xié)議Secure Shell Protocol。比如說,在開機的時候,登錄用戶是kavin,那么在命令終端里,”~”就表示目錄”/home/kavin”,如果開機時候,登錄用戶是john,那么”~”就表示”/home/john”目錄。 Java環(huán)境安裝與配置完成,這是我們搭建Hadoop的基礎(chǔ),因為Hadoop平臺是基于Java進(jìn)行開發(fā)與運行的。 $ source /etc/profile 如果更改了/etc/profile配置文件,它只會在新的終端里生效,現(xiàn)在正在使用的終端是不會生效的。 添加配置: 在/etc/profile文件末尾加上如下的三行代碼: export JAVA_HOME=/usr/local/lib/ export CLASSPATH=.:$JAVA_HOME/jre/lib/:$JAVA_HOME/lib/: $JAVA_HOME/lib/ export PATH=$PATH:$JAVA_HOME/bin 保存文件,然后退出。 $ cd /usr/local/libcd就是change directory的縮寫,切換當(dāng)前目錄?;蛘呖梢源蜷_命令終端運行”uname a”命令看一下,在筆者的筆記本上運行這個命令結(jié)果如下:Linux ubuntu 38~precise1Ubuntu SMP Fri May 16 20:47:57 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux   后面的x86_64表明系統(tǒng)是64位的?! 拇a到動態(tài)運行。它要么是一個Scala的普通集合,要么是一個值,要么是空,最終或返回到Driver程序,或把RDD寫入到文件系統(tǒng)中。  它們本質(zhì)區(qū)別是:   Transformation返回值還是一個RDD。   Spark的本地模式支持多線程,有一定的單機并發(fā)處理能力。每一個RDD都是一個不可變的分布式可重算 的數(shù)據(jù)集,其記錄著確定性的操作繼承關(guān)系(lineage),所以只要輸入數(shù)據(jù)是可容錯的,那么任意一個RDD的分區(qū)(Partition)出錯或不可 用,都是可以利用原始輸入數(shù)據(jù)通過轉(zhuǎn)換操作而重新算出的。 2. 當(dāng)前RDD默認(rèn)是存儲于內(nèi)存,但當(dāng)內(nèi)存不足時,RDD會spill到disk。 2. RDD的不變性,可以實現(xiàn)類Hadoop MapReduce的推測式執(zhí)行。 4. 可以控制存儲級別(內(nèi)存、磁盤等)來進(jìn)行重用。2. 通過已存在的RDD轉(zhuǎn)換得到新RDD。RDD必須是可序列化的。將它理解為一個大的集合,將所有數(shù)據(jù)都加載到內(nèi)存中,方便進(jìn)行多次重用。用戶可以命名,物化,控制中間結(jié)果的存儲、分區(qū)等。比如map,filter,flatMap,sample,groupByKey, union, join, cogroup, reduceByKey, mapValues, sort, partionBy等多種操作類型,Spark把這些操作稱為Transformations。就是對于那種增量修改的應(yīng)用模型不適合。Spark的迭代,內(nèi)存運算能力以及交互式計算,能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的map reduce的算法。而對RDD的轉(zhuǎn)換與操作通過Scala閉包(字面量函數(shù))來表示,Scala使用Java對象來表示閉包且都是可序列化的,以此把對RDD的閉包操作發(fā)送到各Workers節(jié)點。與 Hadoop 類似,Spark 支持單節(jié)點集群或多節(jié)點集群。通過名為 Mesos的第三方集群框架可以支持此行為。Spark是在 Scala語言中實現(xiàn)的,它將Scala用作其應(yīng)用程序框架,而Scala的語言特點也鑄就了大部分Spark的成功。列舉了本論文的研究成果,并分析了研究工作的不足,展望了進(jìn)一步研究的內(nèi)容和方向。  第三章描述了平臺的搭載過程并通過運行例子驗證其有效性。 論文組織結(jié)構(gòu)  第一章闡述了課題的背景及意義。(2) 通過安裝hadoop、jdk、scala、spark,并配置環(huán)境變量,搭建完成Spark平臺。因此特別適合于機器學(xué)習(xí)處理來分析大數(shù)據(jù)。RDD能夠從磁盤讀取然后保持在內(nèi)存中,提高了性能,這和Hadoop大部分基于磁盤的速度要快多。需要反復(fù)操作的次數(shù)越多,所需讀取的數(shù)據(jù)量越大,受益越大,數(shù)據(jù)量小但是計算密集度較大的場合,受益就相對較小。這些集合是彈性的,如果數(shù)據(jù)集一部分丟失,則可以對它們進(jìn)行重建。而MapReduce處理框架則擅長復(fù)雜的批處理操作、登陸過濾、ETL(數(shù)據(jù)抽取、轉(zhuǎn)換、加載)、網(wǎng)頁索引等應(yīng)用,MapReduce在低延遲業(yè)務(wù)上一直被人所詬病。在今天,數(shù)據(jù)處理要求非???,作為Hadoop的替代者,Spark性能比MapReduce提升很多,使其成為一大熱門開源項目。HDFS已然成為大數(shù)據(jù)公認(rèn)的存儲,而MapReduce作為其搭配的數(shù)據(jù)處理框架在大數(shù)據(jù)發(fā)展的早期表現(xiàn)出了重大的價值。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。與傳統(tǒng)的先下載后播放的做法相比,流媒體技術(shù)有很大的優(yōu)勢,如實時性強,有利于保護(hù)版權(quán)等。 10 RDD的內(nèi)部表示 11 Local模式和Mesos模式 11 作用于RDD的各種操作 11 Spark的編程模型 12第三章 Spark平臺搭建 13 安裝Ubuntu Linux操作系統(tǒng) 13 配置安裝Java JDK 13 下載jdk 13 安裝jdk 14 配置環(huán)境變量 14 檢查是否安裝成功 14 搭建Hadoop環(huán)境 15 下載安裝Hadoop 15 配置hadoop 15 安裝rsync和ssh 16 配置ssh免登錄 16 啟動hadoop 17 安裝Scala 18 部署Spark 20 20 解壓編譯 20 設(shè)置SPARK_HOME環(huán)境變量 20 驗證spark環(huán)境 21第四章 機器學(xué)習(xí)算法模型 22 聚類分析 23 Kmeans algorithm 23 算法描述 24 算法的性能分析 24第五章 實驗處理與實驗分析 25 預(yù)處理待測量的數(shù)據(jù)集 26 待測量數(shù)據(jù)集的條數(shù) 26 運用KMeans算法 27 下載NumPy 27 Kmeans算法的python代碼 28 在Spark中運行 29 聚類效果及分析 30 Kmeans中k值的選取 30 本次實驗結(jié)果分析 32 結(jié)論 33第六章 結(jié)束語 34參考文獻(xiàn) 34附錄 36第一章 前言1.1 課題研究背景和意義流媒體(Video Streaming)是指在Internet中使用流式傳輸技術(shù)的連續(xù)時基媒體,視頻流媒體(Media Streaming)業(yè)務(wù)是指支持多媒體數(shù)據(jù)流通過網(wǎng)絡(luò)從服務(wù)器向客戶機傳送,接收方邊接收邊播放的技術(shù)。在流媒體的背后進(jìn)行著的是對大數(shù)據(jù)的挖掘,數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。提到大數(shù)據(jù),自然不能不提Hadoop[1]。優(yōu)酷土豆作為國內(nèi)最大的視頻網(wǎng)站,和國內(nèi)其他互聯(lián)網(wǎng)巨頭一樣,率先看到大數(shù)據(jù)對公司業(yè)務(wù)的價值,早在2009年就開始使用Hadoop集群,隨著這些年業(yè)務(wù)迅猛發(fā)展,優(yōu)酷土豆又率先嘗試了仍處于大數(shù)據(jù)前沿領(lǐng)域的Spark內(nèi)存計算框架,很好地解決了機器學(xué)習(xí)和圖計算多次迭代的瓶頸問題,使得公司大數(shù)據(jù)分析更加完善。Spark內(nèi)存計算框架適合各種迭代算法和交互式數(shù)據(jù)分析,能夠提升大數(shù)據(jù)處理的實時性和準(zhǔn)確性。RDD 是分布在一組節(jié)點中的只讀對象集合。Spark是基于內(nèi)存的迭代計算框架,適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場合。為了優(yōu)化這些類型的工作負(fù)載,Spark 引進(jìn)了內(nèi)存集群計算的概念,可在內(nèi)存集群計算中將數(shù)據(jù)集緩存在內(nèi)存中,以縮短訪問延遲。本實驗選擇Spark是因為傳統(tǒng)的并行計算模型無法有效的解決迭代計算(iterative)和交互式計算(interactive);而Spark的使命便是解決這兩個問題,這也是它存在的價值和理由。包括:(1) 對Spark平臺下的RDD(彈性分布式數(shù)據(jù)集),機器學(xué)習(xí)算法KMeans以及相關(guān)的機制進(jìn)行了分析和研究,這為運用機器學(xué)習(xí)算法進(jìn)行分析打好了基礎(chǔ)。(5) 從理論上分析了實驗結(jié)果。  第二章詳細(xì)介紹了Spark開發(fā)平臺,對RDD的相關(guān)特性,框架,機制進(jìn)行了深入的討論。   第六章為全文總結(jié)。Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。盡管創(chuàng)建Spark是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實際上它是對Hadoop的補充,可以在Hadoop文件系統(tǒng)中并行運行。用戶編寫的Spark程序被稱為Driver程序,Driver程序會連接master并定義了對各RDD的轉(zhuǎn)換與操作,這些驅(qū)動程序可實現(xiàn)在單一節(jié)點上執(zhí)行的操作或在一組節(jié)點上并行執(zhí)行的操作。該設(shè)置充許 Spark 與 Hadoop 共存于節(jié)點的一個共享池中。除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。   由于RDD的特性,Spark不適用那種異步細(xì)粒度更新狀態(tài)的應(yīng)用,例如web服務(wù)的存儲或者是增量的web爬蟲和索引。 Spark與Hadoop對比   Spark提供的數(shù)據(jù)集操作類型有很多種,不像Hadoop只提供了Map和Reduce兩種操作。各個處理節(jié)點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。RDD是Spark最核心的東西,也是設(shè)計精華所在。它表示已被分區(qū),不可變的并能夠被并行操作的數(shù)據(jù)集合,不同的數(shù)據(jù)集格式對應(yīng)不同的RDD實現(xiàn)。 RDD的主要創(chuàng)建方式1. 從Hadoop文件系統(tǒng)(或與Hadoop兼容的其它存儲系統(tǒng))輸入(例如HDFS)創(chuàng)建。 3. 失敗自動重建。 RDD的好處1. RDD只能從持久存儲或通過Transformations操作產(chǎn)生,相比于分布式共享內(nèi)存(DSM)可以更高效實現(xiàn)容錯,對于丟失部分?jǐn)?shù)據(jù)分區(qū)只需根據(jù)它的lineage就可重新計算出來,而不需要做特定的Checkpoint。 RDD的存儲與分區(qū)1. 用戶可以選擇不同的存儲級別存儲RDD以便重用。首先我們要明確一下Spark中RDD的容錯機制。 RDD的內(nèi)部表示 在RDD的內(nèi)部實現(xiàn)中每個RDD都可以使用5個方面的特性來表示:1. 分區(qū)列表(數(shù)據(jù)塊列表) 2. 計算每個分片的函數(shù)(根據(jù)父RDD計算出此RDD)
點擊復(fù)制文檔內(nèi)容
電大資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1