正文內(nèi)容

基于測量的在線視頻流媒體質(zhì)量因素分析畢業(yè)論文(編輯修改稿)

2025-07-23 20:49 本頁面

　

【文章內(nèi)容簡介】據(jù)官方document里的quickstart[4]進(jìn)行一些文件讀取操作，并對內(nèi)容進(jìn)行處理，做mapreduce之類的事情。在sparkshell中運(yùn)行一下最簡單的例子wordcount，輸入代碼： scala().filter((Spark)).count 。 Long = 15 即含有“Spark”的行數(shù)有15行。然后輸入scala val count = (line = ( )).map(word = (word, 1)).reduceByKey(_+_) scala () 在字?jǐn)?shù)統(tǒng)計(jì)的例子里，map一段文本的所有文字，然后通過單詞reduce它們，最后總結(jié)出單詞的個(gè)數(shù)。RDD能夠從磁盤讀取然后保持在內(nèi)存中，提高了性能，可以看出這和Hadoop大部分基于磁盤的速度要快多。接著使用spark自帶的run腳本運(yùn)行spark程序 $ ./bin/runexample Pi is roughly 計(jì)算得出Pi值第四章機(jī)器學(xué)習(xí)算法模型聚類分析聚類分析[5](Cluster analysis)是數(shù)據(jù)挖掘及機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)的重點(diǎn)問題之一，在許多領(lǐng)域受到廣泛應(yīng)用，包括機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識(shí)別、決策支持、圖像分析以及生物信息，是最重要的數(shù)據(jù)分析方法之一。聚類是將數(shù)據(jù)對象的集合分組成為由類似的對象組成的多個(gè)簇的過程。由聚類所生成的簇是一組數(shù)據(jù)對象的集合，這些對象與同一個(gè)簇中的對象彼此相似，與其他簇中的對象彼此相異。聚類算法大體上可分為基于劃分的方法、基于層次的方法、基于密度的方法、基于網(wǎng)格的方法以及基于模型的方法。一般把數(shù)據(jù)聚類歸納為一種非監(jiān)督式學(xué)習(xí)問題，在這個(gè)問題上，我們的目標(biāo)是將一部分實(shí)體根據(jù)某種意義上的相似度和另一部分實(shí)體聚在一起。聚類通常被用于探索性的分析，或者作為層次化監(jiān)督學(xué)習(xí)管道網(wǎng)的一個(gè)組件。 Kmeans algorithm Kmeans[6]算法是一種得到最廣泛使用的基于劃分的聚類算法[7]，把n個(gè)對象分為k個(gè)簇，以使簇內(nèi)具有較高的相似度。相似度的計(jì)算根據(jù)一個(gè)簇中對象的平均值來進(jìn)行。它與處理混合正態(tài)分布的最大期望算法很相似，因?yàn)樗麄兌荚噲D找到數(shù)據(jù)中自然聚類的中心。算法首先隨機(jī)地選擇k個(gè)對象，每個(gè)對象初始地代表了一個(gè)簇的平均值或中心。對剩余的每個(gè)對象根據(jù)其與各個(gè)簇中心的距離，將它賦給最近的簇，然后重新計(jì)算每個(gè)簇的平均值。這個(gè)過程不斷重復(fù)，直到準(zhǔn)則函數(shù)收斂。它假設(shè)對象屬性來自于空間向量，并且目標(biāo)是使各個(gè)群組內(nèi)部的均方誤差總和最小。假設(shè)有k個(gè)群組Si, i=1,2,...,k。μi是群組Si內(nèi)所有元素xj的重心，或叫中心點(diǎn)。算法描述1．選擇聚類的個(gè)數(shù)k。2．任意產(chǎn)生k個(gè)聚類，然后確定聚類中心，或者直接生成k個(gè)中心。 3．根據(jù)每個(gè)聚類中所有對象的均值 ( 中心對象 ) , 計(jì)算樣本集中每個(gè)對象與這些中心對象的歐式距離 , 并根據(jù)最小距離重新對相應(yīng)對象進(jìn)行劃分。即對每個(gè)點(diǎn)確定其聚類中心點(diǎn) 再計(jì)算其聚類新中心。 4．再計(jì)算其聚類新中心，即重新計(jì)算每個(gè)聚類的均值。5．重復(fù)以上步驟直到滿足收斂要求。(通常就是確定的中心點(diǎn)不再改變)。算法的性能分析優(yōu)點(diǎn)：1． kmeans算法是解決聚類問題的一種經(jīng)典算法，算法簡單、快速。 2．對處理大數(shù)據(jù)集，該算法是相對可伸縮的和高效率的，因?yàn)樗膹?fù)雜度大約是O（nkt），其中n是所有對象的數(shù)目，k是簇的數(shù)目,t是迭代的次數(shù)。通常kn。這個(gè)算法經(jīng)常以局部最優(yōu)結(jié)束。 3．算法嘗試找出使平方誤差函數(shù)值最小的k個(gè)劃分。當(dāng)簇是密集的、球狀或團(tuán)狀的，而簇與簇之間區(qū)別明顯時(shí)，它的聚類效果很好。缺點(diǎn)：1. kmeans方法只有在簇的平均值被定義的情況下才能使用，不適用于某些應(yīng)用，如涉及有分類屬性的數(shù)據(jù)不適用。 2. 要求用戶必須事先給出要生成的簇的數(shù)目k。 3. 對初值敏感，對于不同的初始值，可能會(huì)導(dǎo)致不同的聚類結(jié)果。 4. 不適合于發(fā)現(xiàn)非凸面形狀的簇，或者大小差別很大的簇。 5. 對于噪聲和孤立點(diǎn)數(shù)據(jù)敏感，少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大影響。第五章實(shí)驗(yàn)處理與實(shí)驗(yàn)分析預(yù)處理待測量的數(shù)據(jù)集本實(shí)驗(yàn)所選取的數(shù)據(jù)來源為PPTV提供的移動(dòng)客戶端服務(wù)器端的數(shù)據(jù)。此待待測量數(shù)據(jù)文檔命名為qos，含有10140條，由用戶uid、ip地址，觀看視頻時(shí)間、緩沖次數(shù)、拖動(dòng)次數(shù)，非拖動(dòng)緩沖次數(shù)這六個(gè)字段組成。例如文本中第一行數(shù)據(jù)為：357238047592824 236 0 0 0 前兩列因?yàn)椴贿m合處理聚成坐標(biāo)需要去除，所以使用命令去除。 $ awk 39。{print $3, $4, $5, $6}39。將文本文檔qos中的第三，四，五，六列打印，并保存到新建的QOS文本文檔中。經(jīng)數(shù)據(jù)預(yù)處理第一行變?yōu)椋?36 0 0 0 察看處理完的數(shù)據(jù)集QOS。 $ grep 打印出QOS文檔中的內(nèi)容至大屏幕。待測量數(shù)據(jù)集的條數(shù) 　 $ ./bin/sparkshell 　啟動(dòng)Spark shell 　 scala val countlines_data = () 　 scala () 　得到Long = 10140 　即文本長度為10140行運(yùn)用KMeans算法下載NumPy A Kmeans clustering program using MLlib. MLlib requires NumPy + 直接用Python調(diào)用含KMeans的MLlib，會(huì)提示需要安裝NumPy 。首先通過下面的命令安裝pip，pip是Python的一個(gè)安裝和管理擴(kuò)展庫的工具。 sudo aptget install pythonpip 安裝git： sudo aptget install git 安裝Pythondev，Python的開發(fā)環(huán)境，方便今后編譯其他擴(kuò)展庫 sudo aptget install pythondev 通過aptget命令可以快速安裝這個(gè)庫： Fsudo aptget install pythonscipy 如果需要通過pip編譯安裝，可以先用aptget命令安裝所有編譯所需的庫： sudo aptget builddep pythonnumpy 然后通過pip命令安裝： sudo pip install numpy 這樣numpy就裝成功了，至此可以使用Python中的MLlib了。 Kmeans算法的python代碼import sysimport numpy as npfrom pyspark import SparkContextdef parseVector(line): return ([float(x) for x in (39。 39。)])def closestPoint(p, centers): bestIndex = 0 closest = float(+inf) for i in range(len(centers)): tempDist = ((p centers[i]) ** 2) if tempDist closest: closest = tempDist bestIndex = i return bestIndexif __name__ == __main__: if len() != 4: print , Usage: kmeans file k convergeDist exit(1) sc = SparkContext(appName=PythonKMeans) lines = ([1]) //讀取數(shù)據(jù),可以是從HDFS也可以是硬盤，作為RDD data = (parseVector).cache() K = int([2]) //k clusters 聚類中心個(gè)數(shù) convergeDist = float([3]) //迭代收斂條件 //隨機(jī)初始化K個(gè)聚類中心 kPoints = (False, K, 1) tempDist = while tempDist convergeDist: closest = ( lambda p: (closestPoint(p, kPoints), (p, 1))) //closest為（類別，（點(diǎn)，1）），1是用來后續(xù)統(tǒng)計(jì)各個(gè)類中點(diǎn)的數(shù)量；lambda 是ALS的正則化參數(shù) pointStats = ( lambda (x1, y1), (x2, y2): (x1 + x2, y1 + y2)) //按類別，計(jì)算點(diǎn)的坐標(biāo)和，以及該類別中節(jié)點(diǎn)總數(shù)（類別，（點(diǎn)向量和，點(diǎn)數(shù)）） newPoints = ( lambda (x, (y, z)): (x, y / z)).collect() //生成新的聚類中心的Map（類別，新聚類中心） tempDist = sum(((kPoints[x] y) ** 2) for (x, y) in newPoints) // 計(jì)算當(dāng)前與之前向量vectors的delta值 for (x, y) in newPoints: kPoints[x] = y //更新聚類中心到kPoint print Final centers: + str(kPoints) 在Spark中運(yùn)行 $ ~/$ ./bin/sparksubmit ~/ 5 　　第一個(gè)參數(shù)是k，即聚類質(zhì)心點(diǎn)(cluster centroids)。　第二個(gè)參數(shù)是convergeDist，即迭代收斂條件。，5個(gè)代表聚類中心的點(diǎn)。　聚類中心點(diǎn)1：(+03,+00,+00,) 　聚類中心點(diǎn)2：(+02,+00,+00,) 　聚類中心點(diǎn)3：(+03,+00,+00,) 　聚類中心點(diǎn)4：(+03,+00,+00,) 　聚類中心點(diǎn)5：(+03,+00,+00,) 聚類效果及分析 Kmeans中k值的選取最簡單的確定初始類簇中心點(diǎn)的方法是隨機(jī)選擇K個(gè)點(diǎn)作為初始的類簇中心點(diǎn)，但是該方法在有些情況下的效果較差。所以K個(gè)初始類簇點(diǎn)的選取還有兩種方法：1)選擇彼此距離盡可能遠(yuǎn)的K個(gè)點(diǎn) 2)先對數(shù)據(jù)用層次聚類算法或者Canopy算法進(jìn)行聚類，得到K個(gè)簇之后，從每個(gè)類簇中選擇一個(gè)點(diǎn)，該點(diǎn)可以是該類簇的中心點(diǎn)，或者是距離類簇中心點(diǎn)最近的那個(gè)點(diǎn)。本次實(shí)驗(yàn)采取的方法是選擇彼此距離盡可能遠(yuǎn)的K個(gè)點(diǎn)。首先隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)初始類簇中心點(diǎn)，然后選擇距離該點(diǎn)最遠(yuǎn)的那個(gè)點(diǎn)作為第二個(gè)初始類簇中心點(diǎn)，然后再選擇距離前兩個(gè)點(diǎn)的最近距離最大的點(diǎn)作為第三個(gè)初始類簇的中心點(diǎn)，以此類推，直至選出K個(gè)初始類簇中心點(diǎn)。1. 給定一個(gè)合適的類簇指標(biāo)，比如平均半徑或直徑。2. 類簇的直徑是指類簇內(nèi)任意兩點(diǎn)之間的最大距離。3. 類簇的半徑是指類簇內(nèi)所有點(diǎn)到類簇中心距離的最大值。4. 只要我們假設(shè)的類簇的數(shù)目等于或者高于真實(shí)的類簇的數(shù)目時(shí)，該指標(biāo)上升會(huì)很緩慢，而一旦試圖得到少于真實(shí)數(shù)目的類簇時(shí)，該指標(biāo)會(huì)急劇上升。，聚類效果和類簇指標(biāo)的效果圖。 K取值從2到9時(shí)的類簇指標(biāo)的變化曲線，選擇類簇指標(biāo)是K個(gè)類簇的平均質(zhì)心距離的加權(quán)平均值。橫軸是選取的聚類個(gè)數(shù)，縱軸是類簇的平均質(zhì)心距離的加權(quán)平均值?？梢悦黠@看到，當(dāng)K取值5時(shí)，類簇指標(biāo)的下降趨勢最快，所以K的正確取值應(yīng)該是5。：本次實(shí)驗(yàn)結(jié)果分析　聚類中心點(diǎn)1：(+03,+00,+00,) 　聚類中心點(diǎn)2：(+02,+00,+00,) 　聚類中心點(diǎn)3：(+03,+00,+00,) 　聚類中心點(diǎn)4：(+03,+00,+00,) 　聚類中心點(diǎn)5：(+03,+00,+00,) 　根據(jù)得到的5個(gè)聚類中心點(diǎn)可以知道，用戶的非拖動(dòng)緩沖次數(shù)相對于緩沖次數(shù)和拖動(dòng)次數(shù)來說比較少，而用戶在視頻的觀看時(shí)間有1千多秒，也有2千秒、3千秒、6千秒，這與視頻的長度以及用戶對視頻的喜愛程度相關(guān)。　根據(jù)聚類中心點(diǎn)，尤其是觀察聚類中心點(diǎn)4和5，可知當(dāng)視頻的停留時(shí)間變長時(shí)，相應(yīng)的非拖動(dòng)緩沖次數(shù)在上升，而拖動(dòng)次數(shù)在下降。用戶拖動(dòng)的次數(shù)越多，表明可能是因?yàn)橐曨l不吸引人，也可能是用戶時(shí)間有限，當(dāng)然最后會(huì)導(dǎo)致在視頻的停留時(shí)間上減少。非拖動(dòng)緩沖次數(shù)的上升，則可能與用戶的網(wǎng)絡(luò)、視頻所在的服務(wù)器、地理位置等相關(guān)。非拖動(dòng)緩沖

點(diǎn)擊復(fù)制文檔內(nèi)容

電大資料相關(guān)推薦

[精選]視頻流媒體課件-資料下載頁

【總結(jié)】2/16/20231視頻技術(shù)攝像機(jī)的操作和使用123流媒體技術(shù)2/16/20232第一章：視頻技術(shù)一.什么是視頻二.常見的視頻格式三.常見的視頻播放軟件四.常見的視頻編輯軟件2/16/20233一.視頻的定義1.視

2025-01-11 18:27

畢業(yè)設(shè)計(jì)---在線視頻點(diǎn)播系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁

【總結(jié)】編號本科生畢業(yè)設(shè)計(jì)（論文）題目：在線視頻點(diǎn)播系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)學(xué)院專業(yè)學(xué)號學(xué)生姓名

2024-12-03 20:26

在線視頻播放系統(tǒng)—測試計(jì)劃書-資料下載頁

【總結(jié)】......在線視頻播放系統(tǒng)測試計(jì)劃書修訂歷史記錄版本日期AMD修訂者說明2015年5月19日

2025-07-20 00:24

基于asp的在線考試系統(tǒng)畢業(yè)論文-資料下載頁

【總結(jié)】河北北方學(xué)院畢業(yè)論文基于ASP的在線考試系統(tǒng)OnlineexaminationsystemdesignbasedonASP河北北方學(xué)院20xx屆本科生畢業(yè)論文I畢業(yè)設(shè)計(jì)（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明

2025-07-02 10:08

基于java的在線考試系統(tǒng)畢業(yè)論文-資料下載頁

【總結(jié)】在線考試I成教本科生畢業(yè)論文(設(shè)計(jì))題目:在線考試系統(tǒng)專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)班級:1203學(xué)生姓名:孫文舉指導(dǎo)老師:鄧志宏完成

2025-06-27 17:59

基于java的在線考試系統(tǒng)(畢業(yè)論文)-資料下載頁

【總結(jié)】I蕪湖信息技術(shù)職業(yè)學(xué)院畢業(yè)設(shè)計(jì)（論文）題目:基于Java技術(shù)的在線考試系統(tǒng)的開發(fā)專業(yè):軟件技術(shù)（嵌入式）班級:2022級1班學(xué)號:20224039學(xué)生姓名:江子奇

2025-06-27 17:34

基于jsp的在線畢業(yè)論文管理系統(tǒng)-資料下載頁

【總結(jié)】計(jì)算機(jī)專業(yè)畢業(yè)論文基于JSP的在線畢業(yè)論文管理系統(tǒng)OnlineThesisManagementSystemBasedonJSP摘要：隨著互聯(lián)網(wǎng)在學(xué)校和高校的普及，網(wǎng)上畢業(yè)論文管理系統(tǒng)成為教師管理論文的主要工具。本文闡述使用JSP技術(shù)開發(fā)高校畢業(yè)生論文管理系統(tǒng)的必要性和優(yōu)越性，探討該系統(tǒng)的設(shè)計(jì)思想、結(jié)構(gòu)、功能

2025-02-26 09:13

基于java的在線考試系統(tǒng)(畢業(yè)論文)-資料下載頁

【總結(jié)】蕪湖信息技術(shù)職業(yè)學(xué)院畢業(yè)設(shè)計(jì)（論文）題目:基于Java技術(shù)的在線考試系統(tǒng)的開發(fā)專業(yè):軟件技術(shù)（嵌入式）班級:2022級1班學(xué)號:20224039學(xué)生姓名:江子奇

2025-01-18 16:15

基于net的在線聊天系統(tǒng)畢業(yè)論文-資料下載頁

【總結(jié)】濰坊科技學(xué)院本科畢業(yè)設(shè)計(jì)（論文）題目院（系）中印計(jì)算機(jī)軟件學(xué)院專業(yè)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)號200801450006學(xué)生姓名紀(jì)連文指導(dǎo)

2025-06-25 14:04

視頻流媒體采編網(wǎng)絡(luò)-資料下載頁

【總結(jié)】LOGO視頻流媒體采編網(wǎng)絡(luò)播放演示實(shí)驗(yàn)物微院開放實(shí)驗(yàn)教師組YoursitehereCompanyLogo主要內(nèi)容：一、走近攝像機(jī)二、視頻素材的加工三、作品的刻錄四、視頻的網(wǎng)絡(luò)傳播YoursitehereCompanyLogo一、走近攝像機(jī)：?圖片資料：

2025-05-14 21:44

建筑工程項(xiàng)目質(zhì)量的影響因素分析畢業(yè)論文-資料下載頁

【總結(jié)】畢業(yè)論文（設(shè)計(jì)）類型：□畢業(yè)設(shè)計(jì)說明書畢業(yè)論文題目：建筑工程項(xiàng)目質(zhì)量的影響因素分析指導(dǎo)教師：徐丁學(xué)生姓名：沈林偉專業(yè)：建筑工程管理班級：建管111學(xué)號：1

2025-09-29 09:10

基于rtp協(xié)議的流媒體的實(shí)時(shí)傳輸?shù)膶?shí)現(xiàn)電子信息技術(shù)本科畢業(yè)論文-資料下載頁

【總結(jié)】XXX學(xué)院畢業(yè)設(shè)計(jì)（論文）畢業(yè)設(shè)計(jì)（論文）題目：基于RTP協(xié)議的流媒體的實(shí)時(shí)傳輸?shù)膶?shí)現(xiàn)系別：電子信息科學(xué)系專業(yè)：電子信息科學(xué)與技術(shù)班級：學(xué)生姓名：學(xué)

2025-02-26 10:16