freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文(參考版)

2025-07-06 20:21本頁面
  

【正文】 列名字的格式是” family: label”,都是由字符串組成,每一張表有一個family 集合,這。用戶在表格中存儲數(shù)據(jù),每一行都有一個可排序的主鍵和任意多的列。這張表的索引是行關鍵字,列關鍵字和時間戳。URL:記錄原始數(shù)據(jù)的位置 [2526]。爬蟲數(shù)據(jù)經(jīng)過主題過濾、分類后的格式主要包括 : TraceID:爬行后產(chǎn)生的唯一 ID號。數(shù)據(jù)查詢或者數(shù)據(jù)傳輸任何一個地方存在瓶頸就會造成分析結(jié)果的低效或者失敗。而這種特色正好滿足分析系統(tǒng)的要求。它不建議用戶經(jīng)常修改數(shù)據(jù)。 Hbase本身不保證數(shù)據(jù)的一致性,提供的查詢機 制也比較簡單。用戶上傳數(shù)據(jù)的優(yōu)先級大于爬蟲優(yōu)先級,客戶端查詢的時候返回結(jié)果也采用相同的處理優(yōu)先級,見圖 圖 數(shù)據(jù)存放目錄結(jié)構(gòu) MDVSP通信數(shù)據(jù)模型設計 數(shù)據(jù)模型分析 從前面提到的可以看出 Hbase 分布式數(shù)據(jù)庫數(shù)據(jù)存儲具有一定的哈希性質(zhì),非常適合處理 Key/ Value 類型的數(shù)據(jù),以及結(jié)構(gòu)稀疏的大規(guī)模數(shù)據(jù)?;?Hadoop 平臺的業(yè)務數(shù)據(jù)并行計算,將在后面章節(jié)詳細展開論述。用戶上傳的視頻、音頻等數(shù)據(jù)存放在存儲設備中。 MDVSP平臺數(shù)據(jù)處理模型整體框架 因為 MDVSP 是基于 Inter 的 B/S 結(jié)構(gòu)的 Web 服務,而且采用了多層結(jié)構(gòu)來設計,所以這就決定了數(shù)據(jù)處理模型相對較復雜,如圖 所示。存儲數(shù)據(jù)庫選用 Hadoop組件中的 HBase,由圖 底層結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)存儲層主要包括兩個大規(guī)模的數(shù)據(jù)庫,一是面向爬蟲所得頁面與抽取信息的寫入,二是面向客戶查詢的信息的讀取。所以說該層的設計是實現(xiàn)系統(tǒng)健壯性、可重用性、可擴展性和可 維護性的關鍵因素。 邏輯層:這一層是非常重要也是非常關鍵的一層,因為他是真正意義上實現(xiàn)用戶層與數(shù)據(jù)存儲計算的紐帶。如此設計可 以大江蘇大學碩士研究生畢業(yè)論文 20 以大大減輕網(wǎng)站服務器的網(wǎng)站,而且使他們之間互相不影響,既較好兼顧了用戶的查詢效率,同時也可以專門設計網(wǎng)頁的采集與分析時間,保證系統(tǒng)的工作效率和利用率。 基于 Hadoop 的 MDVSP 平臺的多層分布式架構(gòu) 系統(tǒng)體系結(jié)構(gòu) 圖 在前面理論分析的基礎上我們可以得出,對于本系統(tǒng)我們可以采用 B/S 結(jié)構(gòu)比較好。 當所有的 Map任務和 Reduce任務都已經(jīng)完成了的時候, Master激活用戶程序。 6. 寫到輸出文件 (write) Reduce工作站對每一個由唯一的中間關鍵字對應的中間數(shù)據(jù)進行排列,它發(fā)送關鍵字和相對應的中間值給用戶的 Reduce函數(shù)。排序操作是必須的,因為具有不同的關鍵字 Map后會進行相同的 Reduce操作。 5. 遠程讀取 (remote read) 當執(zhí)行 Reduce任務的工作站被告知這些數(shù)據(jù)的位置,它通過遠程方式讀耿執(zhí)行 Map任務的工作站中的本地緩沖數(shù)據(jù)。 4. 本地寫 A,(10cal write) 內(nèi)存中的數(shù)據(jù)組被劃分函數(shù)周期性的劃分到 R個區(qū)域?qū)懭氡镜卮疟P。主程序指派空閑的工作站程序執(zhí)行 Map任務或是 Reduce任務。下面詳細講解一下每一個步驟的作用: 江蘇大學碩士研究生畢業(yè)論文 18 圖 操作流程圖 1. 分割文件 (fork) 首先,將眾多文件分成大小不等的若干小塊數(shù)據(jù),數(shù)據(jù)塊大小由用戶給定參數(shù)控制,然后啟動機器集群中的眾多程序拷貝。如果使用了 SequentialOutputFormat類,則輸出索引鍵和索引鍵對應值得類型都必須指定 [2124]。最后,每個執(zhí)行的 Reduce任務的輸出都會包含一個輸出文件。然后這個文件會被歸并排序以保證給定一個索引鍵。如果 Reduce過程是運行在分布式模式下的 話,需要在拷貝階段先將這些文件拷貝到 Reduce任務所在節(jié)點的本地文件系統(tǒng)。當一定數(shù)量的鍵值對被寫入時,這個緩沖區(qū)里的所有鍵值對會被清空轉(zhuǎn)移到 Combiner類的 Reduce方法中,然后將合并操作產(chǎn)生的鍵值對像原有的 Map操作一樣輸出。如果使用了一個 Combiner類,則映射過程產(chǎn)生的 Key/ Value對就不會立刻寫到輸出。 2) Combine 操作 當 Map操作輸出了它的 Key/Value對后就會駐留在內(nèi)存中。 N個輸入文件會產(chǎn)生 M個待運行的 Map任務,每個 Map任務都會產(chǎn)生由系統(tǒng)配置江蘇大學碩士研究生畢業(yè)論文 17 好的規(guī)約任務數(shù)量相同的輸出文件。例如TextlnputFormat的默認輸出包含以輸入行為值以及以毫無意義的行在文件中的偏移量為索引鍵的內(nèi)容。例如 TextlnputFormat會讀取超過分割邊界值的 FileSplit的最后一行,當讀到其他的非第一個FileSplit時, TextlnputFormat會忽略第一個新行以上部分的內(nèi)容。 InputFormat類負責解析輸入和生成 Key/ Value對。 當一個單獨的 Map任務開始時,對應的都會按照每個 Reduce任務配置輸出文件寫操作者。在文件劃分的時候并不考慮輸入文件的內(nèi)部邏輯結(jié)構(gòu),例如一個按行記錄的文本文件也會被按照二進制字節(jié)數(shù)大小進行片段劃分。 Map/Reduce技術(shù) 主要操作實現(xiàn) 1) Map 操作 Map操作是并行的,所以輸入文件先被劃分為幾個“文件片斷 。第二個 Datanode也是這樣,邊收邊傳,一小部分一小部分地收,存儲在本地倉庫,同時傳給第三個 Datanode,第三個Datanode就僅僅是接收并存儲了。 流水線復制 當某個客戶端向 HDFS文件寫數(shù) 據(jù)的時候,一開始是寫入本地臨時文件,假設該文件的 replication因子設置為 3,那么客戶端會從 Namenode 獲取一張Datanode列表來存放副本。 江蘇大學碩士研究生畢業(yè)論文 16 上述方法是對通過對 HDFS上運行的目標應用認真考慮的結(jié)果。此時 Namenode才將文件創(chuàng)建操作提交到持久存儲。客戶端將本地臨時文件 flush到指定的 Datanode上。當這個臨時文件累積的數(shù)據(jù)超過一個 block的大?。J 64M),客戶端才會聯(lián)系 Namenode。 步驟 某個客戶端創(chuàng)建文件的請求其實并沒有立即發(fā)給 Namenode,事實上, HDFS客戶端會將文件數(shù)據(jù)緩存到本地的一個臨時文件。 HDFS支持文件的 write oncereadmany語義。 數(shù)據(jù)塊 兼容 HDFS的應用都是處理大數(shù)據(jù)集合的。客戶端隨后通知名字節(jié)點,這個文件已經(jīng)關閉。名字節(jié)點把請求包括數(shù)據(jù)節(jié)點 (可能多個 )的標識和目標數(shù)據(jù)塊反饋給客戶端,客戶端再將本地的臨時文件轉(zhuǎn)移到數(shù)掘節(jié)點數(shù)據(jù)塊中。當本地文件堆積到大于 HDFS塊大小的時候,客戶端聯(lián)系名字節(jié) 點。 客戶端請求創(chuàng)建文件時,并不立即請求名字節(jié)點。這些程序一次寫入數(shù)據(jù)多次讀取,因此需要一個比較好的流讀取速度。 數(shù)據(jù)組織 HDFS支持海量文件處理。每個 block都有指定的最小數(shù)目的副本。 Namenode從所有的 Datanode接收心跳包和 Blockreport。如果一個 HDFS集群跨越多個數(shù)據(jù)中心,那么 reader也將首先嘗試讀本地數(shù)據(jù)中心的副本。 副本的選擇 為了降低整體的帶寬消耗和讀延時, HDFS會盡量讓 reader讀最近的副本。機架的錯誤遠遠比節(jié)點的錯誤少,這個策略不會影響到數(shù)據(jù)的可靠性和有效性。但是,這個簡單策略加大了寫的代價,因為一個寫操作需要傳輸block到多個機架。這樣可以防止整個機架(非副本存放)失效的情況,并且允許讀數(shù)據(jù)的時候可以從多個機架讀取。 通過一個稱為 Rack Awareness的過程, Namenode決定了每個 Datanode所屬的rack id。這個策略實現(xiàn)的短期目標是驗證在生產(chǎn)環(huán)境下的表現(xiàn),觀察它的行為,構(gòu)建測試和研究的基礎,以便實現(xiàn)更先進的策略。 副本的存放 副本的存放是 HDFS可靠性和性能的關鍵。Namenode全權(quán)管理 block的復制,它周期性地從集群中的每個 Datanode接收心跳江蘇大學碩士研究生畢業(yè)論文 14 包和一個 Blockreport。 Replication因子可以在文件創(chuàng)建的時候配置,以后也可以改變。文件的所有 block為了容錯都會被復制。 數(shù)據(jù)復制 HDFS被設計成在一個大集群中可以跨機器地可靠地存儲海量的文件。這些機器一般都是普通的 PC 機。數(shù)據(jù)節(jié)點是負責存儲。系統(tǒng)設計成用戶的實際數(shù)據(jù)不經(jīng)過名字 節(jié)點。集群中只有一個名字節(jié)點極大地簡單化了系統(tǒng)的體系。典型的部署時將有一個專門的機器來運行名字節(jié)點軟件,機群中的其他機器運行一個數(shù)據(jù)節(jié)點實例。 數(shù)據(jù)節(jié)點同時還要執(zhí)行塊的創(chuàng)建,刪除,和來自名字節(jié)點的塊復制指示。它同時確定塊與數(shù)據(jù)節(jié)點的映射。 內(nèi)部機制是將一個文件分割成一個或多個的塊,這些塊存儲在一組數(shù)據(jù)節(jié)點中。 江蘇大學碩士研究生畢業(yè)論文 13 分布式文件系統(tǒng) HDFS 名字節(jié)點與 數(shù)據(jù)節(jié)點 HDFS 是一個主從結(jié)構(gòu)的體系,一個 HDFS 集群是由一個名字節(jié)點,它是一個管理文件的命名空間和調(diào)節(jié)客戶端訪問文件的主服務器,當然還有的數(shù)據(jù)節(jié)點,一個節(jié)點一個,它來管理存儲。 Map/Reduce算法模型就是一種簡化并行計算的編程模型,它向上層用戶提供接口,屏蔽了并行計算特別是分布式處理的諸多細節(jié)問題,讓那些沒有多少并行計算經(jīng)驗的開發(fā)人員也可以很方便的開發(fā)并行應用,避免了很多重復工作。 Map/Reduce算法模型 是 Google的一項重要技術(shù),它是一種編程模式,用以 進行大數(shù)據(jù)量的計算。 圖 HDFS 體系架構(gòu) 由圖 , Client可以對 DataNode進行讀和寫操作,同時在 NameNode上對元數(shù)據(jù)進行操作。 江蘇大學碩士研究生畢業(yè)論文 12 第四章 基于 Hadoop 平臺的 MDVSP 模型 分布式文件系統(tǒng) HDFS 與 Map/Reduce 技術(shù) Hadoop文件系統(tǒng) (HDFS)是一個運行在普通的硬件上的分布式文件系統(tǒng), HDFS是高容錯性的,可以部署在低成本的硬件之上, HDFS大數(shù)據(jù)集的應用程序。它以問卷調(diào)查和從事教育事業(yè)的經(jīng)驗積累出發(fā)點 ,分析了 MDVSP面向的用戶群體 ,以及按照不同的群體有著不同的搜索興趣點。 本章小結(jié) 本章節(jié)深入描述 MDVSP軟件的功能和性能需求。 MDVSP獲取資源的方式,一方面由聚焦蜘蛛爬行 [11]獲得,一方面是由廣大的用戶群體上傳。 有很多教學資源是以視頻、音頻的方式存在的,如果公開課視頻,優(yōu)秀教師示范課視頻,還有很多的動畫資源等。需要存儲保留一些用戶的關注度等信息。 3. 需要定制個性化的信息。由于地域的差異,教學水平、師資等都存在很大的差異,常常在教學過程中遇到問題,就迫切需要得到幫助解決。 2. 需要建立 。根據(jù)問卷調(diào)查和訪談記錄, MDVSP搜索引擎需要滿足一下功能需求 [14]: 1. 需要實現(xiàn)面向教學主體的網(wǎng)頁信息檢索功能。 江蘇大學碩士研究生畢業(yè)論文 10 圖 MDVSP搜索資源類型 MDVSP 搜索平臺功能需求 本搜索引擎是通過聚焦蜘蛛自動獲取相關的教育資源并建立索引,為用戶提供有效信息和相關服務的。 江蘇大學碩士研究生畢業(yè)論文 9 圖 MDVSP搜索平臺使用 對象 MDVSP 搜索資源類型需求 教育資源包括從事教育事業(yè)的人力資源、物力資源、和無形資源的總和。從圖上可以 看出用戶的群體數(shù)量還是比較大的。 MDVSP搜索平臺的定位就是教育領域的幼稚園、小學、中學、大學、機構(gòu)培訓以及成人教育。此外,由于針對特定 行業(yè)的培訓、考試、輔導教材等 信 息的分類,垂直化搜索與傳統(tǒng)搜索相比顯得更為“聰明”、更具人性化。 MDVSP垂直化搜索“專、精、深” 等特點 給教育行業(yè)工作者、學生帶來了方便 , MDVSP的定位很簡單:以特定的信息服務提供給易用、簡單且富有效率的信息。但這些需求的復雜性與多樣性都是傳統(tǒng)搜索引擎無法滿足的。而搜索引擎是僅次于網(wǎng)頁一般性瀏覽、收發(fā)電子郵件的網(wǎng)民第三大基本需求,其需求自然隨之也變得多樣化 。 造成這種現(xiàn)象的原因是什么呢?用一句話概括就是“ 網(wǎng)民多樣化,需求多樣化 ”。 江蘇大學碩士研究生畢業(yè)論文 8 第三章 MDVSP 平臺需求分析 當我要查找 高三物理試卷模擬考試 ,為什么百度,谷歌都出現(xiàn)了培訓中心的廣告?想要查找 小學三年級上學期課件 ,搜索結(jié)果出現(xiàn)了大量的 招生廣告 ?? 越來越多的教育工作者、學生發(fā)現(xiàn)百度和谷歌搜索平臺,不容易使用了,想要獲得自己想要的信息,需要大量的時間來篩選。盡管 HDFS目前仍然不盡完善,但是這些缺陷和不足之處不會影響到具體項目的成功實施。 Chukwa[79]運行 HDFS 中存儲數(shù)據(jù)的收集器,它使用 MapReduce 來生成 報告。 Hive 管理 HDFS 中存儲的數(shù)據(jù),并提供基于 SQL的查詢語言 (由運行時引擎翻譯成 MapReduce 作業(yè) )用以查詢數(shù)據(jù)。 ZooKeeper 提供分布式鎖之類的基本服務 用于構(gòu)建分布式應用。 HBase 使用 HDFS 作為底層存儲,同時支持 MapReduce 的批量式計算和點查詢 (隨機讀取 )。 Pig 運行在MapReduce 和 HDFS 的集群上。 ? HDFS: (Hadoop Distributed File System)分布式文件系統(tǒng),運行于大型商用機集群
點擊復制文檔內(nèi)容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1