freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現畢業(yè)論文-資料下載頁

2025-06-18 16:00本頁面
  

【正文】 部分地收,存儲在本地倉庫,同時傳給第三個Datanode,第三個Datanode就僅僅是接收并存儲了。這就是流水線式的復制。 Map/Reduce 技術 主要操作實現1) Map 操作Map操作是并行的,所以輸入文件先被劃分為幾個“文件片斷。如果單個文件的大小達到了影響搜索時間的程度,這個文件也會被劃分為幾個“片段”。在文件劃分的時候并不考慮輸入文件的內部邏輯結構,例如一個按行記錄的文本文件也會被按照二進制字節(jié)數大小進行片段劃分。然后,每個“文件片段”會對應的創(chuàng)建一個新的Map任務。當一個單獨的Map任務開始時,對應的都會按照每個Reduce任務配置輸出文件寫操作者。然后Map任務會使用從指定的lnputFormat類獲得的ReeordReader類來讀取它的FileSplit屬性。InputFormat類負責解析輸入和生成Key/Value對。InputFormat也需要處理達到FileSplit邊界值的記錄。例如TextlnputFormat會讀取超過分割邊界值的FileSplit的最后一行,當讀到其他的非第一個FileSplit時,TextlnputFormat會忽略第一個新行以上部分的內容。對于InputFormat類來說,沒有必要同時產生有意義的索引鍵和值。例如TextlnputFormat的默認輸出包含以輸入行為值以及以毫無意義的行在文件中的偏移量為索引鍵的內容。絕大多數的應用僅僅使用行的內容而忽略行在文件中江蘇大學碩士研究生畢業(yè)論文17的偏移量。N個輸入文件會產生M個待運行的Map任務,每個Map任務都會產生由系統(tǒng)配置好的規(guī)約任務數量相同的輸出文件。每個輸出文件對應一個規(guī)約任務,所有Map對象的輸出鍵值對都會被路由以保證每一個給定的索引鍵的所有鍵值對會最終出現在指定的一個Reduce任務中。2) Combine 操作當Map操作輸出了它的Key/Value對后就會駐留在內存中。由于效率的原因,有時需要充分利用這個事實的優(yōu)點去提供一個執(zhí)行規(guī)約類型功能的Combiner類。如果使用了一個Combiner類,則映射過程產生的Key/Value對就不會立刻寫到輸出。與此相反的是,輸出會先被收集到列表,每個索引鍵對應一個列表。當一定數量的鍵值對被寫入時,這個緩沖區(qū)里的所有鍵值對會被清空轉移到Combiner類的Reduce方法中,然后將合并操作產生的鍵值對像原有的Map操作一樣輸出。3) Reduce 操作當一個Reduce任務開始時,它的輸入來源于分散在多個節(jié)點上的Map任務所產生的許多文件。如果Reduce過程是運行在分布式模式下的話,需要在拷貝階段先將這些文件拷貝到Reduce任務所在節(jié)點的本地文件系統(tǒng)。一旦本地數據準備就緒所有的數據都會以追加到文件最后。然后這個文件會被歸并排序以保證給定一個索引鍵。這使得實際的Reduce操作非常簡單:文件被順序讀入然后輸入文件中的一個索引鍵的所有對應值會被一個迭代器順次傳遞給Reduce方法直到下一個索引鍵開始。最后,每個執(zhí)行的Reduce任務的輸出都會包含一個輸出文件。輸出文件的格式由JobConf.setOutputFormat方法來指定。如果使用了SequentialOutputFormat類,則輸出索引鍵和索引鍵對應值得類型都必須指定 [2124]。 Map/Reduce 執(zhí)行流程Map/,從數據流的角度展示了Map/Reduce算法模型。下面詳細講解一下每一個步驟的作用:江蘇大學碩士研究生畢業(yè)論文18圖 操作流程圖1. 分割文件(fork)首先,將眾多文件分成大小不等的若干小塊數據,數據塊大小由用戶給定參數控制,然后啟動機器集群中的眾多程序拷貝。2. 指派 Map/Reduce 任務在眾多程序拷貝中有一個管理機(master)的主程序,其他的均為工作站(worker)程序,工作站程序有管理機指派任務。主程序指派空閑的工作站程序執(zhí)行Map任務或是Reduce任務。3. 讀取(read)被指派執(zhí)行Map任務的工作站讀取相關的數據塊,從原始數據中解析出Key/Value對,經過Map函數處理,得到中問鍵值時,存入內存緩沖區(qū)。4. 本地寫 A,(10cal write)內存中的數據組被劃分函數周期性的劃分到R個區(qū)域寫入本地磁盤。這些在本地磁盤的數據數列的存放位置信息被送回管理機,管理機負責將這些位置信息傳送到執(zhí)行Reduce任務的工作站。5. 遠程讀取(remote read)當執(zhí)行Reduce任務的工作站被告知這些數據的位置,它通過遠程方式讀耿執(zhí)行Map任務的工作站中的本地緩沖數據。Reduce工作站讀取完所有中問數據后,江蘇大學碩士研究生畢業(yè)論文19通過中問關鍵字對數據進行排列,把具有相同關鍵字的數據分為一類。排序操作是必須的,因為具有不同的關鍵字Map后會進行相同的Reduce操作。如果中間數據的數量太大不適合存入內存,就啟用外部存儲。6. 寫到輸出文件(write)Reduce工作站對每一個由唯一的中間關鍵字對應的中間數據進行排列,它發(fā)送關鍵字和相對應的中間值給用戶的Reduce函數。Reduce函數的輸出結果將被添加到最后的輸出文件中。當所有的Map任務和Reduce任務都已經完成了的時候,Master激活用戶程序。在這時候Map/Reduce返回用戶程序的調用點。 基于 Hadoop 的 MDVSP 平臺的多層分布式架構 系統(tǒng)體系結構圖 系統(tǒng)結構框圖在前面理論分析的基礎上我們可以得出,對于本系統(tǒng)我們可以采用 B/S 結構比較好。如圖 所示,在 Browser/Server 三層體系結構下,表示層、邏輯層、數據存儲層被分割成三個相對獨立的單元,有效地實現了數據存儲、功能邏輯與用戶使用界面的分離,并真正實現了顯示、計算、數據的分離。如此設江蘇大學碩士研究生畢業(yè)論文20計可以大以大大減輕網站服務器的網站,而且使他們之間互相不影響,既較好兼顧了用戶的查詢效率,同時也可以專門設計網頁的采集與分析時間,保證系統(tǒng)的工作效率和利用率。表示層:表示層用于生成用戶訪問的 Web 頁面,該層是用來實現系統(tǒng)與用戶的一個人機接口。邏輯層:這一層是非常重要也是非常關鍵的一層,因為他是真正意義上實現用戶層與數據存儲計算的紐帶。在這一層里我們利用相應的代碼實現前面設計好的一些關鍵算法。所以說該層的設計是實現系統(tǒng)健壯性、可重用性、可擴展性和可維護性的關鍵因素。數據存儲計算層:該層的實現是由 Hadoop 平臺實現。存儲數據庫選用Hadoop 組件中的 HBase,由圖 中我們可以看出該層主要是負責存儲整個搜索引擎的底層結構化數據,數據存儲層主要包括兩個大規(guī)模的數據庫,一是面向爬蟲所得頁面與抽取信息的寫入,二是面向客戶查詢的信息的讀取。在Hadoop 平臺中我們選擇多個數據節(jié)點即 DataNode,用于提高存儲 Capacity 和計算效率。 MDVSP 平臺數據處理模型整體框架 因為 MDVSP 是基于 Inter 的 B/S 結構的 Web 服務,而且采用了多層結構來設計,所以這就決定了數據處理模型相對較復雜,如圖 所示。江蘇大學碩士研究生畢業(yè)論文21圖 數據處理模型框架數據處理模型中所有的業(yè)務計算都在 Hadoop 平臺上,利用 Map/Reduce 技術計算,查詢用戶數據、更新聚焦爬蟲數據。用戶上傳的視頻、音頻等數據存放在存儲設備中。為了提高用戶的訪問速度,在 Web 服務器前端假設了負載均衡設備,提高 Webserver 的吞吐能力?;?Hadoop 平臺的業(yè)務數據并行計算,將在后面章節(jié)詳細展開論述。 MDVSP 平臺數據在 HDFS 中存放結構為了讓用戶自己上傳的數據能快速、準確查詢到,我們把爬蟲的數據與用戶上傳的數據分開。用戶上傳數據的優(yōu)先級大于爬蟲優(yōu)先級,客戶端查詢的時候返回結果也采用相同的處理優(yōu)先級,見圖 江蘇大學碩士研究生畢業(yè)論文22圖 數據存放目錄結構 MDVSP 通信數據模型設計 數據模型分析從前面提到的可以看出 Hbase 分布式數據庫數據存儲具有一定的哈希性質,非常適合處理 Key/Value 類型的數據,以及結構稀疏的大規(guī)模數據。但它不適合于處理關系型很強的結構化數據,因為它本身并不是完全的關系型數據。Hbase 本身不保證數據的一致性,提供的查詢機制也比較簡單。但是 Hbase 在大規(guī)模數據(TB 級)的存儲和處理方面上有獨特的優(yōu)勢。它不建議用戶經常修改數據。 “一次寫入,多次讀取”是 Hbase 數據庫最大的特色。而這種特色正好滿足分析系統(tǒng)的要求。聚焦爬蟲每天都會獲取龐大的數據量,以單臺爬蟲服務器單線程為例,每天至少 30G 的數據量,如果多臺爬蟲服務器并行,那么數據量有肯能達到 TB 級別。數據查詢或者數據傳輸任何一個地方存在瓶頸就會造成分析結果的低效或者失敗。在設計系統(tǒng)數據模型之前,我們先分析一下 MDVSP 業(yè)務處理的需求。爬蟲數據經過主題過濾、分類后的格式主要包括:TraceID:爬行后產生的唯一 ID 號。Type:爬行數據的類型,這個決定了后臺服務器如何處理爬行到的原始數據。URL:記錄原始數據的位置 [2526]。江蘇大學碩士研究生畢業(yè)論文23 數據模型設計Hbase 是一個稀疏的,排序的,長期存儲在硬盤上的,多維度的,映射表。這張表的索引是行關鍵字,列關鍵字和時間戳。每個值是一個不解釋的字符數組,數據都是字符串。用戶在表格中存儲數據,每一行都有一個可排序的主鍵和任意多的列。由于是稀疏存儲的,所以同一張表的每一行數據都可以有截然不同的列。列名字的格式是”family:label” ,都是由字符串組成,每一張表有一個 family 集合,這個集合是固定不變的,相當于表的結構,只能通過改變表結構來改變。但是 label 值相對于每一行來說都是可以改變的。先看一下 Hbase 的邏輯模型: 表 Hbase 邏輯模型Row Key Timestamp Column “C1” Column”C2” Column”C3”Time3 “C1Content1” C2:L1 Content C3:N1 ContentTime2 “C1Content2” C2:L2 Content C3:N2 ContentTime1 “C1Content3” C2:L3 Content C3:N3 Content上表 共有一行,行標識是 rowkey。每一次的邏輯修改都會有一個Timestamp 關聯對應。一共有 4 個列定義,分別是C1:,C2:LI,C2:L2,C3:。所有數據庫的更新都有一個時間戳標記,每個更新都是一個新的版本,而 Hbase 會保留一定數量的版本,這個值是可以設定的??蛻舳丝梢赃x擇獲取距離某個時間最近的版本,或者一次獲取所有版本。雖然從概念視圖來看每個表格是由很多行組成,但是在物理存儲上面,它是按照列來保存的,下面是物理數據模型:表 物理數據模型Row key Timestamp Column “C2”T6 “C2:L2” “L2content”“rk1”T5 “C2:L1” “L1content”物理數據模型實質上是將邏輯模型中的一個 Row 分割成為根據 Column family 存儲。Hbase 把同一個 family 里面的數據存儲在同一個目錄底下,而Hbase 的寫操作是鎖行的,每一行都是一個原子元素,都可以加鎖。從 Hbase 數據庫的物理模型可以看出,雖然在邏輯上是稀疏的數據格式,但是實際存儲的時候,邏輯表中值為 NULL 的元素是不存儲的,因此并沒有占任江蘇大學碩士研究生畢業(yè)論文24何空間。所以說 Hbase 是適合于處理稀疏數據的。 主表設計 GB 連續(xù)運行一個月,甚至一年,用普通的數據庫已經無法滿足要求,我們系統(tǒng)采用的HBase 數據庫,現在已經可以支持 PB 級別的數據,所以在數據查詢和存儲方面不會存在瓶頸。在設計數據結構之前,信息后,經過頁面分析處理后:? 每條記錄的唯一 ID 號.? URL 標題? 與該網頁相關的關鍵字? 課件對應的下載地址? 關鍵字出現的頻率? 頁面內容得簡要描述.獲取到內容后,需要存儲? 課件的主題: 供用戶查詢的時候,簡要瀏覽? 作者:課件上傳的作者? 出處:獲取作者的工作單位,如 Cisco System,或是某個學校,蘇州藍纓學校三年級語文組。? 日期:作品的日期,如 20220203??梢怨┎樵冋哌x擇比較新的課件,或文檔。? 所屬類別:是計算機,還是醫(yī)藥類的,還是管理類的,還是語文,數學等? 年級: 這個對于在校學生查詢課件、文檔是非常有用的,有助于甄別課件是否符合自己? 科目:具體是語文、音樂、信息還是英語等,都是對內容的一種歸類。 型數據中我們可以通過設計關系來實現課件、文檔的歸屬關系。但是對于海量數據來說,這樣的效率并不是很理想。在搭建好的 Hadoop 平臺上,通過Hbase 分布式數據庫管理數據證明了是高高效的。根據前面論述的 Hbase 的特江蘇大學碩士研究生畢業(yè)論文25點,我們設計基于 Hbase 的數據結構:表 CC_HD_MAIN 表RowKey TimeStamp Column KeywordColumnRelated WordColumnFMessageColumnFInfo記錄ID:1時間戳20220201關鍵詞:高考關聯關鍵詞組:輔導班,試卷,填報志愿,分數線Message:下載URL
點擊復制文檔內容
數學相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1