freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-閱讀頁

2025-07-26 20:21本頁面
  

【正文】 展的,具有處理 PB 級數(shù)據(jù)的能力。本系統(tǒng)采用 Hadoop分布式架構的目的有以下幾個方面: 1. 可擴展:不論是存儲的可擴展還是計算的可擴展都是 Hadoop的設計根本。 3. 可靠:分布式文件系統(tǒng)的備份恢復機制以及 MapReduce的任務監(jiān)控保證了分布式處理的可靠性。 江蘇大學碩士研究生畢業(yè)論文 6 Hadoop 組件 Hadoop是一個分布式計算基礎架構這把 大傘 下的相關子項目的集合,其中最出名的是 MapReduce及其分布式文件系統(tǒng) HDFS,還有其他子項目提供配套服務 .如下 : 表 Hadoop組件 Pig Chukwa Hive HBase MapReduce HDFS Zoo Keeper Core Avro ? Core: 一系列分布式文件系統(tǒng)和通用 I/O 的組件和 接口 (序列化、 Java RPC 和持久化數(shù)據(jù)結構。 ? MapReduce: 分布式數(shù)據(jù)處理模式和執(zhí)行環(huán)境,運行于大型商用機集群。 ? Pig: 一種數(shù)據(jù)流語言和運行環(huán)境,用以檢索非常大的數(shù)據(jù)集。 ? HBase: 一個分布式 的、列存儲數(shù)據(jù)庫。 ? ZooKeeper: 一個分布式的、高可用性的協(xié)調服務。 ? Hive: 分布式數(shù)據(jù)倉庫。 ? Chukwa: 分布式數(shù)據(jù)收集和分析系統(tǒng)。 本章小結 本章重點 介紹了 Hadoop技術背景和基于 HDFS分布式架構的優(yōu)點,也指出了目江蘇大學碩士研究生畢業(yè)論文 7 前 Hadoop版本的 HDFS在功能上和性能上的一些不足之處,如名稱節(jié)點的單點故障隱患。為了更好的應用 Hadoop平臺框架,對 MDVSP系統(tǒng)中設計到的組件進行剖析。今日,中國科學院研究生院管理學院副院長呂本富博士對此現(xiàn)象也給出了這樣的結論:”從信息的匹配度上看,兩家搜索引擎都不能滿足用戶完全需要”。 隨著互聯(lián)網(wǎng)普及程度的不斷提高,網(wǎng)民由以前的 IT專業(yè)人士擴大到不同職業(yè),不同年齡的群體。據(jù)賽迪網(wǎng)調查,有六成的網(wǎng)民認為面向某一領域的搜索引擎對其非?;虮容^重要,因此當 大學畢業(yè)生有了例如論文、外文翻譯、論文格式 等某種特定需求時,他自然希望能夠使用面向這些特定需求的搜索引擎。這就導致了搜索引擎市場上出現(xiàn)了這樣的趨勢 。 MDVSP不關注 搜索信息的 競價排名的現(xiàn)狀, 所以 MDVSP搜索引擎的 在教育界的價 值便突出出來。 教育資源垂直搜索的用戶群 早在 20xx年的時候,江蘇蘇州教育界就構想“打造 中小學校的教育信息資源共享平臺 “。圖 。在一定程度上解決了教學資源的資源共享 [12]。其中直接支持教學活動的數(shù)字文檔各種資源被稱為教學資源,它包括 1. 在教學過程中所使用和產(chǎn)生的教案、課堂用的幻燈片、課堂測試題、課件、動畫、圖形圖像、音、視頻以及各類測試、考試題; 2. 學生創(chuàng)作類資源和學習過程中產(chǎn)生的資源; 3. 教育管理與教學評估類的數(shù)據(jù)資源; 4. 教育科研過程所產(chǎn)生的資源; 5. 其他特色資源; 圖 給出了 MDVSP搜索資源類型的圖示,從圖中我們可以看出,大部分的資源是由 區(qū)域或者學校統(tǒng)一組織形成日常的資源上傳機制 [13]。起主要服務對象是被教育者和從事教育事業(yè)的工作者。 教學資源主題信息檢索能保證返回信息的精確性,用戶在檢索信息的時候就不必面對成千上萬條記錄而產(chǎn)生心理負擔。 這能緩解教學資源不平等的現(xiàn)象。建立了社區(qū),為用戶尋求幫助提供了很好的渠道,也滿足教育工作者之間的直接經(jīng)驗交流。 因為教學是有一定的時間周期的,所以常用教育資源垂直搜索引擎的用戶在一定的時間內需要得到穩(wěn)定的信息。 4. 需要滿足教學資源的視頻搜索。 江蘇大學碩士研究生畢業(yè)論文 11 5. 需要 能提供上傳資源的功能。用戶上傳的資源具有針對性,專業(yè)性強、易分類管理,是提高 MDVSP搜索平臺準確性的重要保證。本章節(jié)是 MDVSP系統(tǒng)平臺實現(xiàn)的基礎。最后歸納總結了系統(tǒng)平臺的功能需求。圖 是 HDFS的體系結構 。 NameNode上元數(shù)據(jù)控制 DataNode信息。很多開發(fā)人員對并行計算比較陌生,再涉及到分布式處理就更加棘手。這也就是 Map/ Reduce算法模型的價值所在,通過簡化編程模型,降低了開發(fā)并行應用的入門門檻,并且能大大減輕了程序員在開發(fā)大規(guī)模數(shù)據(jù)的應用時的編程負擔。 HDFS 暴露文件命名空間和允許用戶數(shù)據(jù)存儲成文件。名字節(jié)點操作文件命名空間的文件或目錄操作,如打開,關閉,重命名,等等。數(shù)據(jù)節(jié)點來負責來自文件系統(tǒng)客戶的讀寫請求。名 字節(jié)點和數(shù)據(jù)節(jié)點都是軟件運行在普通的機器之上,機器典型的都是linux, HDFS 是用 java 來寫的,任何支持 java 的機器都可以運行名字節(jié)點或數(shù)據(jù)節(jié)點,利用 java 語言的超輕便型,很容易將 HDFS 部署到大范圍的機器上。體系結構排斥在一個機器上運行多個數(shù)據(jù)節(jié)點的實例,但是實際的部署不會有這種情況。名字節(jié)點是仲裁者和所有 HDFS 的元數(shù)據(jù)的倉庫。系統(tǒng)設計成用戶的實際數(shù)據(jù)不經(jīng)過名字節(jié)點。一般一臺機器上面部屬一個數(shù)據(jù)節(jié)點,有時也會把幾個數(shù)據(jù)節(jié)點部屬在一臺機器上,但這種情況不是很常見。 PC 機上一般是 GUN/ Linux 操作系統(tǒng), HDFS 是用 Java 來寫的,任何支持 Java 的機器都可以運行名字節(jié)點或數(shù)據(jù)節(jié)點,利用 Java 語言的超輕便型,很容易將 HDFS 部署到大范圍的機群上 [1617]。它將每個文件存儲成 block序列,除了最后一個 block,所有的 block都是同樣的大小。每個文件的 block大小和 replication因子都是可配置的。 HDFS中的文件是 writeone,并且嚴格要求在任何時候只有一個 writer。心跳包的接收表示該 Datanode節(jié)點正常工作,而Blockreport包括了該 Datanode上所有的 block組成的列表。 HDFS采用一種稱為 rackaware的策略來改進數(shù)據(jù)的可靠性、有效性和網(wǎng)絡帶寬的利用。龐大的 HDFS實例一般運行在多個機架的計算機形成的集群上,不同機架間的兩臺機器的通訊需要通過交換機,顯然通常情況下,同一個機架內的兩個節(jié)點間的帶寬會比不同機架間的兩臺機器的帶寬大。一個簡單但沒有優(yōu)化的策略就是將副本存放在單獨的機架上。這個簡單策略設置可以將副本分布在集群中,有利于組件失敗情況下的負載均衡。 在大多數(shù)情況下, replication因子是 3, HDFS的存放策略是將一個副本存放在本地機架上的節(jié)點,一個副本放在同一機架上的另 一個節(jié)點,最后一個副本放在不同機架上的一個節(jié)點。三分之一的副本在一個節(jié)點上,三分之二在一個機架上,其他保存在剩下的機架中,這一策略改進了寫的性能。如果在 reader的同一個機架上有一個副本,那么就讀該副本。 SafeMode Namenode啟動后會進入一個 稱為 SafeMode的特殊狀態(tài),處在這個狀態(tài)的Namenode是不會進行數(shù)據(jù)塊的復制的。 Blockreport包括了某個 Datanode所有的數(shù)據(jù)塊列表。當 Namenode檢測確認某個 Datanode的數(shù)據(jù)塊副本的最小數(shù)目,那么該 Datanode就會被認為是安全的;如果一定百分比(這個參數(shù)可江蘇大學碩士研究生畢業(yè)論文 15 配置)的數(shù)據(jù)塊檢測確認是安全的,那么 Namenode將退出 SafeMode狀態(tài),接下來它會確定還有哪些 數(shù)據(jù)塊的副本沒有達到指定數(shù)目,并將這些 block復制到其他Datanode。應用程序可以處理大數(shù)據(jù)集。 HDFS典型的塊大小是 64M,一個 HDFS文件可以最多被切分成 128MB個塊,每一個塊分布在不同的數(shù)據(jù)節(jié)點上。 HDFS客戶端在本地的文件中緩存文件數(shù)據(jù),應用程序將數(shù)據(jù)寫到這個臨時的本地文件。名字節(jié)點插入文件名到文件系統(tǒng)層次當中,然后分配一個數(shù)據(jù)塊。當文件關閉,還有一些沒有刷新的本地臨時文件也被傳遞到數(shù)據(jù)節(jié)點。假如名字節(jié)點在文件關閉之前死掉,文件就會丟失 [182]。這些應用都是寫數(shù)據(jù)一次,讀卻是一次到多次,并且讀的速度要滿足流式讀。一個典型的 block大小是 64MB,因而,文件總是按照 64M切分成 chunk,每個 chunk存儲于不同的 Datanode。應用的寫被透明地重定向到這個臨時文件。 Namenode將文件名插入文件系統(tǒng)的層次結構中,并且分配一個數(shù)據(jù)塊給它,然后返回 Datanode的標識 符和目標數(shù)據(jù)塊給客戶端。當文件關閉時,在臨時文件中剩余的沒有 flush的數(shù)據(jù)也會傳輸?shù)街付ǖ?Datanode,然后客戶端告訴 Namenode文件已經(jīng)關閉。如果 Namenode在文件關閉前掛了,該文件將丟失 [1820]。如果不采用客戶端緩存,由于網(wǎng)絡速度和網(wǎng)絡堵塞會對吞估量造成比較大的影響。然后客戶端開始向第一個 Datanode傳輸數(shù)據(jù),第一個Datanode一小部分一小部分( 4kb)地接收數(shù)據(jù),將每個部分寫入本地倉庫,并且同時傳輸該部分到第二個 Datanode節(jié)點。這就是流水線式的復制 。如果單個文件的大小達到了影響搜索時間的程度,這個文件也會被劃分為幾個“片段”。然后,每個“文件片段”會對應的創(chuàng)建一個新的 Map任務。然后 Map任務會使用從指定的 lnputFormat類獲得的 ReeordReader類來讀取它的 FileSplit屬性。 InputFormat也需要處理達到 FileSplit邊界值的記錄。 對于 InputFormat類來說,沒有必要同時產(chǎn)生有意義的索引鍵和值。絕大多數(shù)的應用僅僅使用行的內容而忽略行在文件中的偏移量。每個輸出文件對應一個規(guī)約任務,所有 Map對象的輸出鍵值對都會被路由以保證每一個給定的索引鍵的所有鍵值對會最終出現(xiàn)在指定的一個 Reduce任務中。由于效率的原因,有時需要充分利用這個事實的優(yōu) 點去提供一個執(zhí)行規(guī)約類型功能的 Combiner類。與此相反的是,輸出會先被收集到列表,每個索引鍵對應一個列表。 3) Reduce 操作 當一個 Reduce任務開始時,它的輸入來源于分散在多個節(jié)點上的 Map任務所產(chǎn)生的許多文件。 一旦本地數(shù)據(jù)準備就緒所有的數(shù)據(jù)都會以追加到文件最后。這使得實際的 Reduce操作非常簡單:文件被順序讀入然后輸入文件中的一個索引鍵的所有對應值會被一個迭代器順次傳遞給 Reduce方法直到下一個索引鍵開始。輸出文件的格式由 JobConf. setOutputFormat方法來指定。 Map/Reduce 執(zhí)行流程 Map/Reduce的系統(tǒng)執(zhí)行流程如圖 ,從數(shù)據(jù)流的角度展示了Map/Reduce算法模型。 2. 指派 Map/Reduce 任務 在眾多程序拷貝中有一個管理機 (master)的主程序,其他的均為工作站(worker)程序,工作站程序有管理機指派任務。 3. 讀取 (read) 被指派執(zhí)行 Map任務的工作站讀取相關的數(shù)據(jù)塊,從原始數(shù)據(jù)中解析出Key/Value對,經(jīng)過 Map函數(shù)處理,得到中問鍵值時,存入內存緩沖區(qū)。這些在本地磁盤的數(shù)據(jù)數(shù)列的存放位置信息被送回管理機,管理機負責將這些位置信息傳送到執(zhí)行 Reduce任務的工作站。 Reduce工作站讀取完所有中問數(shù)據(jù)后,江蘇大學碩士研究生畢業(yè)論文 19 通過中問關鍵字對數(shù)據(jù)進行排列,把具有相同關鍵字的數(shù)據(jù)分為一類。如果中間數(shù)據(jù)的數(shù)量太大不適合存入內存,就啟用外部存儲。 Reduce函 數(shù)的輸出結果將被添加到最后的輸出文件中。在這時候 Map/Reduce返回用戶程序的調用點。如圖 所示,在 Browser/Server 三層體系結構下,表示層、邏輯層、數(shù)據(jù)存儲層被分割成三個相對獨立的單元,有效地實現(xiàn)了數(shù)據(jù)存儲、功能邏輯與用戶 使用界面的分離,并真正實現(xiàn)了顯示、計算、數(shù)據(jù)的分離。 表示層:表示層用于生成用戶訪問的 Web 頁面,該層是用來實現(xiàn)系統(tǒng)與用戶的一個人機接口。在這一層里我們利用相應的代碼實現(xiàn)前面設計好的一些關鍵算法。 數(shù)據(jù)存儲計算層:該層的實現(xiàn)是由 Hadoop平臺實現(xiàn)。在 Hadoop 平臺中我們選擇多個數(shù)據(jù)節(jié)點即 DataNode,用于提高存儲 Capacity 和計算效率。 圖 數(shù)據(jù)處理模型框架 江蘇大學碩士研究生畢業(yè)論文 21 數(shù)據(jù)處理模型中所有的業(yè)務計算都在 Hadoop 平臺上,利用 Map/Reduce 技術計算,查詢用戶數(shù)據(jù)、更新聚焦爬蟲數(shù)據(jù)。為了提高用戶的訪問速度,在 Web 服務器前端假設了負載均衡設備,提高 Webserver 的吞吐能力。 MDVSP平臺數(shù)據(jù)在 HDFS中存放結構 為了讓用戶自己上傳 的數(shù)據(jù)能快速、準確查詢到,我們把爬蟲的數(shù)據(jù)與用戶上傳的數(shù)據(jù)分開。但它不適合于處理關系型很強的結構化數(shù)據(jù),因為它本身并不是完全的關系型數(shù)據(jù)。但是 Hbase 在大規(guī)模數(shù)江蘇大學碩士研究生畢業(yè)論文 22 據(jù) (TB 級 )的存儲和處理方面上有獨特的優(yōu)勢。“一次寫入,多次讀取”是 Hbase 數(shù)據(jù)庫最大的特色。聚焦爬蟲每天都會獲取龐大的數(shù)據(jù)量,以單臺爬蟲服務器單線程為例,每天至少 30G 的數(shù)據(jù)量,如果多臺爬蟲服務器并行,那么數(shù)據(jù)量有肯能達到 TB級別。在設計系統(tǒng)數(shù)據(jù)模型之前,我們先分析一下 MDVSP 業(yè)務處理的需求。 Type:爬行數(shù)據(jù)的類型,這個決定了后臺服務器如何處理爬行到的原始數(shù)據(jù)。 數(shù)據(jù)模型設計 Hbase 是一個稀疏的,排序的,長期存儲在硬盤上的,多維度的,映射表。每個值是一個不解釋的字符數(shù)組,數(shù)據(jù)都是字符串。由于是稀疏存儲的,所以同一張表的每一行數(shù)據(jù)都可以有截然不同的列
點擊復制文檔內容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1