freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文(參考版)

2025-06-21 16:00本頁面
  

【正文】 根據(jù)前面論述的 Hbase 的特江蘇大學(xué)碩士研究生畢業(yè)論文25點,我們設(shè)計基于 Hbase 的數(shù)據(jù)結(jié)構(gòu):表 CC_HD_MAIN 表RowKey TimeStamp Column KeywordColumnRelated WordColumnFMessageColumnFInfo記錄ID:1時間戳20220201關(guān)鍵詞:高考關(guān)聯(lián)關(guān)鍵詞組:輔導(dǎo)班,試卷,填報志愿,分?jǐn)?shù)線Message:下載URL
。但是對于海量數(shù)據(jù)來說,這樣的效率并不是很理想。? 所屬類別:是計算機,還是醫(yī)藥類的,還是管理類的,還是語文,數(shù)學(xué)等? 年級: 這個對于在校學(xué)生查詢課件、文檔是非常有用的,有助于甄別課件是否符合自己? 科目:具體是語文、音樂、信息還是英語等,都是對內(nèi)容的一種歸類。? 日期:作品的日期,如 20220203。 主表設(shè)計 GB 連續(xù)運行一個月,甚至一年,用普通的數(shù)據(jù)庫已經(jīng)無法滿足要求,我們系統(tǒng)采用的HBase 數(shù)據(jù)庫,現(xiàn)在已經(jīng)可以支持 PB 級別的數(shù)據(jù),所以在數(shù)據(jù)查詢和存儲方面不會存在瓶頸。從 Hbase 數(shù)據(jù)庫的物理模型可以看出,雖然在邏輯上是稀疏的數(shù)據(jù)格式,但是實際存儲的時候,邏輯表中值為 NULL 的元素是不存儲的,因此并沒有占任江蘇大學(xué)碩士研究生畢業(yè)論文24何空間。雖然從概念視圖來看每個表格是由很多行組成,但是在物理存儲上面,它是按照列來保存的,下面是物理數(shù)據(jù)模型:表 物理數(shù)據(jù)模型Row key Timestamp Column “C2”T6 “C2:L2” “L2content”“rk1”T5 “C2:L1” “L1content”物理數(shù)據(jù)模型實質(zhì)上是將邏輯模型中的一個 Row 分割成為根據(jù) Column family 存儲。所有數(shù)據(jù)庫的更新都有一個時間戳標(biāo)記,每個更新都是一個新的版本,而 Hbase 會保留一定數(shù)量的版本,這個值是可以設(shè)定的。每一次的邏輯修改都會有一個Timestamp 關(guān)聯(lián)對應(yīng)。但是 label 值相對于每一行來說都是可以改變的。由于是稀疏存儲的,所以同一張表的每一行數(shù)據(jù)都可以有截然不同的列。每個值是一個不解釋的字符數(shù)組,數(shù)據(jù)都是字符串。江蘇大學(xué)碩士研究生畢業(yè)論文23 數(shù)據(jù)模型設(shè)計Hbase 是一個稀疏的,排序的,長期存儲在硬盤上的,多維度的,映射表。Type:爬行數(shù)據(jù)的類型,這個決定了后臺服務(wù)器如何處理爬行到的原始數(shù)據(jù)。在設(shè)計系統(tǒng)數(shù)據(jù)模型之前,我們先分析一下 MDVSP 業(yè)務(wù)處理的需求。聚焦爬蟲每天都會獲取龐大的數(shù)據(jù)量,以單臺爬蟲服務(wù)器單線程為例,每天至少 30G 的數(shù)據(jù)量,如果多臺爬蟲服務(wù)器并行,那么數(shù)據(jù)量有肯能達到 TB 級別。 “一次寫入,多次讀取”是 Hbase 數(shù)據(jù)庫最大的特色。但是 Hbase 在大規(guī)模數(shù)據(jù)(TB 級)的存儲和處理方面上有獨特的優(yōu)勢。但它不適合于處理關(guān)系型很強的結(jié)構(gòu)化數(shù)據(jù),因為它本身并不是完全的關(guān)系型數(shù)據(jù)。 MDVSP 平臺數(shù)據(jù)在 HDFS 中存放結(jié)構(gòu)為了讓用戶自己上傳的數(shù)據(jù)能快速、準(zhǔn)確查詢到,我們把爬蟲的數(shù)據(jù)與用戶上傳的數(shù)據(jù)分開。為了提高用戶的訪問速度,在 Web 服務(wù)器前端假設(shè)了負(fù)載均衡設(shè)備,提高 Webserver 的吞吐能力。江蘇大學(xué)碩士研究生畢業(yè)論文21圖 數(shù)據(jù)處理模型框架數(shù)據(jù)處理模型中所有的業(yè)務(wù)計算都在 Hadoop 平臺上,利用 Map/Reduce 技術(shù)計算,查詢用戶數(shù)據(jù)、更新聚焦爬蟲數(shù)據(jù)。在Hadoop 平臺中我們選擇多個數(shù)據(jù)節(jié)點即 DataNode,用于提高存儲 Capacity 和計算效率。數(shù)據(jù)存儲計算層:該層的實現(xiàn)是由 Hadoop 平臺實現(xiàn)。在這一層里我們利用相應(yīng)的代碼實現(xiàn)前面設(shè)計好的一些關(guān)鍵算法。表示層:表示層用于生成用戶訪問的 Web 頁面,該層是用來實現(xiàn)系統(tǒng)與用戶的一個人機接口。如圖 所示,在 Browser/Server 三層體系結(jié)構(gòu)下,表示層、邏輯層、數(shù)據(jù)存儲層被分割成三個相對獨立的單元,有效地實現(xiàn)了數(shù)據(jù)存儲、功能邏輯與用戶使用界面的分離,并真正實現(xiàn)了顯示、計算、數(shù)據(jù)的分離。在這時候Map/Reduce返回用戶程序的調(diào)用點。Reduce函數(shù)的輸出結(jié)果將被添加到最后的輸出文件中。如果中間數(shù)據(jù)的數(shù)量太大不適合存入內(nèi)存,就啟用外部存儲。Reduce工作站讀取完所有中問數(shù)據(jù)后,江蘇大學(xué)碩士研究生畢業(yè)論文19通過中問關(guān)鍵字對數(shù)據(jù)進行排列,把具有相同關(guān)鍵字的數(shù)據(jù)分為一類。這些在本地磁盤的數(shù)據(jù)數(shù)列的存放位置信息被送回管理機,管理機負(fù)責(zé)將這些位置信息傳送到執(zhí)行Reduce任務(wù)的工作站。3. 讀取(read)被指派執(zhí)行Map任務(wù)的工作站讀取相關(guān)的數(shù)據(jù)塊,從原始數(shù)據(jù)中解析出Key/Value對,經(jīng)過Map函數(shù)處理,得到中問鍵值時,存入內(nèi)存緩沖區(qū)。2. 指派 Map/Reduce 任務(wù)在眾多程序拷貝中有一個管理機(master)的主程序,其他的均為工作站(worker)程序,工作站程序有管理機指派任務(wù)。 Map/Reduce 執(zhí)行流程Map/,從數(shù)據(jù)流的角度展示了Map/Reduce算法模型。輸出文件的格式由JobConf.setOutputFormat方法來指定。這使得實際的Reduce操作非常簡單:文件被順序讀入然后輸入文件中的一個索引鍵的所有對應(yīng)值會被一個迭代器順次傳遞給Reduce方法直到下一個索引鍵開始。一旦本地數(shù)據(jù)準(zhǔn)備就緒所有的數(shù)據(jù)都會以追加到文件最后。3) Reduce 操作當(dāng)一個Reduce任務(wù)開始時,它的輸入來源于分散在多個節(jié)點上的Map任務(wù)所產(chǎn)生的許多文件。與此相反的是,輸出會先被收集到列表,每個索引鍵對應(yīng)一個列表。由于效率的原因,有時需要充分利用這個事實的優(yōu)點去提供一個執(zhí)行規(guī)約類型功能的Combiner類。每個輸出文件對應(yīng)一個規(guī)約任務(wù),所有Map對象的輸出鍵值對都會被路由以保證每一個給定的索引鍵的所有鍵值對會最終出現(xiàn)在指定的一個Reduce任務(wù)中。絕大多數(shù)的應(yīng)用僅僅使用行的內(nèi)容而忽略行在文件中江蘇大學(xué)碩士研究生畢業(yè)論文17的偏移量。對于InputFormat類來說,沒有必要同時產(chǎn)生有意義的索引鍵和值。InputFormat也需要處理達到FileSplit邊界值的記錄。然后Map任務(wù)會使用從指定的lnputFormat類獲得的ReeordReader類來讀取它的FileSplit屬性。然后,每個“文件片段”會對應(yīng)的創(chuàng)建一個新的Map任務(wù)。如果單個文件的大小達到了影響搜索時間的程度,這個文件也會被劃分為幾個“片段”。這就是流水線式的復(fù)制。然后客戶端開始向第一個Datanode傳輸數(shù)據(jù),第一個Datanode一小部分一小部分(4kb)地接收數(shù)據(jù),將每個部分寫入本地倉庫,并且同時傳輸該部分到第二個Datanode節(jié)點。如果不采用客戶端緩存,由于網(wǎng)絡(luò)速度和網(wǎng)絡(luò)堵塞會對吞估量造成比較大的影響。如江蘇大學(xué)碩士研究生畢業(yè)論文16果Namenode在文件關(guān)閉前掛了,該文件將丟失 [1820]。當(dāng)文件關(guān)閉時,在臨時文件中剩余的沒有flush的數(shù)據(jù)也會傳輸?shù)街付ǖ腄atanode,然后客戶端告訴Namenode文件已經(jīng)關(guān)閉。Namenode將文件名插入文件系統(tǒng)的層次結(jié)構(gòu)中,并且分配一個數(shù)據(jù)塊給它,然后返回Datanode的標(biāo)識符和目標(biāo)數(shù)據(jù)塊給客戶端。應(yīng)用的寫被透明地重定向到這個臨時文件。一個典型的block大小是64MB,因而,文件總是按照64M切分成chunk,每個chunk存儲于不同的 Datanode。這些應(yīng)用都是寫數(shù)據(jù)一次,讀卻是一次到多次,并且讀的速度要滿足流式讀。假如名字節(jié)點在文件關(guān)閉之前死掉,文件就會丟失 [182]。當(dāng)文件關(guān)閉,還有一些沒有刷新的本地臨時文件也被傳遞到數(shù)據(jù)節(jié)點。名字節(jié)點插入文件名到文件系統(tǒng)層次當(dāng)中,然后分配一個數(shù)據(jù)塊。HDFS客戶端在本地的文件中緩存文件數(shù)據(jù),應(yīng)用程序?qū)?shù)據(jù)寫到這個臨時的本地文件。HDFS典型的塊大小是64M,一個HDFS文件可以最多被切分成128MB個塊,每一個塊分布在不同的數(shù)據(jù)節(jié)點上。應(yīng)用程序可以處理大數(shù)據(jù)集。當(dāng)Namenode檢測確認(rèn)某個Datanode的數(shù)據(jù)塊副本的最小數(shù)目,那么該Datanode就會被認(rèn)為是安全的;如果一定百分比(這江蘇大學(xué)碩士研究生畢業(yè)論文15個參數(shù)可配置)的數(shù)據(jù)塊檢測確認(rèn)是安全的,那么Namenode將退出SafeMode狀態(tài),接下來它會確定還有哪些數(shù)據(jù)塊的副本沒有達到指定數(shù)目,并將這些block復(fù)制到其他Datanode。Blockreport包括了某個Datanode所有的數(shù)據(jù)塊列表。SafeModeNamenode啟動后會進入一個稱為SafeMode的特殊狀態(tài),處在這個狀態(tài)的Namenode是不會進行數(shù)據(jù)塊的復(fù)制的。如果在reader的同一個機架上有一個副本,那么就讀該副本。三分之一的副本在一個節(jié)點上,三分之二在一個機架上,其他保存在剩下的機架中,這一策略改進了寫的性能。在大多數(shù)情況下,replication因子是3,HDFS的存放策略是將一個副本存放在本地機架上的節(jié)點,一個副本放在同一機架上的另一個節(jié)點,最后一個副本放在不同機架上的一個節(jié)點。這個簡單策略設(shè)置可以將副本分布在集群中,有利于組件失敗情況下的負(fù)載均衡。一個簡單但沒有優(yōu)化的策略就是將副本存放在單獨的機架上。龐大的HDFS實例一般運行在多個機架的計算機形成的集群上,不同機架間的兩臺機器的通訊需要通過交換機,顯然通常情況下,同一個機架內(nèi)的兩個節(jié)點間的帶寬會比不同機架間的兩臺機器的帶寬大。HDFS采用一種稱為rackaware的策略來改進數(shù)據(jù)的可靠性、有效性和網(wǎng)絡(luò)帶寬的利用。心跳包的接收表示該Datanode節(jié)點正常工作,而Blockreport包括了該Datanode上所有的block組成的列表。HDFS中的文件是writeone,并且嚴(yán)格要求在任何時候只有一個writer。每個文件的block大小和replication因子都是可配置的。它將每個文件存儲成block序列,除了最后一個block,所有的block都是同樣的大小。PC 機上一般是 GUN/Linux 操作系統(tǒng),HDFS 是用 Java 來寫的,任何支持 Java 的機器都可以運行名字節(jié)點或數(shù)據(jù)節(jié)點,利用 Java 語言的超輕便型,很容易將 HDFS 部署到大范圍的機群上 [1617]。一般一臺機器上面部屬一個數(shù)據(jù)節(jié)點,有時也會把幾個數(shù)據(jù)節(jié)點部屬在一臺機器上,但這種情況不是很常見。系統(tǒng)設(shè)計成用戶的實際數(shù)據(jù)不經(jīng)過名字節(jié)點。名字節(jié)點是仲裁者和所有 HDFS 的元數(shù)據(jù)的倉庫。體系結(jié)構(gòu)排斥在一個機器上運行多個數(shù)據(jù)節(jié)點的實例,但是實際的部署不會有這種情況。名字節(jié)點和數(shù)據(jù)節(jié)點都是軟件運行在普通的機器之上,機器典型的都是 linux,HDFS 是用 java 來寫的,任何支持 java 的機器都可以運行名字節(jié)點或數(shù)據(jù)節(jié)點,利用 java 語言的超輕便型,很容易將 HDFS 部署到大范圍的機器上。數(shù)據(jù)節(jié)點來負(fù)責(zé)來自文件系統(tǒng)客戶的讀寫請求。名字節(jié)點操作文件命名空間的文件或目錄操作,如打開,關(guān)閉,重命名,等等。HDFS 暴露文件命名空間和允許用戶數(shù)據(jù)存儲成文件。這也就是Map/Reduce算法模型的價值所在,通過簡化編程模型,降低了開發(fā)并行應(yīng)用的入門門檻,并且能大大減輕了程序員在開發(fā)大規(guī)模數(shù)據(jù)的應(yīng)用時的編程負(fù)擔(dān)。很多開發(fā)人員對并行計算比較陌生,再涉及到分布式處理就更加棘手。NameNode上元數(shù)據(jù)控制DataNode信息。最后歸納總結(jié)了系統(tǒng)平臺的功能需求。本章節(jié)是MDVSP系統(tǒng)平臺實現(xiàn)的基礎(chǔ)。用戶上傳的資源具有針對性,專業(yè)性強、易分類管理,是提高MDVSP搜索平臺準(zhǔn)確性的重要保證。江蘇大學(xué)碩士研究生畢業(yè)論文115. 需要能提供上傳資源的功能。4. 需要滿足教學(xué)資源的視頻搜索。因為教學(xué)是有一定的時間周期的,所以常用教育資源垂直搜索引擎的用戶在一定的時間內(nèi)需要得到穩(wěn)定的信息。建立了社區(qū),為用戶尋求幫助提供了很好的渠道,也滿足教育工作者之間的直接經(jīng)驗交流。這能緩解教學(xué)資源不平等的現(xiàn)象。教學(xué)資源主題信息檢索能保證返回信息的精確性,用戶在檢索信息的時候就不必面對成千上萬條記錄而產(chǎn)生心理負(fù)擔(dān)。起主要服務(wù)對象是被教育者和從事教育事業(yè)的工作者。其中直接支持教學(xué)活動的數(shù)字文檔各種資源被稱為教學(xué)資源,它包括1. 在教學(xué)過程中所使用和產(chǎn)生的教案、課堂用的幻燈片、課堂測試題、課件、動畫、圖形圖像、音、視頻以及各類測試、考試題;2. 學(xué)生創(chuàng)作類資源和學(xué)習(xí)過程中產(chǎn)生的資源;3. 教育管理與教學(xué)評估類的數(shù)據(jù)資源;4. 教育科研過程所產(chǎn)生的資源;5. 其他特色資源; 給出了MDVSP搜索資源類型的圖示,從圖中我們可以看出,大部分的資源是由區(qū)域或者學(xué)校統(tǒng)一組織形成日常的資源上傳機制 [13]。在一定程度上解決了教學(xué)資源的資源共享 [12]。MDVSP搜索平臺的定位就是教育領(lǐng)域的幼稚園、小學(xué)、中學(xué)、大學(xué)、機構(gòu)培訓(xùn)以及成人教育。此外,由于針對特定行業(yè)的培訓(xùn)、考試、輔導(dǎo)教材等信息的分類,垂直化搜索與傳統(tǒng)搜索相比顯得更為“聰明”、更具人性化。MDVSP垂直化搜索“專、精、深” 等特點給教育行業(yè)工作者、學(xué)生帶來了方便,MDVSP的定位很簡單:以特定的信息服務(wù)提供給易用、簡單且富有效率的信息。但這些需求的復(fù)雜性與多樣性都是傳統(tǒng)搜索引擎無法滿足的。而搜索引擎是僅次于網(wǎng)頁一般性瀏覽、收發(fā)電子郵件的網(wǎng)民第三大基本需求,其需求自然隨之也變得多樣化。造成這種現(xiàn)象的原因是什么呢?用一句話概括就是“網(wǎng)民多樣化,需求多樣化”。江蘇大學(xué)碩士研究生畢業(yè)論文8第三章MDVSP 平臺需求分析當(dāng)我要查找高三物理試卷模擬考
點擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1