freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于hadoop平臺(tái)的教育資源垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-免費(fèi)閱讀

2025-08-10 20:21 上一頁面

下一頁面
  

【正文】 每個(gè)值是一個(gè)不解釋的字符數(shù)組,數(shù)據(jù)都是字符串。聚焦爬蟲每天都會(huì)獲取龐大的數(shù)據(jù)量,以單臺(tái)爬蟲服務(wù)器單線程為例,每天至少 30G 的數(shù)據(jù)量,如果多臺(tái)爬蟲服務(wù)器并行,那么數(shù)據(jù)量有肯能達(dá)到 TB級(jí)別。 MDVSP平臺(tái)數(shù)據(jù)在 HDFS中存放結(jié)構(gòu) 為了讓用戶自己上傳 的數(shù)據(jù)能快速、準(zhǔn)確查詢到,我們把爬蟲的數(shù)據(jù)與用戶上傳的數(shù)據(jù)分開。 數(shù)據(jù)存儲(chǔ)計(jì)算層:該層的實(shí)現(xiàn)是由 Hadoop平臺(tái)實(shí)現(xiàn)。在這時(shí)候 Map/Reduce返回用戶程序的調(diào)用點(diǎn)。這些在本地磁盤的數(shù)據(jù)數(shù)列的存放位置信息被送回管理機(jī),管理機(jī)負(fù)責(zé)將這些位置信息傳送到執(zhí)行 Reduce任務(wù)的工作站。輸出文件的格式由 JobConf. setOutputFormat方法來指定。與此相反的是,輸出會(huì)先被收集到列表,每個(gè)索引鍵對(duì)應(yīng)一個(gè)列表。 對(duì)于 InputFormat類來說,沒有必要同時(shí)產(chǎn)生有意義的索引鍵和值。如果單個(gè)文件的大小達(dá)到了影響搜索時(shí)間的程度,這個(gè)文件也會(huì)被劃分為幾個(gè)“片段”。如果 Namenode在文件關(guān)閉前掛了,該文件將丟失 [1820]。一個(gè)典型的 block大小是 64MB,因而,文件總是按照 64M切分成 chunk,每個(gè) chunk存儲(chǔ)于不同的 Datanode。名字節(jié)點(diǎn)插入文件名到文件系統(tǒng)層次當(dāng)中,然后分配一個(gè)數(shù)據(jù)塊。當(dāng) Namenode檢測確認(rèn)某個(gè) Datanode的數(shù)據(jù)塊副本的最小數(shù)目,那么該 Datanode就會(huì)被認(rèn)為是安全的;如果一定百分比(這個(gè)參數(shù)可江蘇大學(xué)碩士研究生畢業(yè)論文 15 配置)的數(shù)據(jù)塊檢測確認(rèn)是安全的,那么 Namenode將退出 SafeMode狀態(tài),接下來它會(huì)確定還有哪些 數(shù)據(jù)塊的副本沒有達(dá)到指定數(shù)目,并將這些 block復(fù)制到其他Datanode。三分之一的副本在一個(gè)節(jié)點(diǎn)上,三分之二在一個(gè)機(jī)架上,其他保存在剩下的機(jī)架中,這一策略改進(jìn)了寫的性能。龐大的 HDFS實(shí)例一般運(yùn)行在多個(gè)機(jī)架的計(jì)算機(jī)形成的集群上,不同機(jī)架間的兩臺(tái)機(jī)器的通訊需要通過交換機(jī),顯然通常情況下,同一個(gè)機(jī)架內(nèi)的兩個(gè)節(jié)點(diǎn)間的帶寬會(huì)比不同機(jī)架間的兩臺(tái)機(jī)器的帶寬大。每個(gè)文件的 block大小和 replication因子都是可配置的。系統(tǒng)設(shè)計(jì)成用戶的實(shí)際數(shù)據(jù)不經(jīng)過名字節(jié)點(diǎn)。數(shù)據(jù)節(jié)點(diǎn)來負(fù)責(zé)來自文件系統(tǒng)客戶的讀寫請求。很多開發(fā)人員對(duì)并行計(jì)算比較陌生,再涉及到分布式處理就更加棘手。本章節(jié)是 MDVSP系統(tǒng)平臺(tái)實(shí)現(xiàn)的基礎(chǔ)。 因?yàn)榻虒W(xué)是有一定的時(shí)間周期的,所以常用教育資源垂直搜索引擎的用戶在一定的時(shí)間內(nèi)需要得到穩(wěn)定的信息。起主要服務(wù)對(duì)象是被教育者和從事教育事業(yè)的工作者。 教育資源垂直搜索的用戶群 早在 20xx年的時(shí)候,江蘇蘇州教育界就構(gòu)想“打造 中小學(xué)校的教育信息資源共享平臺(tái) “。 隨著互聯(lián)網(wǎng)普及程度的不斷提高,網(wǎng)民由以前的 IT專業(yè)人士擴(kuò)大到不同職業(yè),不同年齡的群體。 ? Chukwa: 分布式數(shù)據(jù)收集和分析系統(tǒng)。 ? Pig: 一種數(shù)據(jù)流語言和運(yùn)行環(huán)境,用以檢索非常大的數(shù)據(jù)集。本系統(tǒng)采用 Hadoop分布式架構(gòu)的目的有以下幾個(gè)方面: 1. 可擴(kuò)展:不論是存儲(chǔ)的可擴(kuò)展還是計(jì)算的可擴(kuò)展都是 Hadoop的設(shè)計(jì)根本。 20xx 年 1 月, Doug Cutting 因其在開源項(xiàng)目 Nutch 和 Lucene 的卓越表現(xiàn)受邀加入 Yahoo公司,專職在 Hadoop項(xiàng)目上進(jìn)行開發(fā)。 第六章 MDVSP平臺(tái)的實(shí)現(xiàn) 。 第三章 MDVSP平臺(tái)需求分析 。 (5) 設(shè)計(jì)了 MDVSP 的 HA。通用搜索引擎檢索結(jié)果完全依賴于用戶的關(guān)鍵詞,即對(duì)于不同的用戶,同一個(gè)關(guān)鍵詞返回的結(jié)果相同,沒有與用戶聯(lián)系起來,難以滿足用戶的個(gè)性 化需求。 總體上,用戶使用通用搜索引擎獲取基礎(chǔ)教育資源存在的問題可歸為以下兩個(gè)方面: 1. 教育資源的關(guān)鍵詞不能被搜索引擎正確識(shí)別,導(dǎo)致檢索結(jié)果的信息雜亂與過量,即使搜索出來也與可能是與教育無關(guān)的資源信息。 對(duì)于基礎(chǔ)教育領(lǐng)域的廣大教師、學(xué)生、家長以及其他教育工作者,互聯(lián)網(wǎng)已經(jīng)成為他們獲取基礎(chǔ)教育資源和信息的重要工具,網(wǎng)上大量的試卷、教學(xué)研究論文、課件、課外閱讀材料、招生信息等基礎(chǔ)教育 資源信息可以使教師提高自己的工作效率和水平,使學(xué)生擴(kuò)大自己的知識(shí)面,使家長掌握最新的教育信息。 Extraction rules。該架構(gòu)模型把業(yè)務(wù)處理服務(wù)器與 Web 服務(wù)器分開,采用并行計(jì)算 提高 業(yè)務(wù) 處理能力,使得基于該架構(gòu)模型下的系統(tǒng)具有良好的可伸縮性、可擴(kuò)展性、可維護(hù)性和更高的安全性。本人授權(quán) 大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。盡我所知,除文中特別加以標(biāo)注和致謝的地方外,不包含其他人 或組織已經(jīng)發(fā)表或公布過的研究成果,也不包含我為獲得 及其它教育機(jī)構(gòu)的學(xué)位或?qū)W歷而使用過的材料。 保密 , 在 年解密后適用本授權(quán)書。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo) 明。 本文通過對(duì)現(xiàn)有的互聯(lián)網(wǎng)搜索平臺(tái)的分析,借鑒其他應(yīng)用領(lǐng)域的垂直搜索平臺(tái)所采用的架構(gòu)和設(shè)計(jì)方法,通過使用 Hadoop 平臺(tái)的分層分布的架構(gòu)和聚焦蜘蛛的爬行技術(shù),提出基于 Hadoop 平臺(tái)的 B/S 多層分布式架構(gòu)系統(tǒng) 模型 ,給出 提高搜索運(yùn)行效率的若干關(guān)鍵技術(shù) , 并基于該架構(gòu)的設(shè)計(jì)實(shí)現(xiàn)了系統(tǒng)。 Searching Engine。 我國互聯(lián)網(wǎng)絡(luò)信息中心 CNNIC于 20xx年 1月發(fā)布的《第 17次中國互聯(lián)網(wǎng)絡(luò)發(fā)展統(tǒng)計(jì)報(bào)告》顯示:搜索引擎以 %的使用率成為第二大網(wǎng)絡(luò)服務(wù) [1]。 4. 通常輸入的檢索內(nèi)容包含不同層次的信息 大多數(shù)用戶輸入單個(gè)或多個(gè)關(guān)鍵詞,而多個(gè)關(guān)鍵詞的查詢往往包含有兩類信息—— 主題描述信息和資源的類別限制信息。 信息準(zhǔn)確度低。 (3) 設(shè)計(jì)了 Map/Reduce 的邏輯結(jié)構(gòu)和數(shù)據(jù)流。 主要論述課題的研究背景,垂直搜索引擎發(fā)展現(xiàn)狀、存在的問題 。 第五章 基于 Hadoop平臺(tái)的 MDVSP的關(guān)鍵技術(shù) 。 江蘇大學(xué)碩士研究生畢業(yè)論文 5 Hadoop 平臺(tái)架構(gòu) Hadoop 的產(chǎn)生 自從 Google 工程師 Jeffrey Dean 提出 Map Reduce 編程思想, MapReduce便在 Google 的各種 Web 應(yīng)用中釋放著魔力。 Hadoop 的高效性在 MapReduce 的思想下, Hadoop 是并行工作的,以加 快任務(wù)處理速度。 ? Avro: 一種提供高效、跨語言 RPC(Remote Procedure Call Protocol)的數(shù)據(jù)序列系統(tǒng),持久化數(shù)據(jù)存儲(chǔ)。 ZooKeeper 提供分布式鎖之類的基本服務(wù) 用于構(gòu)建分布式應(yīng)用。 江蘇大學(xué)碩士研究生畢業(yè)論文 8 第三章 MDVSP 平臺(tái)需求分析 當(dāng)我要查找 高三物理試卷模擬考試 ,為什么百度,谷歌都出現(xiàn)了培訓(xùn)中心的廣告?想要查找 小學(xué)三年級(jí)上學(xué)期課件 ,搜索結(jié)果出現(xiàn)了大量的 招生廣告 ?? 越來越多的教育工作者、學(xué)生發(fā)現(xiàn)百度和谷歌搜索平臺(tái),不容易使用了,想要獲得自己想要的信息,需要大量的時(shí)間來篩選。 MDVSP垂直化搜索“專、精、深” 等特點(diǎn) 給教育行業(yè)工作者、學(xué)生帶來了方便 , MDVSP的定位很簡單:以特定的信息服務(wù)提供給易用、簡單且富有效率的信息。 江蘇大學(xué)碩士研究生畢業(yè)論文 9 圖 MDVSP搜索平臺(tái)使用 對(duì)象 MDVSP 搜索資源類型需求 教育資源包括從事教育事業(yè)的人力資源、物力資源、和無形資源的總和。由于地域的差異,教學(xué)水平、師資等都存在很大的差異,常常在教學(xué)過程中遇到問題,就迫切需要得到幫助解決。 MDVSP獲取資源的方式,一方面由聚焦蜘蛛爬行 [11]獲得,一方面是由廣大的用戶群體上傳。 圖 HDFS 體系架構(gòu) 由圖 , Client可以對(duì) DataNode進(jìn)行讀和寫操作,同時(shí)在 NameNode上對(duì)元數(shù)據(jù)進(jìn)行操作。 內(nèi)部機(jī)制是將一個(gè)文件分割成一個(gè)或多個(gè)的塊,這些塊存儲(chǔ)在一組數(shù)據(jù)節(jié)點(diǎn)中。集群中只有一個(gè)名字節(jié)點(diǎn)極大地簡單化了系統(tǒng)的體系。 數(shù)據(jù)復(fù)制 HDFS被設(shè)計(jì)成在一個(gè)大集群中可以跨機(jī)器地可靠地存儲(chǔ)海量的文件。 副本的存放 副本的存放是 HDFS可靠性和性能的關(guān)鍵。但是,這個(gè)簡單策略加大了寫的代價(jià),因?yàn)橐粋€(gè)寫操作需要傳輸block到多個(gè)機(jī)架。 Namenode從所有的 Datanode接收心跳包和 Blockreport。 客戶端請求創(chuàng)建文件時(shí),并不立即請求名字節(jié)點(diǎn)。 數(shù)據(jù)塊 兼容 HDFS的應(yīng)用都是處理大數(shù)據(jù)集合的??蛻舳藢⒈镜嘏R時(shí)文件 flush到指定的 Datanode上。第二個(gè) Datanode也是這樣,邊收邊傳,一小部分一小部分地收,存儲(chǔ)在本地倉庫,同時(shí)傳給第三個(gè) Datanode,第三個(gè)Datanode就僅僅是接收并存儲(chǔ)了。 InputFormat類負(fù)責(zé)解析輸入和生成 Key/ Value對(duì)。 2) Combine 操作 當(dāng) Map操作輸出了它的 Key/Value對(duì)后就會(huì)駐留在內(nèi)存中。然后這個(gè)文件會(huì)被歸并排序以保證給定一個(gè)索引鍵。主程序指派空閑的工作站程序執(zhí)行 Map任務(wù)或是 Reduce任務(wù)。 6. 寫到輸出文件 (write) Reduce工作站對(duì)每一個(gè)由唯一的中間關(guān)鍵字對(duì)應(yīng)的中間數(shù)據(jù)進(jìn)行排列,它發(fā)送關(guān)鍵字和相對(duì)應(yīng)的中間值給用戶的 Reduce函數(shù)。 邏輯層:這一層是非常重要也是非常關(guān)鍵的一層,因?yàn)樗钦嬲饬x上實(shí)現(xiàn)用戶層與數(shù)據(jù)存儲(chǔ)計(jì)算的紐帶。用戶上傳的視頻、音頻等數(shù)據(jù)存放在存儲(chǔ)設(shè)備中。它不建議用戶經(jīng)常修改數(shù)據(jù)。URL:記錄原始數(shù)據(jù)的位置 [2526]。列名字的格式是” family: label”,都是由字符串組成,每一張表有一個(gè)family 集合,這。爬蟲數(shù)據(jù)經(jīng)過主題過濾、分類后的格式主要包括 : TraceID:爬行后產(chǎn)生的唯一 ID號(hào)。 Hbase本身不保證數(shù)據(jù)的一致性,提供的查詢機(jī) 制也比較簡單。 MDVSP平臺(tái)數(shù)據(jù)處理模型整體框架 因?yàn)?MDVSP 是基于 Inter 的 B/S 結(jié)構(gòu)的 Web 服務(wù),而且采用了多層結(jié)構(gòu)來設(shè)計(jì),所以這就決定了數(shù)據(jù)處理模型相對(duì)較復(fù)雜,如圖 所示。如此設(shè)計(jì)可 以大江蘇大學(xué)碩士研究生畢業(yè)論文 20 以大大減輕網(wǎng)站服務(wù)器的網(wǎng)站,而且使他們之間互相不影響,既較好兼顧了用戶的查詢效率,同時(shí)也可以專門設(shè)計(jì)網(wǎng)頁的采集與分析時(shí)間,保證系統(tǒng)的工作效率和利用率。排序操作是必須的,因?yàn)榫哂胁煌年P(guān)鍵字 Map后會(huì)進(jìn)行相同的 Reduce操作。下面詳細(xì)講解一下每一個(gè)步驟的作用: 江蘇大學(xué)碩士研究生畢業(yè)論文 18 圖 操作流程圖 1. 分割文件 (fork) 首先,將眾多文件分成大小不等的若干小塊數(shù)據(jù),數(shù)據(jù)塊大小由用戶給定參數(shù)控制,然后啟動(dòng)機(jī)器集群中的眾多程序拷貝。如果 Reduce過程是運(yùn)行在分布式模式下的 話,需要在拷貝階段先將這些文件拷貝到 Reduce任務(wù)所在節(jié)點(diǎn)的本地文件系統(tǒng)。 N個(gè)輸入文件會(huì)產(chǎn)生 M個(gè)待運(yùn)行的 Map任務(wù),每個(gè) Map任務(wù)都會(huì)產(chǎn)生由系統(tǒng)配置江蘇大學(xué)碩士研究生畢業(yè)論文 17 好的規(guī)約任務(wù)數(shù)量相同的輸出文件。 當(dāng)一個(gè)單獨(dú)的 Map任務(wù)開始時(shí),對(duì)應(yīng)的都會(huì)按照每個(gè) Reduce任務(wù)配置輸出文件寫操作者。 流水線復(fù)制 當(dāng)某個(gè)客戶端向 HDFS文件寫數(shù) 據(jù)的時(shí)候,一開始是寫入本地臨時(shí)文件,假設(shè)該文件的 replication因子設(shè)置為 3,那么客戶端會(huì)從 Namenode 獲取一張Datanode列表來存放副本。當(dāng)這個(gè)臨時(shí)文件累積的數(shù)據(jù)超過一個(gè) block的大?。J(rèn) 64M),客戶端才會(huì)聯(lián)系 Namenode??蛻舳穗S后通知名字節(jié)點(diǎn),這個(gè)文件已經(jīng)關(guān)閉。這些程序一次寫入數(shù)據(jù)多次讀取,因此需要一個(gè)比較好的流讀取速度。如果一個(gè) HDFS集群跨越多個(gè)數(shù)據(jù)中心,那么 reader也將首先嘗試讀本地?cái)?shù)據(jù)中心的副本。這樣可以防止整個(gè)機(jī)架(非副本存放)失效的情況,并且允許讀數(shù)據(jù)的時(shí)候可以從多個(gè)機(jī)架讀取。Namenode全權(quán)管理 block的復(fù)制,它周期性地從集群中的每個(gè) Datanode接收心跳江蘇大學(xué)碩士研究生畢業(yè)論文 14 包和一個(gè) Blockreport。這些機(jī)器一般都是普通的 PC 機(jī)。典型的部署時(shí)將有一個(gè)專門的機(jī)器來運(yùn)行名字節(jié)點(diǎn)軟件,機(jī)群中的其他機(jī)器運(yùn)行一個(gè)數(shù)據(jù)節(jié)點(diǎn)實(shí)例。 江蘇大學(xué)碩士研究生畢業(yè)論文 13 分布式文件系統(tǒng) HDFS 名字節(jié)點(diǎn)與 數(shù)據(jù)節(jié)點(diǎn) HDFS 是一個(gè)主從結(jié)構(gòu)的體系,一個(gè) HDFS 集群是由一個(gè)名字節(jié)點(diǎn),它是一個(gè)管理文件的命名空間和調(diào)節(jié)客戶端訪問文件的主服務(wù)器,當(dāng)然還有的數(shù)據(jù)節(jié)點(diǎn),一個(gè)節(jié)點(diǎn)一個(gè),它來管理存儲(chǔ)。 江蘇大學(xué)碩士研究生畢業(yè)論文 12 第四章 基于 Hadoop 平臺(tái)的 MDVSP 模型 分布式文件系統(tǒng) HDFS 與 Map/Reduce 技術(shù) Hadoop文件系統(tǒng) (HDFS)是一個(gè)運(yùn)行在普通的硬件上的分布式文件系統(tǒng), HDFS是高容錯(cuò)性的,可以部署在低成本的硬件之上, HDFS大數(shù)據(jù)集的應(yīng)用程序。 有很多教學(xué)資源是以視頻、音頻的方式存在的,如果公開課視頻,優(yōu)秀教師示范課視頻,還有很多的動(dòng)畫資源等。 2. 需要建立 。從圖上可以 看出用戶的群體數(shù)量還是比較大的。但這些需求的復(fù)雜性與多樣性都是傳統(tǒng)搜索引擎無法滿足的。盡管 HDFS目前仍然不盡完善,但是這些缺陷和
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1