正文內容

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文(文件)

2025-07-06 16:00 上一頁面

下一頁面

　

【正文】 .............................................47 MDVSP 系統(tǒng)的實現(xiàn) ...................................................48 聚焦蜘蛛模塊的實現(xiàn) .............................................48 教育資源搜索結果 ...............................................49 教育資源信息自動抽取的實現(xiàn) .....................................51 LUCENE 倒排文件索引結構 ........................................56 教育資源信息的存儲實現(xiàn) .........................................58 用戶查詢功能的實現(xiàn) ...................................................58 用戶查詢主要函數(shù)實現(xiàn) ...........................................58 教育資源信息查詢 ...............................................60 運行結果與對比 ......................................................62 本章小結 ............................................................64第七章總結與展望 ....................................................65 總結 ................................................................65 展望 ................................................................65參考文獻 ............................................................67致謝 .............................................................69江蘇大學碩士研究生畢業(yè)論文1第一章 緒論課題研究背景及意義背景及意義隨著網(wǎng)絡與通信技術的迅速發(fā)展，Web信息爆炸性的增長，互聯(lián)網(wǎng)已經(jīng)成為一個巨大的海量信息空間。我國互聯(lián)網(wǎng)絡信息中心CNNIC于2022年1月發(fā)布的《第17次中國互聯(lián)網(wǎng)絡發(fā)展統(tǒng)計報告》顯示：%的使用率成為第二大網(wǎng)絡服務 [1]。那么對教育資源用戶來講，目前的信息服務能否滿足他們的需求？他們更傾向于什么樣的信息服務形式？目前現(xiàn)狀1. 獲取基礎教育資源最常用的方式是搜索引擎 [2]用戶獲取基礎教育資源的較經(jīng)常使用的方式為搜索引擎、學科專題網(wǎng)站、基礎教育綜合網(wǎng)站。4. 通常輸入的檢索內容包含不同層次的信息大多數(shù)用戶輸入單個或多個關鍵詞，而多個關鍵詞的查詢往往包含有兩類信息——主題描述信息和資源的類別限制信息。2. 由于在通過關鍵詞檢索方式中，關鍵詞與類別詞的混雜使用導致信息準確度較低。信息準確度低。江蘇大學碩士研究生畢業(yè)論文3 本文主要工作本人通過對現(xiàn)有教育領域搜索引擎的技術分析，結合問卷抽樣調查反饋，對用戶的需求進行鑒別、綜合和建模，清除用戶需求的模糊性、歧義性和不一致性，定義了本系統(tǒng)的功能和性能需求，在對 Hadoop 平臺的框架研究基礎之上，提出了基于 Hadoop 平臺的 MDVSP(Multitier Distributed Vertical Searching Platform)模型,詳細闡述了 MDVSP 系統(tǒng)在設計和實現(xiàn)過程中應用到的一些關鍵技術，并基于該模型實現(xiàn)了 MDVSP 原型。(3) 設計了 Map/Reduce 的邏輯結構和數(shù)據(jù)流。包括框架、原理和詳細實現(xiàn)。主要論述課題的研究背景，垂直搜索引擎發(fā)展現(xiàn)狀、存在的問題。給出MDVSP平臺的使用用戶群，并基于抽樣調查和多年的教育經(jīng)驗，對用戶的需求進行鑒別、清除用戶需求的模糊性、歧義性和不一致性，將原始問題的理解與軟件開發(fā)經(jīng)驗結合，深入描述軟件的功能和性能需求。江蘇大學碩士研究生畢業(yè)論文4第五章基于Hadoop平臺的MDVSP的關鍵技術。以JAVA和PERL為開發(fā)工具，通過Hadoop平臺框架實現(xiàn)基于上述架構模型的MDVSP系統(tǒng)的各層設計，并列出相關功能的關鍵性JAVA和PERL代碼。江蘇大學碩士研究生畢業(yè)論文5第二章Hadoop 平臺架構 Hadoop 的產生自從 Google 工程師 Jeffrey Dean 提出 Map Reduce 編程思想，MapReduce便在 Google 的各種 Web 應用中釋放著魔力?，F(xiàn)在，Doug Cutting 已經(jīng)加盟 Cloudera（一家從事 Hadoop 產品商業(yè)化及技術支持的公司）。Hadoop 的高效性在 MapReduce 的思想下， Hadoop 是并行工作的，以加快任務處理速度。2. 經(jīng)濟：框架可以運行在任何普通的PC上。? Avro: 一種提供高效、跨語言 RPC(Remote Procedure Call Protocol)的數(shù)據(jù)序列系統(tǒng)，持久化數(shù)據(jù)存儲。Pig 運行在MapReduce 和 HDFS 的集群上。ZooKeeper 提供分布式鎖之類的基本服務用于構建分布式應用。Chukwa [79]運行 HDFS 中存儲數(shù)據(jù)的收集器，它使用 MapReduce 來生成報告。江蘇大學碩士研究生畢業(yè)論文8第三章MDVSP 平臺需求分析當我要查找高三物理試卷模擬考試，為什么百度，谷歌都出現(xiàn)了培訓中心的廣告？想要查找小學三年級上學期課件，搜索結果出現(xiàn)了大量的招生廣告……越來越多的教育工作者、學生發(fā)現(xiàn)百度和谷歌搜索平臺，不容易使用了，想要獲得自己想要的信息，需要大量的時間來篩選。而搜索引擎是僅次于網(wǎng)頁一般性瀏覽、收發(fā)電子郵件的網(wǎng)民第三大基本需求，其需求自然隨之也變得多樣化。MDVSP垂直化搜索“專、精、深” 等特點給教育行業(yè)工作者、學生帶來了方便，MDVSP的定位很簡單：以特定的信息服務提供給易用、簡單且富有效率的信息。MDVSP搜索平臺的定位就是教育領域的幼稚園、小學、中學、大學、機構培訓以及成人教育。其中直接支持教學活動的數(shù)字文檔各種資源被稱為教學資源，它包括1. 在教學過程中所使用和產生的教案、課堂用的幻燈片、課堂測試題、課件、動畫、圖形圖像、音、視頻以及各類測試、考試題；2. 學生創(chuàng)作類資源和學習過程中產生的資源；3. 教育管理與教學評估類的數(shù)據(jù)資源；4. 教育科研過程所產生的資源；5. 其他特色資源；給出了MDVSP搜索資源類型的圖示，從圖中我們可以看出，大部分的資源是由區(qū)域或者學校統(tǒng)一組織形成日常的資源上傳機制 [13]。教學資源主題信息檢索能保證返回信息的精確性，用戶在檢索信息的時候就不必面對成千上萬條記錄而產生心理負擔。建立了社區(qū)，為用戶尋求幫助提供了很好的渠道，也滿足教育工作者之間的直接經(jīng)驗交流。4. 需要滿足教學資源的視頻搜索。用戶上傳的資源具有針對性，專業(yè)性強、易分類管理，是提高MDVSP搜索平臺準確性的重要保證。最后歸納總結了系統(tǒng)平臺的功能需求。NameNode上元數(shù)據(jù)控制DataNode信息。這也就是Map／Reduce算法模型的價值所在，通過簡化編程模型，降低了開發(fā)并行應用的入門門檻，并且能大大減輕了程序員在開發(fā)大規(guī)模數(shù)據(jù)的應用時的編程負擔。名字節(jié)點操作文件命名空間的文件或目錄操作，如打開，關閉，重命名，等等。名字節(jié)點和數(shù)據(jù)節(jié)點都是軟件運行在普通的機器之上，機器典型的都是 linux，HDFS 是用 java 來寫的，任何支持 java 的機器都可以運行名字節(jié)點或數(shù)據(jù)節(jié)點，利用 java 語言的超輕便型，很容易將 HDFS 部署到大范圍的機器上。名字節(jié)點是仲裁者和所有 HDFS 的元數(shù)據(jù)的倉庫。一般一臺機器上面部屬一個數(shù)據(jù)節(jié)點，有時也會把幾個數(shù)據(jù)節(jié)點部屬在一臺機器上，但這種情況不是很常見。它將每個文件存儲成block序列，除了最后一個block，所有的block都是同樣的大小。HDFS中的文件是writeone，并且嚴格要求在任何時候只有一個writer。HDFS采用一種稱為rackaware的策略來改進數(shù)據(jù)的可靠性、有效性和網(wǎng)絡帶寬的利用。一個簡單但沒有優(yōu)化的策略就是將副本存放在單獨的機架上。在大多數(shù)情況下，replication因子是3，HDFS的存放策略是將一個副本存放在本地機架上的節(jié)點，一個副本放在同一機架上的另一個節(jié)點，最后一個副本放在不同機架上的一個節(jié)點。如果在reader的同一個機架上有一個副本，那么就讀該副本。Blockreport包括了某個Datanode所有的數(shù)據(jù)塊列表。應用程序可以處理大數(shù)據(jù)集。HDFS客戶端在本地的文件中緩存文件數(shù)據(jù)，應用程序將數(shù)據(jù)寫到這個臨時的本地文件。當文件關閉，還有一些沒有刷新的本地臨時文件也被傳遞到數(shù)據(jù)節(jié)點。這些應用都是寫數(shù)據(jù)一次，讀卻是一次到多次，并且讀的速度要滿足流式讀。應用的寫被透明地重定向到這個臨時文件。當文件關閉時，在臨時文件中剩余的沒有flush的數(shù)據(jù)也會傳輸?shù)街付ǖ腄atanode，然后客戶端告訴Namenode文件已經(jīng)關閉。如果不采用客戶端緩存，由于網(wǎng)絡速度和網(wǎng)絡堵塞會對吞估量造成比較大的影響。這就是流水線式的復制。然后，每個“文件片段”會對應的創(chuàng)建一個新的Map任務。InputFormat也需要處理達到FileSplit邊界值的記錄。絕大多數(shù)的應用僅僅使用行的內容而忽略行在文件中江蘇大學碩士研究生畢業(yè)論文17的偏移量。由于效率的原因，有時需要充分利用這個事實的優(yōu)點去提供一個執(zhí)行規(guī)約類型功能的Combiner類。3) Reduce 操作當一個Reduce任務開始時，它的輸入來源于分散在多個節(jié)點上的Map任務所產生的許多文件。這使得實際的Reduce操作非常簡單：文件被順序讀入然后輸入文件中的一個索引鍵的所有對應值會被一個迭代器順次傳遞給Reduce方法直到下一個索引鍵開始。 Map/Reduce 執(zhí)行流程Map/，從數(shù)據(jù)流的角度展示了Map/Reduce算法模型。3. 讀取(read)被指派執(zhí)行Map任務的工作站讀取相關的數(shù)據(jù)塊，從原始數(shù)據(jù)中解析出Key/Value對，經(jīng)過Map函數(shù)處理，得到中問鍵值時，存入內存緩沖區(qū)。Reduce工作站讀取完所有中問數(shù)據(jù)后，江蘇大學碩士研究生畢業(yè)論文19通過中問關鍵字對數(shù)據(jù)進行排列，把具有相同關鍵字的數(shù)據(jù)分為一類。Reduce函數(shù)的輸出結果將被添加到最后的輸出文件中。如圖所示，在 Browser/Server 三層體系結構下，表示層、邏輯層、數(shù)據(jù)存儲層被分割成三個相對獨立的單元，有效地實現(xiàn)了數(shù)據(jù)存儲、功能邏輯與用戶使用界面的分離，并真正實現(xiàn)了顯示、計算、數(shù)據(jù)的分離。在這一層里我們利用相應的代碼實現(xiàn)前面設計好的一些關鍵算法。在Hadoop 平臺中我們選擇多個數(shù)據(jù)節(jié)點即 DataNode，用于提高存儲 Capacity 和計算效率。為了提高用戶的訪問速度，在 Web 服務器前端假設了負載均衡設備，提高 Webserver 的吞吐能力。但它不適合于處理關系型很強的結構化數(shù)據(jù)，因為它本身并不是完全的關系型數(shù)據(jù)。 “一次寫入，多次讀取”是 Hbase 數(shù)據(jù)庫最大的特色。在設計系統(tǒng)數(shù)據(jù)模型之前，我們先分析一下 MDVSP 業(yè)務處理的需求。江蘇大學碩士研究生畢業(yè)論文23 數(shù)據(jù)模型設計Hbase 是一個稀疏的，排序的，長期存儲在硬盤上的，多維度的，映射表。由于是稀疏存儲的，所以同一張表的每一行數(shù)據(jù)都可以有截然不同的列。每一次的邏輯修改都會有一個Timestamp 關聯(lián)對應。雖然從概念視圖來看每個表格是由很多行組成，但是在物理存儲上面，它是按照列來保存的，下面是物理數(shù)據(jù)模型：表物理數(shù)據(jù)模型Row key Timestamp Column “C2”T6 “C2:L2” “L2content”“rk1”T5 “C2:L1” “L1content”物理數(shù)據(jù)模型實質上是將邏輯模型中的一個 Row 分割成為根據(jù) Column family 存儲。主表設計 GB 連續(xù)運行一個月,甚至一年,用普通的數(shù)據(jù)庫已經(jīng)無法滿足要求,我們系統(tǒng)采用的HBase 數(shù)據(jù)庫,現(xiàn)在已經(jīng)可以支持 PB 級別的數(shù)據(jù),所以在數(shù)據(jù)查詢和存儲方面不會存在瓶頸。? 所屬類別:是計算機,還是醫(yī)藥類的,還是管理類的,還是語文,數(shù)學等? 年級: 這個對于在校學生查詢課件、文檔是非常有用的，有助于甄別課件是否符合自己? 科目:具體是語文、音樂、信息還是英語等，都是對內容的一種歸類。根據(jù)前面論述的 Hbase 的特江蘇大學碩士研究生畢業(yè)論文25點，我們設計基于 Hbase 的數(shù)據(jù)結構：表 CC_HD_MAIN 表RowKey TimeStamp Column KeywordColumnRelated WordColumnFMessageColumnFInfo記錄ID：1時間戳20220201關鍵詞:高考關聯(lián)關鍵詞組:輔導班,試卷,填報志愿,分數(shù)線Message:下載URL
。但是對于海量數(shù)據(jù)來說，這樣的效率并不是很理想。? 日

點擊復制文檔內容

數(shù)學相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文(文件)

畢業(yè)論文-基于java的聊天系統(tǒng)的設計與實現(xiàn)-資料下載頁

畢業(yè)論文-基于asp的教育視頻點播系統(tǒng)的設計與實現(xiàn)-資料下載頁

畢業(yè)論文-基于java的聊天系統(tǒng)的設計與實現(xiàn)-資料下載頁

基于web的在線招生平臺的設計與實現(xiàn)畢業(yè)論文-資料下載頁

基于java的聊天系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-資料下載頁

基于bs結構的網(wǎng)絡教學平臺的設計與實現(xiàn)畢業(yè)論文-資料下載頁

基于bs結構的網(wǎng)絡教學平臺的設計與實現(xiàn)畢業(yè)論文-資料下載頁

畢業(yè)論文-基于asp的教育視頻點播系統(tǒng)的設計與實現(xiàn)-資料下載頁

基于jsp的博客系統(tǒng)設計與實現(xiàn)畢業(yè)論文-資料下載頁

基于nutch的新聞主題搜索引擎的設計與實現(xiàn)畢業(yè)論文-資料下載頁

基于net平臺的進銷存管理系統(tǒng)設計與實現(xiàn)畢業(yè)論文-資料下載頁

基于web的選課系統(tǒng)設計與實現(xiàn)畢業(yè)論文-資料下載頁

畢業(yè)論文-基于android平臺數(shù)獨游戲的設計與實現(xiàn)-資料下載頁

基于flash的遠程教學平臺設計與實現(xiàn)畢業(yè)論文-資料下載頁

基于java平臺藏式打骰子的設計與實現(xiàn)畢業(yè)論文-資料下載頁

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-全文預覽

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-預覽頁

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-免費閱讀

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文(存儲版)

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-文庫吧在線文庫