freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于hadoop平臺(tái)的教育資源垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(編輯修改稿)

2024-08-15 20:21 本頁面
 

【文章內(nèi)容簡介】 43 方案部署 ............................................................. 43 硬件配置 ...................................................... 43 SSH 公鑰認(rèn)證 配置 .............................................. 44 Hadoop 平臺(tái)搭建 ................................................ 44 Hbase 平臺(tái)搭建 ................................................. 45 與垂直搜索引擎結(jié)合 ............................................ 46 開發(fā)平臺(tái)及其開發(fā)工具 ................................................. 47 操作系統(tǒng) ....................................................... 47 硬件平臺(tái) ....................................................... 47 開發(fā)工具 ....................................................... 47 MDVSP 系統(tǒng)的實(shí)現(xiàn) ................................................... 48 聚焦蜘蛛模塊的實(shí)現(xiàn) ............................................. 48 教育資源搜索結(jié)果 ............................................... 49 教育資源信息自動(dòng)抽取的實(shí)現(xiàn) ..................................... 51 LUCENE 倒排文件索引結(jié)構(gòu) ........................................ 56 教育資源信息的存儲(chǔ)實(shí)現(xiàn) ......................................... 58 用戶查詢功能的實(shí)現(xiàn) ................................................... 58 用戶查詢主要函數(shù)實(shí)現(xiàn) ........................................... 58 教育資源信息查詢 ............................................... 60 運(yùn)行結(jié)果與對(duì)比 ...................................................... 62 本章小結(jié) ............................................................ 64 第七章 總結(jié)與展望 ............................................. 65 總結(jié) ................................................................ 65 展望 ................................................................ 65 參考文獻(xiàn) .................................................... 67 致 謝 ...................................................... 69 江蘇大學(xué)碩士研究生畢業(yè)論文 1 第 一 章 緒論 課題研究背景及意義 隨著網(wǎng)絡(luò)與通信技術(shù)的迅速發(fā)展, Web信息爆炸性的增長,互聯(lián)網(wǎng)已經(jīng)成為一個(gè)巨大的海量信息空間。如何迅速、準(zhǔn)確、方便的從如此龐大的信息庫獲取自己需 要的信息,是互聯(lián)網(wǎng)用戶面臨的一個(gè)重要問題。 搜索引擎的出現(xiàn),整合了眾多網(wǎng)站信息,極快的查詢起到了信息導(dǎo)航的作用,信息的價(jià)值得到眾多商家的普遍認(rèn)可,成為互聯(lián)網(wǎng)中最有價(jià)值的領(lǐng)域。大家熟知的搜索引擎 Google、百度、雅虎等都是搜索引擎的杰出代表,為互聯(lián)網(wǎng)的發(fā)展做出了重要的貢獻(xiàn)。 我國互聯(lián)網(wǎng)絡(luò)信息中心 CNNIC于 20xx年 1月發(fā)布的《第 17次中國互聯(lián)網(wǎng)絡(luò)發(fā)展統(tǒng)計(jì)報(bào)告》顯示:搜索引擎以 %的使用率成為第二大網(wǎng)絡(luò)服務(wù) [1]。 互聯(lián)網(wǎng)的信息量呈爆炸趨勢(shì)增長,幾年前全球式搜索引擎收錄的網(wǎng)頁量只有幾千萬頁,而現(xiàn)在已經(jīng)達(dá) 到幾十億頁,數(shù)量增加帶來的是搜索服務(wù)的品質(zhì)下降,查詢的結(jié)果集就是海量的,經(jīng)常是幾十萬筆的資料,結(jié)果里存在大量的重復(fù)信息和垃圾信息,用戶越來越難迅速找到符合的信息,現(xiàn)在經(jīng)常使用搜索引擎可以感覺到很難在短時(shí)間內(nèi)準(zhǔn)確的篩選出需要的內(nèi)容。因此,如何對(duì)通用搜索引擎技術(shù)進(jìn)行改進(jìn),使查詢的結(jié)果更加貼近用戶的要求,成為搜索引擎行業(yè)近期的研究熱點(diǎn)。 對(duì)于基礎(chǔ)教育領(lǐng)域的廣大教師、學(xué)生、家長以及其他教育工作者,互聯(lián)網(wǎng)已經(jīng)成為他們獲取基礎(chǔ)教育資源和信息的重要工具,網(wǎng)上大量的試卷、教學(xué)研究論文、課件、課外閱讀材料、招生信息等基礎(chǔ)教育 資源信息可以使教師提高自己的工作效率和水平,使學(xué)生擴(kuò)大自己的知識(shí)面,使家長掌握最新的教育信息。那么對(duì)教育資源用戶來講,目前的信息服務(wù)能否滿足他們的需求?他們更傾向于什么樣的信息服務(wù)形式? 目前現(xiàn)狀 1. 獲取基礎(chǔ)教育資源 最常用的方式是搜索引擎 [2] 用戶獲取基礎(chǔ)教育資源的較經(jīng)常使用的方式為搜索引擎、學(xué)科專題網(wǎng)站、基礎(chǔ)教育綜合網(wǎng)站。其中使用最多的是搜索引擎。 2. 目前的搜索引擎還不能完全滿足用戶需求 [2] 綜合性通用搜索引擎在一定程度上方便了用戶查找利用網(wǎng)上信息,但由于它面江蘇大學(xué)碩士研究生畢業(yè)論文 2 向的是大眾,強(qiáng)調(diào)通用性,搜索結(jié)果中 有很多雜亂信息,信息的準(zhǔn)確度較低,不能完全滿足基礎(chǔ)教育用戶的需求。 3. 傾向簡單的檢索方式 [2] 大多數(shù)人通常使用關(guān)鍵詞查詢,一部分人使用諸如“ +( and)”、“ ( or)”等檢索技巧,使用高級(jí)檢索的人很少,用合適的關(guān)鍵詞檢索是被所有用戶認(rèn)為是比較容易的,所有用戶都傾向于簡單易用的檢索方式。 4. 通常輸入的檢索內(nèi)容包含不同層次的信息 大多數(shù)用戶輸入單個(gè)或多個(gè)關(guān)鍵詞,而多個(gè)關(guān)鍵詞的查詢往往包含有兩類信息—— 主題描述信息和資源的類別限制信息。比如說,一位教師輸入“《阿 Q 正傳》教案”,關(guān)鍵詞“阿 Q 正傳”是主題信息,關(guān)鍵詞 “教案”,是類別限制信息,再如一個(gè)學(xué)生查找“八年級(jí)(上)生物學(xué)試題”為學(xué)段(年級(jí))、學(xué)科和資源類型的組合。最常見的主題描述信息是學(xué)科內(nèi)知識(shí)點(diǎn)、語文課文標(biāo)題等,常見的類別限制信息是學(xué)科、學(xué)段(或年級(jí))、資源類型。 總體上,用戶使用通用搜索引擎獲取基礎(chǔ)教育資源存在的問題可歸為以下兩個(gè)方面: 1. 教育資源的關(guān)鍵詞不能被搜索引擎正確識(shí)別,導(dǎo)致檢索結(jié)果的信息雜亂與過量,即使搜索出來也與可能是與教育無關(guān)的資源信息。 2. 由于在通過關(guān)鍵詞檢索方式中,關(guān)鍵詞與類別詞的混雜使用導(dǎo)致信息準(zhǔn)確度較低。往往要搜索的信息排序靠后或漏檢。 教育資源搜索存在的問題 根據(jù)以上分析,用戶獲取網(wǎng)上教育資源主要存在以下問題: 信息過量。網(wǎng)上資源內(nèi)容廣泛 ,通用搜索引擎返回的大量信息過多過雜 ,專業(yè)性不強(qiáng) .使用戶淹沒在海量信息里,篩選信息需要耗費(fèi)大量的精力。 信息準(zhǔn)確度低。由于通用搜索引擎強(qiáng)調(diào)通用性,檢索范圍廣,對(duì)資源沒有篩選分類,資源索引庫十分龐雜,很難滿足特定用戶群的特定需求。 信息服務(wù)缺乏針對(duì)性,缺少用戶交互。通用搜索引擎檢索結(jié)果完全依賴于用戶的關(guān)鍵詞,即對(duì)于不同的用戶,同一個(gè)關(guān)鍵詞返回的結(jié)果相同,沒有與用戶聯(lián)系起來,難以滿足用戶的個(gè)性 化需求。 江蘇大學(xué)碩士研究生畢業(yè)論文 3 本文 主要工作 本人通過對(duì)現(xiàn)有教育領(lǐng)域搜索引擎的技術(shù)分析, 結(jié)合問卷抽樣調(diào)查反饋, 對(duì)用戶的需求進(jìn)行鑒別、綜合和建模,清除用戶需求的模糊性、歧義性和不一致性 ,定義了本系統(tǒng)的功能和性能需求, 在對(duì) Hadoop 平臺(tái)的框架研究基礎(chǔ)之上,提出了基于Hadoop 平臺(tái) 的 MDVSP(Multitier Distributed Vertical Searching Platform)模型 ,詳細(xì)闡述了 MDVSP 系統(tǒng)在設(shè)計(jì)和實(shí)現(xiàn)過程中 應(yīng)用到的一些關(guān)鍵技術(shù) ,并基于該模型實(shí)現(xiàn)了MDVSP 原型。 本文的工作包括: (1) 提出了 基于 Hadoop 平臺(tái)的教育資源垂直搜索系統(tǒng) (MDVSP)模型。 包括切合本系統(tǒng)的分布式的集群整體框架 和 HDFS 存放結(jié)構(gòu)。 (2) 闡述了 MDVSP 中應(yīng)用的關(guān)鍵技術(shù),包括聚焦蜘蛛的原理和爬行算法。 (3) 設(shè)計(jì)了 Map/Reduce 的邏輯結(jié)構(gòu)和數(shù)據(jù)流。 (4) 設(shè)計(jì)和封裝了 RPC 遠(yuǎn)程調(diào)用協(xié)議。給出了設(shè)計(jì)思想和數(shù)據(jù)表示設(shè)計(jì)。 (5) 設(shè)計(jì)了 MDVSP 的 HA。包括框架、原理和詳細(xì)實(shí)現(xiàn)。 (6) 以 JAVA 和 PERL 為工具實(shí)現(xiàn)了 MDVSP 系統(tǒng)原型 。 最后 對(duì)全文的內(nèi)容進(jìn)行了總結(jié),分析了系統(tǒng)現(xiàn)有的不足,并提出了進(jìn)一步完善的目標(biāo)和基本方法。 本文的組織結(jié) 構(gòu) 本論文共分為 七 章,各章內(nèi)容具體安排如下: 第一章 緒論。 主要論述課題的研究背景,垂直搜索引擎發(fā)展現(xiàn)狀、存在的問題 。 第二章 Hadoop平臺(tái)架構(gòu) 。介紹 Hadoop的概念和 Hadoop的優(yōu)點(diǎn), Hadoop平臺(tái)架構(gòu)。 第三章 MDVSP平臺(tái)需求分析 。 給出 MDVSP平臺(tái)的使用用戶群,并基于抽樣調(diào)查和多年的教育經(jīng)驗(yàn),對(duì)用戶的需求進(jìn)行鑒別、 清除 用戶需求的模糊性、歧義性和不一致性,將原始問題的理解與軟件開發(fā)經(jīng)驗(yàn)結(jié)合,深入描述軟件的功能和性能需求。 第四章 基于 Hadoop平臺(tái)的 MDVSP模型 。 敘述基于 Hadoop平 臺(tái)的教育資源垂直搜索模型 (MDVSP),并闡述這種架構(gòu)的優(yōu)點(diǎn),提出使用這種架構(gòu)可以解決目前現(xiàn)有搜索平臺(tái)在教育領(lǐng)域搜索中存在的一些問題。對(duì) MDVSP系統(tǒng)進(jìn)行了邏輯結(jié)構(gòu)設(shè)計(jì)和物理結(jié)構(gòu)設(shè)計(jì)。 第五章 基于 Hadoop平臺(tái)的 MDVSP的關(guān)鍵技術(shù) 。 闡述基于 Hadoop平臺(tái)模型下構(gòu)建教育資源垂直搜索系統(tǒng) (MDVSP)中用到的關(guān)鍵技術(shù)。主要包括聚焦蜘蛛的爬行技術(shù)、江蘇大學(xué)碩士研究生畢業(yè)論文 4 基于 Hadoop平臺(tái)下 Map/Reduce的邏輯結(jié)構(gòu)和數(shù)據(jù)流設(shè)計(jì)和系統(tǒng)采用的 MDVSPRPC遠(yuǎn)程調(diào)用的封裝技術(shù)。 第六章 MDVSP平臺(tái)的實(shí)現(xiàn) 。 以 JAVA和 PERL為開發(fā)工具, 通過 Hadoop平臺(tái)框架 實(shí)現(xiàn) 基于上述架構(gòu)模型的 MDVSP系統(tǒng)的各層設(shè)計(jì),并 列出相關(guān)功能的關(guān)鍵性 JAVA和PERL代碼。 通過試驗(yàn),并與有代表性的垂直搜索平臺(tái)的搜索結(jié)果進(jìn)行性能對(duì)比, 分析 MDVSP平臺(tái)在教育資源領(lǐng)域的搜索效率和準(zhǔn)確度都有所提高。 第七章 總結(jié)與展望。 對(duì)本文的工作進(jìn)行總結(jié),并從系統(tǒng)功能和理論研究兩個(gè)方面對(duì)以后的工作進(jìn)行規(guī)劃和展望。 江蘇大學(xué)碩士研究生畢業(yè)論文 5 Hadoop 平臺(tái)架構(gòu) Hadoop 的產(chǎn)生 自從 Google 工程師 Jeffrey Dean 提出 Map Reduce 編程思想, MapReduce便在 Google 的各種 Web 應(yīng)用中釋放著魔力。然而,也許出于技術(shù)保密的目的,Google 公司并沒有透露其 MapReduce 的實(shí)現(xiàn)細(xì)節(jié)。幸運(yùn)的是, Doug Cutting 開發(fā) Hadoop 作為 MapReduce[56]開源實(shí)現(xiàn),讓 MapReduce 這么平易近人地走到了我們面前。 20xx 年 1 月, Doug Cutting 因其在開源項(xiàng)目 Nutch 和 Lucene 的卓越表現(xiàn)受邀加入 Yahoo公司,專職在 Hadoop項(xiàng)目上進(jìn)行開發(fā)?,F(xiàn)在, Doug Cutting已經(jīng)加盟 Cloudera(一家從事 Hadoop 產(chǎn)品商業(yè)化及技術(shù)支持的公司)。作為 Google MapReduce 技術(shù)的開源實(shí)現(xiàn) ,Hadoop 理所當(dāng)然地借鑒了 Google 的 Google File System 文件系統(tǒng)、 MapReduce 并行算法以及 BigTable。因此, Hadoop 也是一個(gè)能夠分布式處理大規(guī)模海量數(shù)據(jù)的軟件框架,這一點(diǎn)不足為奇。 Hadoop假設(shè)計(jì)算元素和存儲(chǔ)會(huì)出現(xiàn)故障,因?yàn)樗S護(hù)多個(gè)工作數(shù)據(jù)副本,在出現(xiàn)故障時(shí)可以對(duì)失敗的節(jié)點(diǎn)重新分布處理。 Hadoop 的高效性在 MapReduce 的思想下, Hadoop 是并行工作的,以加 快任務(wù)處理速度。 Hadoop 的可擴(kuò)展性 依賴于部署 Hadoop 軟件框架計(jì)算集群的規(guī)模 ,Hadoop 的運(yùn)算是可擴(kuò)展的,具有處理 PB 級(jí)數(shù)據(jù)的能力。 基于 Hadoop 分布式架構(gòu) 的優(yōu)勢(shì) 沒有不好的工具,只用不適用的工具。本系統(tǒng)采用 Hadoop分布式架構(gòu)的目的有以下幾個(gè)方面: 1. 可擴(kuò)展:不論是存儲(chǔ)的可擴(kuò)展還是計(jì)算的可擴(kuò)展都是 Hadoop的設(shè)計(jì)根本。 2. 經(jīng)濟(jì):框架可以運(yùn)行在任何普通的 PC上。 3. 可靠:分布式文件系統(tǒng)的備份恢復(fù)機(jī)制以及 MapReduce的任務(wù)監(jiān)
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1