正文內(nèi)容

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-外文翻譯-其他專業(yè)-wenkub.com

2025-01-15 07:30 本頁面

　　

【正文】當(dāng)一個(gè) Datanode 啟動時(shí)，它會掃描本地文件系統(tǒng)，產(chǎn)生一個(gè)這些本地文件對應(yīng)的所有 HDFS 數(shù)據(jù)塊的列表，然后作為報(bào)告發(fā)送到 Namenode，這個(gè)報(bào)告就是塊狀態(tài)報(bào)告。 Datanode 將 HDFS 數(shù)據(jù)以文件的形式存儲在本地的文件系統(tǒng)中，它并不知道有關(guān) HDFS 文件的信息。這個(gè)關(guān)鍵的元數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)得很緊湊，因而一個(gè)有 4G 內(nèi)存的 Namenode 足夠支撐大量的文件和目錄。例如，在HDFS 中創(chuàng)建一個(gè)文件， Namenode 就會在 Editlog 中插入一條記錄來表示；同樣地，修改文件的副本系數(shù)也將往 Editlog 插入一條記錄。當(dāng) Namenode 檢測確認(rèn)某個(gè)數(shù)據(jù)塊的副本數(shù)目達(dá)到這個(gè)最小值，那么該數(shù)據(jù)塊就會被認(rèn)為是副本安全 (safely replicated)的；在一定百分比（這個(gè)參數(shù)可配置）的數(shù)據(jù)塊被 Namenode 檢測確認(rèn)是安全之后（加上一個(gè)額外的 30 秒等待時(shí)間）， Namenode 將退出安全模式狀態(tài)。處于安全模式的Namenode 是不會進(jìn)行數(shù)據(jù)塊的復(fù)制的。副本選擇為了降低整體的帶寬消耗和讀取延時(shí)， HDFS 會盡量讓讀取程序讀取離它最近的副本。于此同時(shí)，因?yàn)閿?shù)據(jù)塊只放在兩個(gè)（不是三個(gè)）不同的機(jī)架上，所以此策略減少了讀取數(shù)據(jù)時(shí)需要的網(wǎng)絡(luò)傳輸總帶寬。但是，因?yàn)檫@種策略的一個(gè)寫操作需要傳輸數(shù)據(jù)塊到多個(gè)機(jī)架，這增加了寫的代價(jià)。通過一個(gè)機(jī)架感知的過程， Namenode可以確定每個(gè) Datanode所屬的機(jī)架 id。目前實(shí)現(xiàn)的副本存放策略只是在這個(gè)方向上的第一步。副本存放 : 最最開始的一步副本的存放是 HDFS 可靠性和性能的關(guān)鍵。 HDFS 中的文件都是一次性寫入的，并且嚴(yán)格要求在任何時(shí)候只能有一個(gè)寫入者。為了容錯，文件的所有數(shù)據(jù) 塊都會有副本。應(yīng)用程序可以設(shè)置 HDFS 保存的文件的副本數(shù)目。文件系統(tǒng)名字空間的層次結(jié)構(gòu)和大多數(shù)現(xiàn)有的文件系統(tǒng)類似：用戶可以創(chuàng)建、刪除、移動或重命名文件。集群中單一 Namenode 的結(jié)構(gòu)大大簡化了系統(tǒng)的架構(gòu)。 HDFS采用 Java語言開發(fā)，因此任何支持 Java的機(jī)器都可以部署 Namenode 或 Datanode。 Datanode 負(fù)責(zé)處理文件系統(tǒng)客戶端的讀寫請求。 HDFS 暴露了文件系統(tǒng)的名字空間，用戶能夠以文件的形式在上面存儲數(shù)據(jù)。三、 Namenode 和 Datanode HDFS 采用 master/slave 架構(gòu)。將計(jì)算移動到數(shù)據(jù)附近，比之將數(shù)據(jù)移動到應(yīng)用所在顯然更好。 Map/Reduce 應(yīng)用或者網(wǎng)絡(luò)爬蟲應(yīng)用都非常適合這個(gè)模型。一個(gè)單一的 HDFS實(shí)例應(yīng)該能支撐數(shù)以千萬計(jì)的文件。大規(guī)模數(shù)據(jù)集運(yùn)行在 HDFS 上的應(yīng)用具有很大的數(shù)據(jù)集。 HDFS的設(shè)計(jì)中更多的考慮到了數(shù)據(jù)批處理，而不是用戶交互處理。 HDFS 可能由成百上千的服務(wù)器所構(gòu)成，每個(gè)服務(wù)器上存儲著文件系統(tǒng)的部分?jǐn)?shù)據(jù)。 HDFS 放寬了一部分 POSIX 約束，來實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。 any machine that supports Java can run the NameNode or the DataNode software. Usage of the highly portable Java language means that HDFS can be deployed on a wide range of machines. A typical deployment has a dedicated machine that runs only the NameNode software. Each of the other machines in the cluster runs one instance of the DataNode software. The architecture does not preclude running multiple DataNodes on the same machine but in a real deployment that is rarely the case. The existence of a single NameNode in a cluster greatly simplifies the architecture of the system. The NameNode is the arbitrator and repository for all HDFS metadata. The system is designed in such a way that user data never flows through the NameNode. The File System Namespace HDFS supports a traditional hierarchical file anization. A user or an application can create directories and store files inside these directories. The file system namespace hierarchy is similar to most other existing file systems。 one can create and remove files, move a file from one directory to another, or rename a file. HDFS does not yet implement user quotas or access permissions. HDFS does not support hard links or soft links. However, the HDFS architecture does not preclude implementing these features. The NameNode maintains the file system namespace. Any change to the file system namespace or its properties is recorded by the NameNode. An application can specify the number of replicas of a file that should be maintained by HDFS. The number of copies of a file is called the replication factor of that file. This information is stored by the NameNode. Data Replication HDFS is designed to reliably store very large files across machines in a large cluster. It stores each file as a sequence of blocks。但同時(shí)，它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。 HDFS 在最開始是作為 Apache Nutch 搜索引擎項(xiàng)目的基礎(chǔ)架構(gòu)而開發(fā)的。我們面對的現(xiàn)實(shí)是構(gòu)成系統(tǒng)的組件數(shù)目是巨大的，而且任一組件都有可能失效，這意味著總是有一部分 HDFS 的組件是不工作的。比之?dāng)?shù)據(jù)訪問的低延遲問題，更關(guān)鍵的在于數(shù)據(jù)訪問的高吞吐量。 HDFS 上的一個(gè)典型文件大小一般都在 G 字節(jié)至 T 字節(jié)。簡單的一致性模型 HDFS 應(yīng)用需要一個(gè)“一次寫入多次讀取”的文件訪問模型。目前還有計(jì)劃在將來擴(kuò)充這個(gè)模型，使之支持文件的附加寫操作。 HDFS 為應(yīng)用提供了將它們自己移動到數(shù)據(jù)附近的接口。一個(gè) HDFS 集群是由一個(gè) Namenode 和一定數(shù)目的 Datanodes 組成。從內(nèi)部看，一個(gè)文件其實(shí)被分成一個(gè)或多個(gè)數(shù)據(jù)塊，這些塊存儲在一組 Datanode 上。在 Namenode 的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。由于采用了可移植性極強(qiáng)的 Java 語言，使得 HDFS 可以部署到多種類型的機(jī)器上。 Namenode 是所有 HDFS元數(shù)據(jù)的仲裁者和管理者，這樣，用戶數(shù)據(jù)永遠(yuǎn)不會流過 Namenode。當(dāng)前， HDFS 不支持用戶磁盤配額和訪問權(quán)限控制，也不支持硬鏈接和軟鏈接。文件副本的數(shù)目稱為文件的副本系數(shù)，這個(gè)信息也是由 Namenode 保存的。每個(gè)文件的數(shù)據(jù)塊大小和副本系數(shù)都是可配置的。 Namenode 全權(quán)管理數(shù)據(jù)塊的復(fù)制，它周期性地從集群中的每個(gè) Datanode 接收心跳信號和塊狀態(tài)報(bào)告 (Blockreport)。優(yōu)化的副本存放策略是 HDFS 區(qū)分于其他大部分分布式文件系統(tǒng)的重要特性。實(shí)現(xiàn)這個(gè)策略的短期目標(biāo)是驗(yàn)證它在生產(chǎn)環(huán)境下的有效性，觀察它的行為，為實(shí)現(xiàn)更先進(jìn)的策略打下測試和研究的基礎(chǔ)。一個(gè)簡單但沒有優(yōu)化的策略就是將副本存放在不同的機(jī)架上。在大多數(shù)情況下，副本系數(shù)是 3， HDFS 的存放策略是將一個(gè)副本存放在本地機(jī)架的節(jié)點(diǎn)上，一個(gè)副本放在同一機(jī)架的另一個(gè)節(jié)點(diǎn)上，最后一個(gè)副本放在不同機(jī)架的節(jié)點(diǎn)上。在這種策略下，副本并不是均勻分布在不同的機(jī)架上。如果在讀取程序的同一個(gè)機(jī)架上有一個(gè)副本，那么就讀取該副本。 Namenode 從所有的 Datanode 接收心跳信號和塊狀態(tài)報(bào)告。接下來它會確定還有哪些數(shù)據(jù)塊的副本沒有達(dá)到指定數(shù)目，并將這些數(shù)據(jù)塊復(fù)制到其他Datanode 上。 Namenode 在本地操作系統(tǒng)的文件系統(tǒng)中存儲這個(gè) Editlog。當(dāng) Namenode 啟動時(shí)，它從硬盤中讀取Editlog 和 FsImage，將所有 Editlog 中的事務(wù)作用在內(nèi)存中的 FsImage 上，并將這個(gè)新版本的 FsImage 從內(nèi)存中保存到本地磁盤上，然后刪除舊的 Editlog，因?yàn)檫@個(gè)舊的 Editlog 的事務(wù)都已經(jīng)作用在 FsImage 上了。它把每個(gè) HDFS 數(shù)據(jù)塊存儲在本地文件系統(tǒng)的一個(gè)單獨(dú)的文件中。七、通訊協(xié)議所有的 HDFS 通訊協(xié)議都是建立在 TCP/IP 協(xié)議之上。在同一個(gè)目錄中創(chuàng)建所有的本地文件并不是最優(yōu)的選擇，這是因?yàn)楸镜匚募到y(tǒng)可能無法高效地在單個(gè)目錄中支持大量的文件。在當(dāng)前實(shí)現(xiàn)中，檢查點(diǎn)只發(fā)生在 Namenode 啟動時(shí)，在不久的將來將實(shí)現(xiàn)支持周期性的檢查點(diǎn)。 Namenode 在內(nèi)存中保存著整個(gè)文件系統(tǒng)的名字空間和文件數(shù)據(jù)塊映射(Blockmap)的映像。對于任何對文件系統(tǒng)元數(shù)據(jù)產(chǎn)生修改的操作， Namenode 都會使用一種稱為 EditLog 的事務(wù)日志記錄下來。每個(gè)數(shù)據(jù)塊都有一個(gè)指定的最小副本數(shù)。安全模式 Namenode 啟動后會進(jìn)入一個(gè)稱為安全模式的特殊狀態(tài)。當(dāng)前，這里介紹的默認(rèn)副本存放策略正在開發(fā)的過程中。機(jī)架的錯誤遠(yuǎn)遠(yuǎn)比節(jié)點(diǎn)的錯誤少，所以這個(gè)策略不會影響到數(shù)據(jù)的可靠性和可用性。這種策略設(shè)置可以將副本均勻分布在集群中，有利于當(dāng)組件失效情況下的負(fù)載均衡。在大多數(shù)情況下，同一個(gè)機(jī)架內(nèi)的兩臺機(jī)器間的帶寬會比不同機(jī)架的兩臺機(jī)器間的帶寬大。 HDFS 采用一種稱為機(jī)架感知 (rackaware)的策略來改進(jìn)數(shù)據(jù)的可靠性、可用性和網(wǎng)絡(luò)帶寬的利用率。塊狀態(tài)報(bào)告包含了一個(gè)該 Datanode 上所有數(shù)據(jù)塊的列表。副本系數(shù)可以在文件創(chuàng)建的時(shí)候指定，也可以在之后改變。它將每個(gè)文件存儲成一系列的數(shù)據(jù)塊，除了最后一個(gè)，所有的數(shù)據(jù)塊都是同樣大小的。 Namenode 負(fù)責(zé)維護(hù)文件系統(tǒng)的名字空間，任何對文件系統(tǒng)名字空間或?qū)傩缘男薷亩紝⒈?Namenode 記錄下來。用戶或者應(yīng)用程序可以創(chuàng)建目錄，然后將文件保存在這些目錄里。這種架構(gòu)并不排斥在一臺機(jī)器上運(yùn)行多個(gè) Datanode，只不過這樣的情況比較少見。這些機(jī)器一般運(yùn)行著 GNU/Linux操作系統(tǒng) (OS)。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體 Datanode節(jié)點(diǎn)的映射。集群中的 Datanode 一般是一個(gè)節(jié)點(diǎn)一個(gè)，負(fù)責(zé)管理它所在節(jié)點(diǎn)上的存儲。這種特性方便了 HDFS 作為大規(guī)模數(shù)據(jù)應(yīng)用平臺的推廣。因?yàn)檫@樣就能降低網(wǎng)絡(luò)阻塞的影響，提高系統(tǒng)數(shù)據(jù)的吞吐量。這一假設(shè)簡化了數(shù)據(jù)一致性問題，并且使高吞吐量的數(shù)據(jù)訪問成為可能。它應(yīng)該能提供整體上高的數(shù)據(jù)傳輸帶寬，能在一個(gè)集群里擴(kuò)展到數(shù)百個(gè)節(jié)點(diǎn)。為了提高數(shù)據(jù)的吞吐量，在一些關(guān)鍵方面對 POSIX的語義做了一些修改。流式數(shù)據(jù)訪問運(yùn)行在 HDFS 上的應(yīng)用和普通的應(yīng)用不同，需要流式訪問它們的數(shù)據(jù)集。這個(gè)項(xiàng)目的地址是二、前提和設(shè)計(jì)目標(biāo) 硬件錯誤硬件錯誤是常態(tài)而不是異常。 HDFS 能提供高吞吐量的數(shù)據(jù)訪問，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。 this policy does not impact data reliability and availability guarantees. However, it does reduce the aggregate work bandwidth used when reading data since a block is placed in only two unique racks rather than three. With this policy, the replicas of a file do not evenly dist

點(diǎn)擊復(fù)制文檔內(nèi)容

法律信息相關(guān)推薦

專業(yè)資源與搜索引擎-資料下載頁

【總結(jié)】網(wǎng)絡(luò)學(xué)術(shù)資源檢索專業(yè)資源網(wǎng)站檢索搜索引擎的檢索專業(yè)資源網(wǎng)站檢索專業(yè)信息網(wǎng)站通過英特網(wǎng)向信息用戶提供圖書、期刊、視頻、音頻等數(shù)字信息資源，已成為獲取學(xué)術(shù)資源與專業(yè)信息的重要來源。國家科技圖書文獻(xiàn)中心中國高等教育文獻(xiàn)保障系統(tǒng)中國高校人文社會科學(xué)文獻(xiàn)中心專業(yè)資源網(wǎng)站檢索國家科技圖書文

2025-08-04 10:46

基于lucene的全文搜索引擎設(shè)計(jì)-資料下載頁

【總結(jié)】基于Lucene的搜索引擎作者姓名:王旭專業(yè)班級:2010050704指導(dǎo)教師:涂德志摘要從1994年至今，萬維網(wǎng)經(jīng)過了二十年的飛速發(fā)展，當(dāng)前的萬維網(wǎng)數(shù)據(jù)規(guī)模到底有多大無從估量。隨著網(wǎng)絡(luò)信息資源的急劇增長，現(xiàn)如今，信息已經(jīng)不再是一種稀缺的資源，我們的注意力反而變得稀缺了。人們越來越多地關(guān)注如何快速有效地從海量的網(wǎng)絡(luò)信息中，抽取出潛在的、有價(jià)值的信息，使之有效地在管理和決策中發(fā)

2025-06-22 19:21

外文翻譯---本體論語義搜索引擎模型-資料下載頁

【總結(jié)】1本科畢業(yè)設(shè)計(jì)（論文）外文翻譯學(xué)生姓名專業(yè)班級08信息工程1班中文譯名本體論語義搜索引擎模型外文原文名PrototypeofSemanticSearchEngineUsingOntology外文原文版出處2020IEEEConferenceonOpenSystems(ICOS2020),D

2025-05-12 09:26

基于lucene的圖書搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁

【總結(jié)】濱江學(xué)院畢業(yè)論文(設(shè)計(jì))題目基于Lucene的圖書搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)院系計(jì)算機(jī)系專業(yè)軟件工程學(xué)生姓名學(xué)號指導(dǎo)教師

2024-11-17 21:52

搜索引擎課件介紹學(xué)習(xí)搜索引擎的人必看的-資料下載頁

【總結(jié)】WBIACourseProjectIntroductionPengBoNov12,2022What’sCourseProject??WBIA課程學(xué)習(xí)的一個(gè)環(huán)節(jié)?通過實(shí)現(xiàn)實(shí)際系統(tǒng)或者實(shí)驗(yàn)，驗(yàn)證解決一個(gè)問題的想法?Problem/Goal?與課程內(nèi)容相關(guān)(與Web信息處理技術(shù)相關(guān)的問題)?研究性題目、應(yīng)用型題目均可

2025-08-04 16:52

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁

【總結(jié)】基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)摘要Lucene是一個(gè)開源的用于制作搜索引擎的框架。目前第二代搜索引擎的設(shè)計(jì)思路為利用網(wǎng)絡(luò)爬蟲建立數(shù)據(jù)源，結(jié)合分詞技術(shù)把數(shù)據(jù)源建成索引，利用索引從海量的數(shù)據(jù)源中得到搜索結(jié)果，對搜索的結(jié)

2024-11-07 08:40

ftp搜索引擎設(shè)計(jì)-資料下載頁

【總結(jié)】西華大學(xué)畢業(yè)設(shè)計(jì)說明書摘要隨著信息的快速速增長，讓搜索引擎成了人們查找信息的首要工具。如今在中文搜索引擎領(lǐng)域，國內(nèi)搜索引擎已經(jīng)同國外搜索引擎效果上相差不大了。能形成現(xiàn)在這樣的局面，是有一個(gè)重要的原因：英文和中文兩種語言自身的書寫方式不相同，其中在計(jì)算機(jī)涉及的技術(shù)就是中文分詞技術(shù)。本設(shè)計(jì)的主要目的是利用爬蟲獲取的網(wǎng)頁，將網(wǎng)頁的內(nèi)容按照

2024-12-07 10:16

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】本科畢業(yè)論文（設(shè)計(jì)、創(chuàng)作）題目：基于Web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)DesignandImplementationofWeb-basedsearchengine學(xué)生姓名：楊衛(wèi)中學(xué)號：0802115所在院系：信息與通信技術(shù)系專業(yè)：電子信息工程入學(xué)時(shí)間：2008

2025-06-23 21:30

畢業(yè)論文搜索引擎的研究與實(shí)現(xiàn)-資料下載頁

【總結(jié)】奧搜科技有限公司——搜索引擎的研究與實(shí)現(xiàn)開發(fā)時(shí)間：2022年4月目錄目錄....................................................................................................................................................1

2025-06-19 17:55

4搜索引擎營銷實(shí)訓(xùn)搜索引擎營銷概論-資料下載頁

【總結(jié)】互聯(lián)網(wǎng)營銷實(shí)訓(xùn)課程搜索引擎營銷概論課程大綱講次課程內(nèi)容教學(xué)方式第一講互聯(lián)網(wǎng)營銷概論理論教學(xué)第二講第三講搜索引擎營銷概論理論教學(xué)第四講第五講搜索引擎營銷實(shí)戰(zhàn)——基礎(chǔ)訓(xùn)練實(shí)操形式第六講搜索引擎營銷方案設(shè)計(jì)理論教學(xué)及案例分析第七講第八講搜索引擎營銷實(shí)戰(zhàn)——進(jìn)階

2025-01-01 01:21

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-資料下載頁

2024-08-31 17:54

搜索引擎的發(fā)展與分類-資料下載頁

【總結(jié)】搜索引擎的發(fā)展與分類單位：寧夏賀蘭縣逸揮基金回民中學(xué)授課：王華搜索引擎的發(fā)展與分類【教學(xué)目標(biāo)】知識與技能：1、通過嘗試與分析，了解英特網(wǎng)信息檢索工具的類型與特點(diǎn)；知道搜索引擎、元搜索引擎（有稱集成搜索引擎）等因特網(wǎng)信息檢索工具的產(chǎn)生背景、原理與發(fā)展趨勢。2、能夠根據(jù)實(shí)際需求選擇恰當(dāng)?shù)姆绞椒椒?，利用因特網(wǎng)獲取所需信息、

2025-06-25 07:18

jstaaa搜索引擎-資料下載頁

【總結(jié)】·中文搜索引擎·知識搜索引擎·實(shí)時(shí)搜索引擎new·新聞搜索引擎·視頻搜索引擎·地圖搜索引擎·音樂搜索引擎·手機(jī)搜索引擎·購物搜索引擎·圖片搜索引擎·生活搜索引擎·旅游搜索引擎

2025-08-04 10:15

搜索引擎的使用-資料下載頁

【總結(jié)】第4章搜索引擎的使用目標(biāo)與任務(wù)?了解搜索引擎概念與分類。?熟悉搜索引擎語法規(guī)則，能快速準(zhǔn)確查找所需內(nèi)容。?了解常用中文搜索引擎特性。搜索引擎概念與分類目標(biāo)與任務(wù)了解搜索引擎概念與分類。搜索引擎概念搜索引擎分類搜索引擎

2024-10-09 15:40

搜索引擎的使用-資料下載頁

【總結(jié)】師絨俠1、直接訪問網(wǎng)頁2、使用搜索引擎3、查詢在線數(shù)據(jù)庫（1）什么是搜索引擎？（2）搜索引擎的工作原理是什么？（3）搜索引擎的分為幾類，各有什么特點(diǎn)？搜索器索引器檢索器搜索引擎的工作原理，(l)首先搜索引擎派出網(wǎng)頁搜索工具如spider(蜘蛛)在Inter上搜索信息，并把信息帶回搜

2025-07-25 08:23