2026/4/2 19:31:01
网站建设
项目流程
合肥网站建设怎么样,沂水县的旅游景区的网站建设,专业简历怎么填,腾讯企点收费标准文章目录 一、概述1、简介2、Hadoop 优势 二、架构1、Hadoop组成2、HDFS3、YARN4、MapReduce5、HDFS、YARN、MapReduce三者关系6、大数据技术生态体系 一、概述
1、简介
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决#xff0c;海量数据的存储和海量数据…文章目录一、概述1、简介2、Hadoop 优势二、架构1、Hadoop组成2、HDFS3、YARN4、MapReduce5、HDFS、YARN、MapReduce三者关系6、大数据技术生态体系一、概述1、简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上来说Hadoop通常是指一个更广泛的概念——Hadoop生态圈。2、Hadoop 优势高可靠性Hadoop底层维护多个数据副本所以即使Hadoop某个计算元素或存储出现故障也不会导致数据的丢失。高扩展性在集群间分配任务数据可方便的扩展数以千计的节点。高效性在MapReduce的思想下Hadoop是并行工作的以加快任务处理速度。4. 高容错性能够自动将失败的任务重新分配。二、架构1、Hadoop组成2、HDFSHadoop Distributed File System简称HDFS是一个分布式文件系统。1)nn就是Master它是一个主管、管理者。1管理HDFS的名称空间2配置副本策略3管理数据块Block映射信息4处理客户端读写请求。2DataNode就是Slave。NameNode下达命令DataNode执行实际的操作。1存储实际的数据块2执行数据块的读/写操作。3Client就是客户端。1文件切分。文件上传HDFS的时候Client将文件切分成一个一个的Block然后进行上传2与NameNode交互获取文件的位置信息3与DataNode交互读取或者写入数据4Client提供一些命令来管理HDFS比如NameNode格式化5Client可以通过一些命令来访问HDFS比如对HDFS增删查改操作4Secondary NameNode并非NameNode的热备。当NameNode挂掉的时候它并不能马上替换NameNode并提供服务。1辅助NameNode分担其工作量比如定期合并Fsimage和Edits并推送给NameNode 2在紧急情况下可辅助恢复NameNode。3、YARNYet Another Resource Negotiator简称YARN 另一种资源协调者是Hadoop的资源管理器。4、MapReduceMapReduce将计算过程分为两个阶段Map和Reduce。1Map阶段并行处理输入数据2Reduce阶段对Map阶段的结果进行汇总5、HDFS、YARN、MapReduce三者关系6、大数据技术生态体系