新闻资讯  快讯  焦点  财经  政策  社会
互 联 网   电商  金融  数据  计算  技巧
生活百科  科技  职场  健康  法律  汽车
手机百科  知识  软件  修理  测评  微信
软件技术  应用  系统  图像  视频  经验
硬件技术  知识  技术  测评  选购  维修
网络技术  硬件  软件  设置  安全  技术
程序开发  语言  移动  数据  开源  百科
安全防护  资讯  黑客  木马  病毒  移动
站长技术  搜索  SEO  推广  媒体  移动
财经百科  股票  知识  理财  财务  金融
教育考试  育儿  小学  高考  考研  留学
您当前的位置:首页 > 互联网 > 大数据

全面解析大数据框架Hadoop主要模块

时间:2019-04-24 11:15:45  来源:  作者:

Hadoop Distributed File System (HDFS): 分布式文件系统,提供对应用程序数据的高吞吐量,高伸缩性,高容错性的访问。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。

Hadoop YARN: 任务调度和集群资源管理。

Hadoop MapReduce: 基于YARN的大型数据集并行处理系统。是一种计算模型,用以进行大数据量的计算。Hadoop的MapReduce实现,和Common、HDFS一起,构成了Hadoop发展初期的三个组件。MapReduce将应用划分为Map和Reduce两个步骤,其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。

其他模块:

Ambari:是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。Ambari还提供了一个用于查看集群健康状况的仪表板,例如散热图,以及可视化查看MapReduce,Pig和Hive应用程序以及以用户友好的方式诊断其性能特征的功能。也是5个顶级hadoop管理工具之一。

Avro:数据序列化系统,由Doug Cutting牵头开发,是一个数据序列化系统。类似于其他序列化机制,Avro可以将数据结构或者对象转换成便于存储和传输的格式,其设计目标是用于支持数据密集型应用,适合大规模数据的存储与交换。Avro提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC和简单动态语言集成等功能。

Cassandra:可扩展的多主数据库,没有单点故障。是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源,此后,由于Cassandra良好的可扩展性,被Digg、Twitter等知名Web 2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。

Cassandra是一个混合型的非关系的数据库,类似于Google的BigTable。其主要功能比Dynamo (分布式的Key-Value存储系统)更丰富,但支持度却不如文档存储MongoDB(介于关系数据库和非关系数据库之间的开源产品,是非关系数据库当中功能最丰富,最像关系数据库的。支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型)。Cassandra最初由Facebook开发,后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础,结合了Google BigTable基于列族(Column Family)的数据模型。P2P去中心化的存储。很多方面都可以称之为Dynamo 2.0。

Chukwa:用于管理大型分布式系统的数据收集系统(2000+以上的节点, 系统每天产生的监控数据量在T级别)。它构建在Hadoop的HDFS和MapReduce基础之上,继承了Hadoop的可伸缩性和鲁棒性。Chukwa包含一个强大和灵活的工具集,提供了数据的生成、收集、排序、去重、分析和展示等一系列功能,是Hadoop使用者、集群运营人员和管理人员的必备工具。

全面解析大数据框架Hadoop主要模块
Hbase:是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。

Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

Hive是Hadoop中的一个重要子项目,最早由Facebook设计,是建立在Hadoop基础上的数据仓库架构,它为数据仓库的管理提供了许多功能,包括:数据ETL(抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力。Hive提供的是一种结构化数据的机制,定义了类似于传统关系数据库中的类SQL语言:Hive QL,通过该查询语言,数据分析人员可以很方便地运行数据分析业务。

Mahout:Apache旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

Mahout起源于2008年,最初是Apache Lucent的子项目,它在极短的时间内取得了长足的发展,现在是Apache的顶级项目。Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout现在已经包含了聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法。除了算法,Mahout还包含数据的输入/输出工具、与其他存储系统(如数据库、MongoDB 或Cassandra)集成等数据挖掘支持架构。

Pig:运行在Hadoop上,是对大型数据集进行分析和评估的平台。它简化了使用Hadoop进行数据分析的要求,提供了一个高层次的、面向领域的抽象语言:Pig Latin。通过Pig Latin,数据工程师可以将复杂且相互关联的数据分析任务编码为Pig操作上的数据流脚本,通过将该脚本转换为MapReduce任务链,在Hadoop上执行。和Hive一样,Pig降低了对大型数据集进行分析和评估的门槛。

Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。

用MapReduce进行数据分析。当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式。另一方面,编写MapReduce程序,发布及运行作业都将是一个比较耗时的事情。Pig的出现很好的弥补了这一不足。Pig能够让你专心于数据及业务本身,而不是纠结于数据的格式转换以及MapReduce程序的编写。本质是上来说,当你使用Pig进行处理时,Pig本身会在后台生成一系列的MapReduce操作来执行任务,但是这个过程对用户来说是透明的。

Spark: Hadoop数据快速通用的计算引擎。 Spark提供了一个简单的编程模型,支持各种应用,包括ETL,机器学习,流处理和图形计算。

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

Tez:用于构建高性能批处理和交互式数据处理应用程序的可扩展框架,由Apache Hadoop中的YARN协调。 Tez通过大幅度提高其速度来改进MapReduce范式,同时保持MapReduce扩展到PB级数据的能力。支持DAG(Database Availability Group 数据库可用性组)作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等,这样,这些分解后的元操作可以任意灵活组合,产生新的操作,这些操作经过一些控制程序组装后,可形成一个大的DAG作业。

ZooKeeper: 一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

在分布式系统中如何就某个值(决议)达成一致,是一个十分重要的基础问题。ZooKeeper作为一个分布式的服务框架,解决了分布式计算中的一致性问题。在此基础上,ZooKeeper可用于处理分布式应用中经常遇到的一些数据管理问题,如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。ZooKeeper常作为其他Hadoop相关项目的主要组件,发挥着越来越重要的作用。
 


Tags:   点击:()  评论:()
声明:本站部分内容来自互联网,如有任何版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▌相关评论
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
▌相关推荐
有朋友问,抖音的视频效果怎么实现,今天看到了作者做了一个实现,真让人感叹:sorry, RecyclerView真的可以为所欲为!文末附小编整理的java的一些干货敬请领取吧首先看作者实现的抖...【详细内容】
2019-07-19   大数据 Hadoop  点击:(1)  评论:(0)  加入收藏
本文是通过watch(监控)+mutil(事务)实现应用于在分布式高并发处理等相关场景。下边先通过redis-cli.exe来测试多个线程修改时,遇到问题及解决问题。高并发下修改同一个key遇到的...【详细内容】
2019-07-19   大数据 Hadoop  点击:(1)  评论:(0)  加入收藏
今天小编分享Java的两种跳转语句,Java跳转语句用于实现循环执行过程中程序流程的跳转,在Java中的跳转语句有 break语句和 continue语句两种。接下来分别进行详细地讲解。 1、...【详细内容】
2019-07-19   大数据 Hadoop  点击:(1)  评论:(0)  加入收藏
新网站上线已经过去一个月,每天都在后台进行内容更新却没有被百度搜索殷勤收录,这是什么原因导致的呢?需要知道搜索引擎蜘蛛有没有抓取过网站,情况有以下两种:一、蜘蛛没有抓取...【详细内容】
2019-07-19   大数据 Hadoop  点击:(2)  评论:(0)  加入收藏
一、配置系统管理(Admin Web Application)大多数商业化的J2EE服务器都提供一个功能强大的管理界面,且大都采用易于理解的Web应用界面。Tomcat按照自己的方式,同样提供一个成熟...【详细内容】
2019-07-19   大数据 Hadoop  点击:(1)  评论:(0)  加入收藏
前言:整理了一些Java基础流程图/架构图,做一下笔记,大家一起学习。1.spring的生命周期Spring作为当前Java最流行、最强大的轻量级容器框架,了解熟悉spring的生命周期非常有必...【详细内容】
2019-07-19   大数据 Hadoop  点击:(1)  评论:(0)  加入收藏
Syetem类java.lang.System类中提供了大量的静态方法,可以获取与系统相关的信息或系统级操作,在System类的API文档中,常用的方法有; public static long currentTimeMillis();返...【详细内容】
2019-07-19   大数据 Hadoop  点击:(3)  评论:(0)  加入收藏
还有的人不知道微信悬浮窗怎么打开,有啥作用,我来和大家顺便说一下啊。 众所周知啊,微信近年来搞起了公众号服务,大家可以在公众号内看新闻、找资料、看电视、乃至学习! 就拿看...【详细内容】
2019-07-19   大数据 Hadoop  点击:(11)  评论:(0)  加入收藏
.cn域名可以做英文网站,这个方面没有限制,除了英文,还可以法文、德文等。.cn域名是由我国管理的国家顶级域名。.cn代表中国,是具有中国独特标识的域名。当前.cn域名在全球具有最...【详细内容】
2019-07-19   大数据 Hadoop  点击:(1)  评论:(0)  加入收藏
01 抖音电商功能分类抖音电商功能即商品分享功能商品分享功能包含:个人主页商品橱窗、视频电商、直播电商三个权限02 如何开通抖音商品橱窗 商品橱窗申请入口打开抖音APP&md...【详细内容】
2019-07-19   大数据 Hadoop  点击:(3)  评论:(0)  加入收藏
随着H5标准的发布以及推广,使得移动应用的开发也受到了很大影响,出于效率、成本等等的原因,移动应用的开发不在完全依赖于“原生”。 今天就简单总结一下目前的三大主流移动应...【详细内容】
2019-07-19   大数据 Hadoop  点击:(3)  评论:(0)  加入收藏
随着微信被大家熟知,越来越多的人利用微信做起了微营销,微信群营销也是微营销重要的一环,但是群多多发现,有不少朋友在做微信群营销时会走进一些误区,下面群多多为大家整理了微信...【详细内容】
2019-07-19   大数据 Hadoop  点击:(2)  评论:(0)  加入收藏
网站的301重定向是很多程序员都知道的一种网页跳转技术,作为站长,相信对于301跳转的作用理解的更加透彻,网站301对于SEO优化的作用也是非常大的,那么在网站SEO优化中301跳转怎么...【详细内容】
2019-07-19   大数据 Hadoop  点击:(1)  评论:(0)  加入收藏
模糊是人们在用手机摄影时遇到的最常见的问题之一。 然而,一旦你了解到照片模糊的主要原因后,就可以完全轻松地防止所拍照片模糊不清。 本文将向你介绍几个简单而有效的技巧,帮...【详细内容】
2019-07-19   大数据 Hadoop  点击:(2)  评论:(0)  加入收藏
古代将士上阵杀敌时,必须瞄准敌人射箭才有胜算,乱射一气不仅白费力,还有可能断送自己的生机。自媒体作者写文也是同理,标题作为射出的“箭矢”必须要「精准定位」目标读者,才能...【详细内容】
2019-07-19   大数据 Hadoop  点击:(1)  评论:(0)  加入收藏
如何把照片的位置信息给删掉一度是我们烦忧的问题,毕竟,大多数现代智能手机(包括 iPhone)都在拍摄的照片中嵌入了 GPS 坐标——当你与你信任的人分享照片时,这没什么大...【详细内容】
2019-07-19   大数据 Hadoop  点击:(3)  评论:(0)  加入收藏
抖音,目前是比较火爆的一款软件,在普通用户眼里,看到的无非是一款消遣时间,可以自拍,搞怪,娱乐的视频APP,但