你还在用这种方法搭建Hadoop吗?

发布时间:2020-03-13 11:16:21 阅读量:151


一家提供数据服务的A公司,该公司通过网络爬虫7×24不间断在互联网上收集所有注册企业的公开的信息,进行数据处理和信息聚合,供其用户进行查询。
最近,A公司业务上有了新的创新,他们决定在现有提供查询服务的基础上,进一步对外提供数据分析服务。借鉴互联网公司的经验最开始用标准服务器搭建标准Hadoop集群该平台对外提供Hadoop as a service服务,每当用户有请求,平台都会自动帮用户生成一套Hadoop环境,同时加载300+TB由公司提供的公共数据进去。


但是,这样的平台
 

在前期测试阶段就出现了问题

当出现一个节点故障时,前端用户使用系统时会感觉非常慢,极端情况下甚至出现过部分数据不可用,集群停止服务等问题。同时故障修复过程也非常缓慢,严重影响了用户体验。

作为一个外部服务平台,这样的表现显然无法满足A公司及其外部用户SLA要求。

作为一个多租户平台,同时要支撑很多套Hadoop集群运行,并且每套Hadoop集群都会存储一份由A公司提供的300+TB公共数据。大量重复数据存储造成的空间开销异常高,直接导致需要部署的服务器数量惊人,而A公司所有IT设备均托管在运营商机房,久而久之造成机房的租用成本高企。


大批量服务器部署带来的运维成本对IT部门也是很大的负担。

面对这种情况

只能硬着头皮用下去吗?

当然不是!

小编向您推荐


Isilon由英特尔®至强®处理器提供支持,该处理器采用软件定义的基础设施和敏捷云架构,为Isilon提供了卓越的性能和效率,可加速要求严苛的文件工作负载,使企业发挥数据资本的价值,加速业务的数字转型。


Isilon搭建Hadoop 大数据也能玩的溜

其实,戴尔易安信Isilon是一个成熟的数据湖解决方案,它的OneFs操作系统支持丰富数据访问协议,当一种协议写入数据湖的文件,可以马上通过其他协议被访问。

例如,用户通过SMB写入到Isilon中的文件,可以马上通过HDFS被Hadoop计算节点访问,省去了标准Hadoop集群繁琐的ELT过程,而且OneFs原生支持HDFS,避免了协议转换带来的性能开销。

 

具体来说
Isilon来架构Hadoop集群

比标准Hadoop集群更具优势

传统通过DAS构建的,是计算和存储集中的单层架构,在扩容时需要同时扩容计算和存储,往往会造成计算资源过剩,形成资源浪费。

而通过Isilon构建地是计算与存储分离的二层架构让计算归计算,存储归存储,这样就可以随需灵活地扩充资源,实现最佳资源利用率。


 


利用DAS构建的标准Hadoop集群,需要将各类在线数据经过繁琐的ETL过程才能实现大数据分析。

 

而通过Isilon构建Hadoop集群,能够实现数据的就地分析,无需繁琐的转换,从而避免了协议转换带来的性能开销。

 


就像前面小王案例中遇到的,当出现一个节点故障时,前端用户就会受到显著的影响,这就是标准DAS Hadoop无法避免的单点故障风险。

而基于Isilon搭建的Hadoop集群无单点故障,每个节点都是NameNode,能够有效避避免业务风险。此外,Isilon的服务质量更有保证,即使有节点失效,也不会显著降低集群的性能。

 

总之,相较于标准架构用服务器搭建Hadoop集群,采用Isilon方案能够为A公司节省更多机柜空间和能耗,简化运维管理和功能实现方式,并提供更可靠的数据服务和更丰富的接口支持,便于用户进一步的业务创新

****************************************************************************************************************************************************************感谢对胖大牛的支持,本站致力于无偿分享IT产品与行业信息。部分文章未能与原作者取得联系,若涉及版权问题,烦请原作者联系我们修改或删除。
支付宝打赏 微信打赏

  Popular Tags

胖大牛-只为您的技术服务 张博 手机&微信:18521097376 邮箱:zb@109du.com 同时感谢Catfish提供源代码 GPU服务器:贝亘鑫
沪ICP备19040636号-1
Catfish(鲶鱼) Blog V 2.3.12