基于hadoop的大数据生态圈架构方案

张映 发表于 2020-01-16

分类目录: hadoop/spark/scala

标签:,

做大数据,时间挺长的了。基于hadoop的大数据生态圈,还是比较稳定和高效的。

方案一,全部apache原生组件安装与配置

1,数据入这块,nginx反代了4台springboot,用户数据存入kafka中

2,整个hadoop生态圈,也架构在这4台机器上面。2台namenode做了ha,2台datanode。

3,通过kafka client或者spark streaming从kafka中消费数据到hdfs中。

4,hive+mr做离线运算,spark与sparksql,流处理和实时运算

hadoop 原生架构方案一

hadoop 原生架构方案一

方案二,全部apache原生组件安装与配置(正在使用的架构方案)

与方案一相比,做了一下调整

1,kafka中的数据,可以通过flume直接入hdfs中,减少程序的参与

2,增加phoenix+hbase,对oltp支持加强。

3,增加kylin+zepplin,对数据分析和报表展示,有所搞高。

4,全文检索可以用solr+hbase,来替换es

hadoop 生态圈原生架构二

hadoop 生态圈原生架构二

方案三,cloudera manager  cdh6 组合 apache 原生组件(正在实验的架构方案)

与方案二相比

1,引入impala+kudu,也是oltp一个不错方案

2,flink现在主流大公司都在使用,做流处理和批处理方案,可替换spark

3,cloudera统一管理所有级件,以及配置,配置简单,但是也会让你对系统的各个组成不了解。

4,cloudera所占的内存和cpu,比较大。网上说cloudera+cdh6比较稳定,这个根上面二个方案不好比较,运行中,都没有出过问题。

5,cloudera的权限管理,更加的多,更加的严格。

6,cloudera的横向扩展能力比较强,扩展速度快

7,cdh中的各组件,在服务器间的调配非常的灵活,调配也非常的容易

8,对于习惯了原生的hadoop生态圈人来说,刚接触cdh各种不适应,找不到配置,找不到log等。

hadoop 生态圈 cloudera + cdh+原生

hadoop 生态圈 cloudera + cdh+原生

看一下现在的数据增量量:

hadoop每天数据增量

hadoop每天数据增量



转载请注明
作者:海底苍鹰
地址:http://blog.51yip.com/hadoop/2351.html