基于hadoop的大数据生态圈架构方案

张映发表于 2020-01-16

分类目录： hadoop/spark/scala

标签：hadoop/spark/scala, 架构

做大数据，时间挺长的了。基于hadoop的大数据生态圈，还是比较稳定和高效的。

方案一，全部apache原生组件安装与配置

1，数据入这块，nginx反代了4台springboot，用户数据存入kafka中

2，整个hadoop生态圈，也架构在这4台机器上面。2台namenode做了ha，2台datanode。

3，通过kafka client或者spark streaming从kafka中消费数据到hdfs中。

4，hive+mr做离线运算，spark与sparksql，流处理和实时运算

hadoop 原生架构方案一

方案二，全部apache原生组件安装与配置（正在使用的架构方案）

与方案一相比，做了一下调整

1，kafka中的数据，可以通过flume直接入hdfs中，减少程序的参与

2，增加phoenix+hbase，对oltp支持加强。

3，增加kylin+zepplin，对数据分析和报表展示，有所搞高。

4，全文检索可以用solr+hbase，来替换es

hadoop 生态圈原生架构二

方案三，cloudera manager cdh6 组合 apache 原生组件（正在实验的架构方案）

与方案二相比

1，引入impala+kudu，也是oltp一个不错方案

2，flink现在主流大公司都在使用，做流处理和批处理方案，可替换spark

3，cloudera统一管理所有级件，以及配置，配置简单，但是也会让你对系统的各个组成不了解。

4，cloudera所占的内存和cpu，比较大。网上说cloudera+cdh6比较稳定，这个根上面二个方案不好比较，运行中，都没有出过问题。

5，cloudera的权限管理，更加的多，更加的严格。

6，cloudera的横向扩展能力比较强，扩展速度快

7，cdh中的各组件，在服务器间的调配非常的灵活，调配也非常的容易

8，对于习惯了原生的hadoop生态圈人来说，刚接触cdh各种不适应，找不到配置，找不到log等。

hadoop 生态圈 cloudera + cdh+原生

看一下现在的数据增量量：

hadoop每天数据增量

转载请注明
作者:海底苍鹰
地址:http://blog.51yip.com/hadoop/2351.html

留下评论

抱歉，发表回复评论您必须登录。

分类目录
- apache/nginx (36)
- cache (21)
- clickhouse (14)
- drupal (7)
- eclipse (8)
- elasticsearch (18)
- google (3)
- hadoop/spark/scala (96)
- html/css (12)
- java/android (14)
- linux (87)
- mariadb (2)
- mysql (74)
- nodejs/vue/js/jquery (72)
- nosql (39)
- oracle (9)
- pgsql (8)
- php (107)
- seo (16)
- shell (11)
- smarty (5)
- tidb (21)
- wordpress (13)
- 云计算 (22)
- 双眼看社会 (13)
- 技术其他 (41)
- 服务器相关 (136)
- 系统安全 (7)
最近文章
最近评论和留言
- banner 在 awk是命令还是编程语言上的评论
- lin 在 hadoop 查看 mr日志报错上的评论
- ccc 在 cdh hive 2.1.1 升级到 2.3.4 上的评论
- 简简单单在关于我上的评论
- www 在 clickhouse,tidb,mysql 读取速度对比上的评论
- zzq 在 mysql分表，分区的区别和联系上的评论
- Bill 在怎么在网上找到你要的信息上的评论
- 11 在留言板留言了
- Michael 在 canal 同步mysql数据到clickhouse 支持update delete truncate 上的评论
- 我兜里有糖在 linux postgresql 安装配置详解上的评论
登录
- 登录

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站

关于我

留言板

开发手册

linux命令

首页

基于hadoop的大数据生态圈架构方案

留下评论

分类目录

最近文章

最近评论和留言

登录

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站 关于我 留言板 开发手册 linux命令 首页

基于hadoop的大数据生态圈架构方案

留下评论

分类目录

最近文章

最近评论和留言

登录

赞助本站

关于我

留言板

开发手册

linux命令

首页