hadoop/spark/scala«海底苍鹰(tank)博客

Apache Kylin不同于“大规模并行处理”（Massive Parallel Processing，MPP）架构的Hive、Presto等，Apache Kylin采用“预计算”的模式，用户只需要提前定义好查询维度，Kylin将帮助我们进行计算，并将结果存储到HBase中，为海量数据的查询和分析提供亚秒级返回，是一种典型的“空间换时间”的解决方案。Apache Kylin的出现不仅很好地解决了海量数据快速查询的问题，也避免了手动开发和维护提前计算程序带来的一系列麻烦。

说的更直白一点就是查询数据不查原始表，查结果表。

阅读全文>>

hbase ZooKeeper create failed after 4 attempts

张映发表于 2019-11-08

分类目录： hadoop/spark/scala

hbase的master的备份机，启动不了了。报以下错误：

2019-11-08 10:19:51,950 ERROR [main] zookeeper.RecoverableZooKeeper: ZooKeeper create failed after 4 attempts
2019-11-08 10:19:52,820 INFO [main] zookeeper.ZooKeeper: Session: 0x0 closed
2019-11-08 10:19:52,820 ERROR [main] master.HMasterCommandLine: Master exiting

阅读全文>>

presto集群安装整合hive

张映发表于 2019-11-07

分类目录： hadoop/spark/scala

Presto是一个运行在多台服务器上的分布式系统。完整安装包括一个coordinator（调度节点）和多个worker。由客户端提交查询，从Presto命令行CLI提交到coordinator。 coordinator进行解析，分析并执行查询计划，然后分发处理队列到worker中。

Presto通过使用分布式查询，可以快速高效的完成海量数据的查询。作为Hive和Pig的替代者，Presto不仅能访问HDFS，也能访问不同的数据源，包括：RDBMS和其他数据源（如Cassandra）。虽然Presto可以解析SQL，但它不是一个标准的数据库。不是MySQL、PostgreSQL或者Oracle的代替品，也不能用来处理在线事务（OLTP）

阅读全文>>

impala 3.3 源码编辑安装

张映发表于 2019-10-29

分类目录： hadoop/spark/scala

没有用cdh系列，但是又想用impala 3.3。安装impala有二种方式，一种源码安装，一种是rpm安装。impala早期版本，还可以设置yum源，进行安装。

不管是哪种方式安装，最终都是cdh中的impala

阅读全文>>

spark on yarn 动态资源分配

张映发表于 2019-10-24

分类目录： hadoop/spark/scala

不同的模式运行spark，动态资源分配的配置是不一样的，本文的模式是spark on yarn。

动态资源分配的意思是，需要的时候拿资源，不需要的时候，归还资源。

优点提高资源的利用率，还有不需要像静态模式那样，根据cpu数，内存数，指定Executor内存数，去算Executor了。

阅读全文>>

kafka 管理工具 kafka eagle

张映发表于 2019-10-23

分类目录： hadoop/spark/scala

以前写过一个关于kafka管理工具的文章，请参考：kafka-manager 创建 topic

kafka-manager功能比较单一，并且用起来，总感觉哪里不对，怪怪的。推荐大家使用kafka eagle

Kafka Eagle监控系统是一款用来监控Kafka集群的工具，目前更新的版本是v1.3.9，支持管理多个Kafka集群、管理Kafka主题（包含查看、删除、创建等）、消费者组合消费者实例监控、消息阻塞告警、Kafka集群健康状态查看等

阅读全文>>

flume高可用集群从kafka消费数据到hdfs

张映发表于 2019-10-22

分类目录： hadoop/spark/scala

Flume NG是一个分布式，高可用，可靠的系统，它能将不同的海量数据收集，移动并存储到一个数据存储系统中。轻量，配置简单，适用于各种日志收集，并支持 Failover和负载均衡。并且它拥有非常丰富的组件。Flume NG采用的是三层架构：Agent层，Collector层和Store层，每一层均可水平拓展。其中Agent包含Source，Channel和 Sink，三者组建了一个Agent。三者的职责如下所示：

•Source：用来消费（收集）数据源到Channel组件中
•Channel：中转临时存储，保存所有Source组件信息
•Sink：从Channel中读取，读取成功后会删除Channel中的信息

阅读全文>>

单flume消费kafka数据到hbase

张映发表于 2019-10-21

分类目录： hadoop/spark/scala

从kafka消费数据到hdfs，或者hbase，是最常见的二种方式。

阅读全文>>

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站

关于我

留言板

开发手册

linux命令

首页

‘hadoop/spark/scala’ 类别下的博文

zeppelin 整合 spark kylin mysql

kylin 用spark创建cube

kylin 集群安装配置

hbase ZooKeeper create failed after 4 attempts

presto集群安装整合hive

impala 3.3 源码编辑安装

spark on yarn 动态资源分配

kafka 管理工具 kafka eagle

flume高可用集群从kafka消费数据到hdfs

单flume消费kafka数据到hbase

分类目录

最近文章

最近评论和留言

登录