张映 发表于 2019-10-23

分类目录: hadoop/spark/scala

以前写过一个关于kafka管理工具的文章,请参考:kafka-manager 创建 topic

kafka-manager功能比较单一,并且用起来,总感觉哪里不对,怪怪的。推荐大家使用kafka eagle

Kafka Eagle监控系统是一款用来监控Kafka集群的工具,目前更新的版本是v1.3.9,支持管理多个Kafka集群、管理Kafka主题(包含查看、删除、创建等)、消费者组合消费者实例监控、消息阻塞告警、Kafka集群健康状态查看等

阅读全文>>

张映 发表于 2019-10-22

分类目录: hadoop/spark/scala

Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中。轻量,配置简单,适用于各种日志收集,并支持 Failover和负载均衡。并且它拥有非常丰富的组件。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,三者组建了一个Agent。三者的职责如下所示:

•Source:用来消费(收集)数据源到Channel组件中
•Channel:中转临时存储,保存所有Source组件信息
•Sink:从Channel中读取,读取成功后会删除Channel中的信息

阅读全文>>

张映 发表于 2019-10-21

分类目录: hadoop/spark/scala

从kafka消费数据到hdfs,或者hbase,是最常见的二种方式。

阅读全文>>

张映 发表于 2019-10-18

分类目录: hadoop/spark/scala

从kafka消费数据到hdfs,目前主要是通过程序的方式来实现的,在这在这个过程中做了简单的数据处理。

其实通过flume就可以实现数据从kafka到hdfs

阅读全文>>

张映 发表于 2019-10-16

分类目录: hadoop/spark/scala

增加kafka节点,对原有节点的顺序做了调整,报错如下:

cxid:0x2a zxid:0x1e txntype:-1 reqpath:n/a Error Path:/brokers/ids Error:KeeperErrorCode = NodeExists for /brokers/ids (org.apache.zookeeper.server.PrepRequestProcessor)

阅读全文>>

张映 发表于 2019-05-10

分类目录: hadoop/spark/scala

一个topic创建了几个partition,启动consumer的时候,只会消费一个partition,消费完了后,会把这个consumer给关闭掉。再启动consumer时,还是只会消费上次消费的那个partition。中间没有任何报错。

阅读全文>>

张映 发表于 2019-05-06

分类目录: hadoop/spark/scala

删除topic后,在重新创建相同名字的topic,报错了。下面总结一套,可行的方案。

阅读全文>>

张映 发表于 2019-05-06

分类目录: hadoop/spark/scala

kafka设置了max.poll.records为50000条,但是只能读取到1400条左右,没有任何报错。估计应当是配置问题。

阅读全文>>

张映 发表于 2019-04-29

分类目录: hadoop/spark/scala

kafka topic的partitions为1时,存取的数据,只会在kafka集群中的一台机器上面,时间一长,必然会造成,资源不均衡。

阅读全文>>

张映 发表于 2019-04-28

分类目录: hadoop/spark/scala

auto.offset.reset关乎kafka数据的读取,是一个非常重要的设置。常用的二个值是latest和earliest,默认是latest。

阅读全文>>