张映 发表于 2019-05-10

分类目录: hadoop/spark/scala

一个topic创建了几个partition,启动consumer的时候,只会消费一个partition,消费完了后,会把这个consumer给关闭掉。再启动consumer时,还是只会消费上次消费的那个partition。中间没有任何报错。

阅读全文>>

张映 发表于 2019-04-28

分类目录: hadoop/spark/scala

如果实时的从kafka取数据,通过spark入hdfs,会产生很多的task,在hdfs上会产生非常多的小文件。浪费硬盘空间不说,在用spark进行数据分析的时间,非常耗spark节点的内存。

最好不要实时的入库,间断去运行。这样会尽量减少小文件的产生。但是不能根本上解决小问题,最终还是通过CombineFileInputFormat来解决,这个后面的文章,会单独说。

阅读全文>>

张映 发表于 2019-04-26

分类目录: hadoop/spark/scala

producter生产消息,基本上没有出现过问题,但是consumer遇到了不少问题。用是kafka2系列。

阅读全文>>