张映 发表于 2019-10-22

分类目录: hadoop/spark/scala

Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中。轻量,配置简单,适用于各种日志收集,并支持 Failover和负载均衡。并且它拥有非常丰富的组件。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,三者组建了一个Agent。三者的职责如下所示:

•Source:用来消费(收集)数据源到Channel组件中
•Channel:中转临时存储,保存所有Source组件信息
•Sink:从Channel中读取,读取成功后会删除Channel中的信息

阅读全文>>

张映 发表于 2019-10-21

分类目录: hadoop/spark/scala

从kafka消费数据到hdfs,或者hbase,是最常见的二种方式。

阅读全文>>

张映 发表于 2019-10-18

分类目录: hadoop/spark/scala

从kafka消费数据到hdfs,目前主要是通过程序的方式来实现的,在这在这个过程中做了简单的数据处理。

其实通过flume就可以实现数据从kafka到hdfs

阅读全文>>