hdfs«海底苍鹰(tank)博客

Flume NG是一个分布式，高可用，可靠的系统，它能将不同的海量数据收集，移动并存储到一个数据存储系统中。轻量，配置简单，适用于各种日志收集，并支持 Failover和负载均衡。并且它拥有非常丰富的组件。Flume NG采用的是三层架构：Agent层，Collector层和Store层，每一层均可水平拓展。其中Agent包含Source，Channel和 Sink，三者组建了一个Agent。三者的职责如下所示：

•Source：用来消费（收集）数据源到Channel组件中
•Channel：中转临时存储，保存所有Source组件信息
•Sink：从Channel中读取，读取成功后会删除Channel中的信息

阅读全文>>

单flume消费kafka数据到hdfs

张映发表于 2019-10-18

分类目录： hadoop/spark/scala

从kafka消费数据到hdfs，目前主要是通过程序的方式来实现的，在这在这个过程中做了简单的数据处理。

其实通过flume就可以实现数据从kafka到hdfs

阅读全文>>

hadoop 查看 mr日志报错

张映发表于 2019-03-01

分类目录： hadoop/spark/scala

通过8088查看Applications任务的logs时，会报以下错误，

Failed while trying to construct the redirect url to the log server.Log Server url may not be configured java.lang.Exception:Unknown container.Container either has not started or has already completed or doesn't belong to this node at all.

阅读全文>>

hadoop hive 创建表的坑

张映发表于 2019-02-25

分类目录： hadoop/spark/scala

同事说spark-sql插入不了数据，读取数据可以。写会报以下错误

2019-02-20 19:12:40 INFO audit:371 - ugi=root ip=unknown-ip-addr cmd=get_table : db=dataall tbl=track_pc
Error in query: java.lang.IllegalArgumentException: Wrong FS: hdfs://aaaaa:9000/user/hive/warehouse/dataall.db/track_pc/.hive-staging_hive_2019-02-20_19-12-39_656_7771985312772642109-1/-ext-10000/part-00000-53761c78-6e3b-47e0-b203-57fba5f90856-c000, expected: hdfs://bbbbb;

hive读取数据，插入数据都可以。

阅读全文>>

hive mysql 安装配置

张映发表于 2019-01-09

分类目录： hadoop/spark/scala

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

hive默认使用derby数据库，了解了一下，测试环境可以用。真正线上还是替换成mysql还是比较靠谱。

阅读全文>>

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站

关于我

留言板

开发手册

linux命令

首页

hdfs 小文件合并问题

kudu hdfs 数据分层灵活存储

导入parquet文件到表中

flume高可用集群从kafka消费数据到hdfs

单flume消费kafka数据到hdfs

hadoop 查看 mr日志报错

hadoop hive 创建表的坑

hive mysql 安装配置

分类目录

最近文章

最近评论和留言

登录