hadoop/spark/scala«海底苍鹰(tank)博客

Flume NG是一个分布式，高可用，可靠的系统，它能将不同的海量数据收集，移动并存储到一个数据存储系统中。轻量，配置简单，适用于各种日志收集，并支持 Failover和负载均衡。并且它拥有非常丰富的组件。Flume NG采用的是三层架构：Agent层，Collector层和Store层，每一层均可水平拓展。其中Agent包含Source，Channel和 Sink，三者组建了一个Agent。三者的职责如下所示：

•Source：用来消费（收集）数据源到Channel组件中
•Channel：中转临时存储，保存所有Source组件信息
•Sink：从Channel中读取，读取成功后会删除Channel中的信息

阅读全文>>

hadoop no namenode to stop 无法关闭

张映发表于 2019-10-12

分类目录： hadoop/spark/scala

对hadoop做了一些优化配置，重启时提示，no namenode to stop。jps查看，进程都是有的。就是无法关闭。

阅读全文>>

centos7 hadoop2.7.7 hbase1.4安装配置详解

张映发表于 2019-09-23

分类目录： hadoop/spark/scala

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

阅读全文>>

hadoop namenode 都是standby

张映发表于 2019-03-13

分类目录： hadoop/spark/scala

跑spark-submit报错，查看了一下ha的状态，二台namenode节点都是standby，其中一台机器的JournalNode，挂掉了。

阅读全文>>

hadoop 查看 mr日志报错

张映发表于 2019-03-01

分类目录： hadoop/spark/scala

通过8088查看Applications任务的logs时，会报以下错误，

Failed while trying to construct the redirect url to the log server.Log Server url may not be configured java.lang.Exception:Unknown container.Container either has not started or has already completed or doesn't belong to this node at all.

阅读全文>>

hadoop hive 创建表的坑

张映发表于 2019-02-25

分类目录： hadoop/spark/scala

同事说spark-sql插入不了数据，读取数据可以。写会报以下错误

2019-02-20 19:12:40 INFO audit:371 - ugi=root ip=unknown-ip-addr cmd=get_table : db=dataall tbl=track_pc
Error in query: java.lang.IllegalArgumentException: Wrong FS: hdfs://aaaaa:9000/user/hive/warehouse/dataall.db/track_pc/.hive-staging_hive_2019-02-20_19-12-39_656_7771985312772642109-1/-ext-10000/part-00000-53761c78-6e3b-47e0-b203-57fba5f90856-c000, expected: hdfs://bbbbb;

hive读取数据，插入数据都可以。

阅读全文>>

zookeeper kafka 集群安装配置

张映发表于 2019-01-28

分类目录： hadoop/spark/scala

kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

阅读全文>>

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站

关于我

留言板

开发手册

linux命令

首页

基于hadoop的大数据生态圈架构方案

cloudera manager 群集中有副本不足的块

cloudera cdh 6.3 安装配置

flume高可用集群从kafka消费数据到hdfs

hadoop no namenode to stop 无法关闭

centos7 hadoop2.7.7 hbase1.4安装配置详解

hadoop namenode 都是standby

hadoop 查看 mr日志报错

hadoop hive 创建表的坑

zookeeper kafka 集群安装配置

分类目录

最近文章

最近评论和留言

登录