张映 发表于 2020-01-16

分类目录: hadoop/spark/scala

做大数据,时间挺长的了。基于hadoop的大数据生态圈,还是比较稳定和高效的。

阅读全文>>

张映 发表于 2019-11-28

分类目录: hadoop/spark/scala

这个问题是由什么引起的呢?如果集群中,有二个datanode,而有3个副本的话,就会出现这样的问题。

阅读全文>>

张映 发表于 2019-11-28

分类目录: hadoop/spark/scala

cdh在国内用的比较多。不管是cloudera+cdh或者是ambari+hdp,建议初学者不要用,还是从原生的开始。网上说原生的不稳定,配置复杂。

我用的hadoop2.7.7稳定,以及以hadoop2.7.7为基础构建的生态圈很稳定,在线率100%,到目前为止还没有出现过突发故障。

以hadoop为基础构建一套生态圈,是很复杂。但是拆分开了,采取蚂蚁搬家的方式,就简单多了。并且能了解各组件间是怎么协同工作的。

阅读全文>>

张映 发表于 2019-10-22

分类目录: hadoop/spark/scala

Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中。轻量,配置简单,适用于各种日志收集,并支持 Failover和负载均衡。并且它拥有非常丰富的组件。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,三者组建了一个Agent。三者的职责如下所示:

•Source:用来消费(收集)数据源到Channel组件中
•Channel:中转临时存储,保存所有Source组件信息
•Sink:从Channel中读取,读取成功后会删除Channel中的信息

阅读全文>>

张映 发表于 2019-10-12

分类目录: hadoop/spark/scala

对hadoop做了一些优化配置,重启时提示,no namenode to stop。jps查看,进程都是有的。就是无法关闭。

阅读全文>>

张映 发表于 2019-09-23

分类目录: hadoop/spark/scala

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

阅读全文>>

张映 发表于 2019-03-13

分类目录: hadoop/spark/scala

跑spark-submit报错,查看了一下ha的状态,二台namenode节点都是standby,其中一台机器的JournalNode,挂掉了。

阅读全文>>

张映 发表于 2019-03-01

分类目录: hadoop/spark/scala

通过8088查看Applications任务的logs时,会报以下错误,

Failed while trying to construct the redirect url to the log server.Log Server url may not be configured java.lang.Exception:Unknown container.Container either has not started or has already completed or doesn't belong to this node at all.

阅读全文>>

张映 发表于 2019-02-25

分类目录: hadoop/spark/scala

同事说spark-sql插入不了数据,读取数据可以。写会报以下错误

2019-02-20 19:12:40 INFO audit:371 - ugi=root ip=unknown-ip-addr cmd=get_table : db=dataall tbl=track_pc
Error in query: java.lang.IllegalArgumentException: Wrong FS: hdfs://aaaaa:9000/user/hive/warehouse/dataall.db/track_pc/.hive-staging_hive_2019-02-20_19-12-39_656_7771985312772642109-1/-ext-10000/part-00000-53761c78-6e3b-47e0-b203-57fba5f90856-c000, expected: hdfs://bbbbb;

hive读取数据,插入数据都可以。

阅读全文>>

张映 发表于 2019-01-28

分类目录: hadoop/spark/scala

kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。

阅读全文>>