Spark支持Yarn,Mesos,Standalone三种集群部署模式,它们的共同点:Master服务(Yarn ResourceManager,Mesos master,Spark standalone)来决定哪些应用可以运行以及在哪什么时候运行,Slave服务(Yarn NodeManger)运行在每个节点上,节点上实际运行着Executor进程,此外还监控着它们的运行状态以及资源的消耗
Spark On Yarn模式,又分cluster和client模式。cluster和client的最大区别在于,driver运行在哪里。
阅读全文>>
如果表多,字段多,通过命令行查看就不方便了。连hive推荐使用,DbVisualizer配置还是挺简单的。
阅读全文>>
kafka-manager来创建,查看和管理topic还是比较方便的。当然也可以用命令行来操作,参考:zookeeper kafka 集群 安装配置
阅读全文>>
跑spark-submit报错,查看了一下ha的状态,二台namenode节点都是standby,其中一台机器的JournalNode,挂掉了。
阅读全文>>
spark-submit提交包是在服务器上,本地开发环境没有spark-submit。如果想要本地debug远程的spark,用idea很简单就可以实现。
阅读全文>>
hadoop家族操作大数据还是很给力的。今天就测试了一把,还行。
阅读全文>>
相同功能的spark submit提交了二次,竟然也都成功了。查看applications也有二个。
阅读全文>>
想要了解kafka的信息,工具挺多,推荐使用雅虎开源的Kafka-manager。
阅读全文>>
通过8088查看Applications任务的logs时,会报以下错误,
Failed while trying to construct the redirect url to the log server.Log Server url may not be configured java.lang.Exception:Unknown container.Container either has not started or has already completed or doesn't belong to this node at all.
阅读全文>>
zookeeper服务器会产生三类日志:事务日志、快照日志和集群服务器运行日志。
在zookeeper默认配置文件zoo.cfg中有一个配置项dataDir,该配置项用于配置zookeeper快照日志和事务日志的存储地址。在官方提供的默认参考配置文件zoo_sample.cfg中,只有dataDir配置项。其实在实际应用中,还可以为事务日志专门配置存储地址,配置项名称为dataLogDir,在zoo_sample.cfg中并未体现出来。在没有dataLogDir配置项的时候,
zookeeper默认将事务日志文件和快照日志文件都存储在dataDir对应的目录下。建议将事务日志(dataLogDir)与快照日志(dataLog)单独配置,因为当zookeeper集群进行频繁的数据读写操作是,会产生大量的事务日志信息,将两类日志分开存储会提高系统性能,而且,可以允许将两类日志存在在不同的存储介质上,减少磁盘压力。
zookeeper集群服务器运行日志,该日志的配置地址在conf/目录下的log4j.properties文件中,该文件中有一个配置项为“zookeeper.log.dir=.”,表示log4j日志文件在与执行程序(zkServer.sh)在同一目录下。当执行zkServer.sh 时,在该文件夹下会产生zookeeper.out日志文件。下面主要介绍事务日志与快照日志。
阅读全文>>