hadoop/spark/scala«海底苍鹰(tank)博客

‘hadoop/spark/scala’ 类别下的博文

spark cluster和spark client的区别

张映发表于 2019-03-21

Spark支持Yarn,Mesos,Standalone三种集群部署模式，它们的共同点：Master服务(Yarn ResourceManager,Mesos master,Spark standalone)来决定哪些应用可以运行以及在哪什么时候运行，Slave服务(Yarn NodeManger)运行在每个节点上，节点上实际运行着Executor进程，此外还监控着它们的运行状态以及资源的消耗

Spark On Yarn模式，又分cluster和client模式。cluster和client的最大区别在于，driver运行在哪里。

阅读全文>>

DbVisualizer 连接 hive 数据库

张映发表于 2019-03-20

分类目录： hadoop/spark/scala

如果表多，字段多，通过命令行查看就不方便了。连hive推荐使用，DbVisualizer配置还是挺简单的。

阅读全文>>

kafka-manager 创建 topic

张映发表于 2019-03-20

分类目录： hadoop/spark/scala

kafka-manager来创建，查看和管理topic还是比较方便的。当然也可以用命令行来操作，参考：zookeeper kafka 集群安装配置

阅读全文>>

hadoop namenode 都是standby

张映发表于 2019-03-13

分类目录： hadoop/spark/scala

跑spark-submit报错，查看了一下ha的状态，二台namenode节点都是standby，其中一台机器的JournalNode，挂掉了。

阅读全文>>

idea 2步配置远程调试spark

张映发表于 2019-03-12

分类目录： hadoop/spark/scala

spark-submit提交包是在服务器上，本地开发环境没有spark-submit。如果想要本地debug远程的spark，用idea很简单就可以实现。

阅读全文>>

hive 导入1600W条数据测试

张映发表于 2019-03-07

分类目录： hadoop/spark/scala

hadoop家族操作大数据还是很给力的。今天就测试了一把，还行。

阅读全文>>

yarn 关闭重复的 spark application

张映发表于 2019-03-05

分类目录： hadoop/spark/scala

相同功能的spark submit提交了二次，竟然也都成功了。查看applications也有二个。

阅读全文>>

kafka web端管理工具 kafka-manager

张映发表于 2019-03-04

分类目录： hadoop/spark/scala

想要了解kafka的信息，工具挺多，推荐使用雅虎开源的Kafka-manager。

阅读全文>>

hadoop 查看 mr日志报错

张映发表于 2019-03-01

分类目录： hadoop/spark/scala

通过8088查看Applications任务的logs时，会报以下错误，

Failed while trying to construct the redirect url to the log server.Log Server url may not be configured java.lang.Exception:Unknown container.Container either has not started or has already completed or doesn't belong to this node at all.

阅读全文>>

zookeeper 日志清理

张映发表于 2019-02-28

分类目录： hadoop/spark/scala

zookeeper服务器会产生三类日志：事务日志、快照日志和集群服务器运行日志。

在zookeeper默认配置文件zoo.cfg中有一个配置项dataDir，该配置项用于配置zookeeper快照日志和事务日志的存储地址。在官方提供的默认参考配置文件zoo_sample.cfg中，只有dataDir配置项。其实在实际应用中，还可以为事务日志专门配置存储地址，配置项名称为dataLogDir，在zoo_sample.cfg中并未体现出来。在没有dataLogDir配置项的时候，

zookeeper默认将事务日志文件和快照日志文件都存储在dataDir对应的目录下。建议将事务日志（dataLogDir）与快照日志（dataLog）单独配置，因为当zookeeper集群进行频繁的数据读写操作是，会产生大量的事务日志信息，将两类日志分开存储会提高系统性能，而且，可以允许将两类日志存在在不同的存储介质上，减少磁盘压力。

zookeeper集群服务器运行日志，该日志的配置地址在conf/目录下的log4j.properties文件中，该文件中有一个配置项为“zookeeper.log.dir=.”，表示log4j日志文件在与执行程序（zkServer.sh）在同一目录下。当执行zkServer.sh 时，在该文件夹下会产生zookeeper.out日志文件。下面主要介绍事务日志与快照日志。

阅读全文>>

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站

关于我

留言板

开发手册

linux命令

首页

‘hadoop/spark/scala’ 类别下的博文

spark cluster和spark client的区别

DbVisualizer 连接 hive 数据库

kafka-manager 创建 topic

hadoop namenode 都是standby

idea 2步配置远程调试spark

hive 导入1600W条数据测试

yarn 关闭重复的 spark application

kafka web端管理工具 kafka-manager

hadoop 查看 mr日志报错

zookeeper 日志清理

分类目录

最近文章

最近评论和留言

登录