‘hadoop/spark’ 类别下的博文

张映 发表于 2019-04-25

分类目录: hadoop/spark

scala启动多个sparkcontext时,发现启动不起来。查看Applications任务时,发现Memory Total和Memory Used一样了。

阅读全文>>

张映 发表于 2019-03-21

分类目录: hadoop/spark

Spark支持Yarn,Mesos,Standalone三种集群部署模式,它们的共同点:Master服务(Yarn ResourceManager,Mesos master,Spark standalone)来决定哪些应用可以运行以及在哪什么时候运行,Slave服务(Yarn NodeManger)运行在每个节点上,节点上实际运行着Executor进程,此外还监控着它们的运行状态以及资源的消耗

Spark On Yarn模式,又分cluster和client模式。cluster和client的最大区别在于,driver运行在哪里。

阅读全文>>

张映 发表于 2019-03-20

分类目录: hadoop/spark

如果表多,字段多,通过命令行查看就不方便了。连hive推荐使用,DbVisualizer配置还是挺简单的。

阅读全文>>

张映 发表于 2019-03-20

分类目录: hadoop/spark

kafka-manager来创建,查看和管理topic还是比较方便的。当然也可以用命令行来操作,参考:zookeeper kafka 集群 安装配置

阅读全文>>

张映 发表于 2019-03-13

分类目录: hadoop/spark

跑spark-submit报错,查看了一下ha的状态,二台namenode节点都是standby,其中一台机器的JournalNode,挂掉了。

阅读全文>>

张映 发表于 2019-03-12

分类目录: hadoop/spark

spark-submit提交包是在服务器上,本地开发环境没有spark-submit。如果想要本地debug远程的spark,用idea很简单就可以实现。

阅读全文>>

张映 发表于 2019-03-07

分类目录: hadoop/spark

hadoop家族操作大数据还是很给力的。今天就测试了一把,还行。

阅读全文>>

张映 发表于 2019-03-05

分类目录: hadoop/spark

相同功能的spark submit提交了二次,竟然也都成功了。查看applications也有二个。

阅读全文>>

张映 发表于 2019-03-04

分类目录: hadoop/spark

想要了解kafka的信息,工具挺多,推荐使用雅虎开源的Kafka-manager。

阅读全文>>

张映 发表于 2019-03-01

分类目录: hadoop/spark

通过8088查看Applications任务的logs时,会报以下错误,

Failed while trying to construct the redirect url to the log server.Log Server url may not be configured java.lang.Exception:Unknown container.Container either has not started or has already completed or doesn't belong to this node at all.

阅读全文>>