张映 发表于 2020-03-23

分类目录: hadoop/spark/scala

spark,flink都能进行流处理和批处理。spark的文章写了好多,请在本博客中去搜索。flink的安装,请参考:cdh6 flink 安装

阅读全文>>

张映 发表于 2019-10-24

分类目录: hadoop/spark/scala

不同的模式运行spark,动态资源分配的配置是不一样的,本文的模式是spark on  yarn。

动态资源分配的意思是,需要的时候拿资源,不需要的时候,归还资源。

优点提高资源的利用率,还有不需要像静态模式那样,根据cpu数,内存数,指定Executor内存数,去算Executor了。

阅读全文>>

张映 发表于 2019-03-21

分类目录: hadoop/spark/scala

Spark支持Yarn,Mesos,Standalone三种集群部署模式,它们的共同点:Master服务(Yarn ResourceManager,Mesos master,Spark standalone)来决定哪些应用可以运行以及在哪什么时候运行,Slave服务(Yarn NodeManger)运行在每个节点上,节点上实际运行着Executor进程,此外还监控着它们的运行状态以及资源的消耗

Spark On Yarn模式,又分cluster和client模式。cluster和client的最大区别在于,driver运行在哪里。

阅读全文>>

张映 发表于 2019-03-05

分类目录: hadoop/spark/scala

相同功能的spark submit提交了二次,竟然也都成功了。查看applications也有二个。

阅读全文>>

张映 发表于 2019-02-26

分类目录: hadoop/spark/scala

sqark-sql登录进去后,过段时间就会自动退出。并且会报

2019-02-26 18:38:09 INFO SparkSQLCLIDriver:951 - Spark master: yarn, Application Id: application_1550658770519_0084
spark-sql>
>
> use 2019-02-26 18:38:32 ERROR YarnClientSchedulerBackend:70 - YARN application has exited unexpectedly with state FAILED! Check the YARN application logs for more details.,以前一直都没有出现过。

阅读全文>>

张映 发表于 2019-01-02

分类目录: hadoop/spark/scala

sppark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on yarn。

standalone模式,即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。

spark on mesos官方推荐这种模式(当然,原因之一是血缘关系)。正是由于spark开发之初就考虑到支持Mesos,Spark运行在Mesos上会比运行在yarn上更加灵活,更加自然。

spark on yarn这是一种最有前景的部署模式。但限于yarn自身的发展,目前仅支持粗粒度模式(Coarse-grained Mode)。这是由于yarn上的Container资源是不可以动态伸缩的,一旦Container启动之后,可使用的资源不能再发生变化,不过这个已经在yarn计划中了

阅读全文>>