hive和spark sql 默认用的都是derby,上篇文章说了,hive怎么使用mysql做为元数据库。
spark sql使用hive的配置来连接mysql,配置下来挺简单的,并且不需要启动hive
hive和spark sql 默认用的都是derby,上篇文章说了,hive怎么使用mysql做为元数据库。
spark sql使用hive的配置来连接mysql,配置下来挺简单的,并且不需要启动hive
spark-sql是spark的一个核心组件,可以实现简单的关系型数据库操作。
dataframe类似于关系型数据库的表,从dataframe中查询数据,需要调用api来实现,到目前为止spark支持的语言scala,java,r,python。
sppark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on yarn。
standalone模式,即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。
spark on mesos官方推荐这种模式(当然,原因之一是血缘关系)。正是由于spark开发之初就考虑到支持Mesos,Spark运行在Mesos上会比运行在yarn上更加灵活,更加自然。
spark on yarn这是一种最有前景的部署模式。但限于yarn自身的发展,目前仅支持粗粒度模式(Coarse-grained Mode)。这是由于yarn上的Container资源是不可以动态伸缩的,一旦Container启动之后,可使用的资源不能再发生变化,不过这个已经在yarn计划中了