‘hadoop/spark’ 类别下的博文

张映 发表于 2019-01-15

分类目录: hadoop/spark

通过sql的方式,读取数据,根我们常用的关系型数据库差不多,更容易上手,当然没有updata和delete。

阅读全文>>

张映 发表于 2019-01-09

分类目录: hadoop/spark

hive和spark sql 默认用的都是derby,上篇文章说了,hive怎么使用mysql做为元数据库

spark sql使用hive的配置来连接mysql,配置下来挺简单的,并且不需要启动hive

阅读全文>>

张映 发表于 2019-01-09

分类目录: hadoop/spark

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

hive默认使用derby数据库,了解了一下,测试环境可以用。真正线上还是替换成mysql还是比较靠谱。

阅读全文>>

张映 发表于 2019-01-07

分类目录: hadoop/spark

spark-sql是spark的一个核心组件,可以实现简单的关系型数据库操作。

阅读全文>>

张映 发表于 2019-01-04

分类目录: hadoop/spark

dataframe类似于关系型数据库的表,从dataframe中查询数据,需要调用api来实现,到目前为止spark支持的语言scala,java,r,python。

阅读全文>>

张映 发表于 2019-01-02

分类目录: hadoop/spark

sppark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on yarn。

standalone模式,即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。

spark on mesos官方推荐这种模式(当然,原因之一是血缘关系)。正是由于spark开发之初就考虑到支持Mesos,Spark运行在Mesos上会比运行在yarn上更加灵活,更加自然。

spark on yarn这是一种最有前景的部署模式。但限于yarn自身的发展,目前仅支持粗粒度模式(Coarse-grained Mode)。这是由于yarn上的Container资源是不可以动态伸缩的,一旦Container启动之后,可使用的资源不能再发生变化,不过这个已经在yarn计划中了

阅读全文>>

张映 发表于 2018-12-29

分类目录: hadoop/spark

找一下官方文档,没发现有开机启动的配置。网上找了一下,基本上都是chkconfig的启动方式,用了centos7以后,chkconfig用的就少了。

阅读全文>>

张映 发表于 2018-12-28

分类目录: hadoop/spark

配置hadoop集群,主要配置core-site.xml,hdfs-site.xml,mapred-site.xml yarn-site.xml,hadoop版本不同,这4个文件的配置可会有差异。以下是收集整理的参数,紧供参考

阅读全文>>

张映 发表于 2018-12-28

分类目录: hadoop/spark

前面写过一篇hadoop集群安装配置的文章。只用了二台机器,假如机器快满了,就需要在加机器。hadoop加节点,不需要重启hadoop服务。

阅读全文>>

张映 发表于 2018-12-27

分类目录: hadoop/spark

hadoop的集群先搞二台机器,一台管理机,一台node机,为什么呢。因为钱,机子也要钱。数据量是逐步增长起来的。如果一台node不能满足需求了,在增加node节点到集群。

在开始安装配置前,最好把该篇文章看上几遍,理顺了,在开始。特别是我踩过的坑。

阅读全文>>