hadoop/spark/scala«海底苍鹰(tank)博客

zookeeper hadoop 集群安装配置

张映发表于 2019-01-25

分类目录： hadoop/spark/scala

namenode是hadoop的核心，如果namenode宕机，整个hadoop都会挂掉。

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

hive mysql 安装配置

张映发表于 2019-01-09

分类目录： hadoop/spark/scala

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

hive默认使用derby数据库，了解了一下，测试环境可以用。真正线上还是替换成mysql还是比较靠谱。

spark 创建 dataframe

张映发表于 2019-01-04

分类目录： hadoop/spark/scala

dataframe类似于关系型数据库的表，从dataframe中查询数据，需要调用api来实现，到目前为止spark支持的语言scala，java，r，python。

spark on yarn 安装配置

张映发表于 2019-01-02

分类目录： hadoop/spark/scala

sppark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on yarn。

standalone模式，即独立模式，自带完整的服务，可单独部署到一个集群中，无需依赖任何其他资源管理系统。

spark on mesos官方推荐这种模式（当然，原因之一是血缘关系）。正是由于spark开发之初就考虑到支持Mesos，Spark运行在Mesos上会比运行在yarn上更加灵活，更加自然。

spark on yarn这是一种最有前景的部署模式。但限于yarn自身的发展，目前仅支持粗粒度模式（Coarse-grained Mode）。这是由于yarn上的Container资源是不可以动态伸缩的，一旦Container启动之后，可使用的资源不能再发生变化，不过这个已经在yarn计划中了

hadoop systemctl 开机启动

张映发表于 2018-12-29

分类目录： hadoop/spark/scala

找一下官方文档，没发现有开机启动的配置。网上找了一下，基本上都是chkconfig的启动方式，用了centos7以后，chkconfig用的就少了。

hadoop 常用端口常用配置

张映发表于 2018-12-28

分类目录： hadoop/spark/scala

配置hadoop集群，主要配置core-site.xml,hdfs-site.xml,mapred-site.xml yarn-site.xml，hadoop版本不同，这4个文件的配置可会有差异。以下是收集整理的参数，紧供参考

hadoop 动态增加节点

张映发表于 2018-12-28

分类目录： hadoop/spark/scala

前面写过一篇hadoop集群安装配置的文章。只用了二台机器，假如机器快满了，就需要在加机器。hadoop加节点，不需要重启hadoop服务。

centos7 hadoop 集群安装配置

张映发表于 2018-12-27

分类目录： hadoop/spark/scala

hadoop的集群先搞二台机器，一台管理机，一台node机，为什么呢。因为钱，机子也要钱。数据量是逐步增长起来的。如果一台node不能满足需求了，在增加node节点到集群。

在开始安装配置前，最好把该篇文章看上几遍，理顺了，在开始。特别是我踩过的坑。

分类目录
- apache/nginx (36)
- cache (21)
- clickhouse (14)
- drupal (7)
- eclipse (8)
- elasticsearch (18)
- google (3)
- hadoop/spark/scala (96)
- html/css (12)
- java/android (14)
- linux (87)
- mariadb (2)
- mysql (74)
- nodejs/vue/js/jquery (72)
- nosql (39)
- oracle (9)
- pgsql (8)
- php (107)
- seo (16)
- shell (11)
- smarty (5)
- tidb (21)
- wordpress (13)
- 云计算 (22)
- 双眼看社会 (13)
- 技术其他 (41)
- 服务器相关 (136)
- 系统安全 (7)
最近文章
最近评论和留言
- banner 在 awk是命令还是编程语言上的评论
- lin 在 hadoop 查看 mr日志报错上的评论
- ccc 在 cdh hive 2.1.1 升级到 2.3.4 上的评论
- 简简单单在关于我上的评论
- www 在 clickhouse,tidb,mysql 读取速度对比上的评论
- zzq 在 mysql分表，分区的区别和联系上的评论
- Bill 在怎么在网上找到你要的信息上的评论
- 11 在留言板留言了
- Michael 在 canal 同步mysql数据到clickhouse 支持update delete truncate 上的评论
- 我兜里有糖在 linux postgresql 安装配置详解上的评论
登录
- 登录