hadoop/spark/scala«海底苍鹰(tank)博客

‘hadoop/spark/scala’ 类别下的博文

rdd,dataframe,dataset相互转换

张映发表于 2019-12-17

分类目录： hadoop/spark/scala

RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，才会开始遍历运算，极端情况下，如果代码里面有创建、转换，但是后面没有在Action中使用对应的结果，在执行时会被直接跳过，DataFrame与Dataset均支持sparksql的操作，rdd不支持。

导入parquet文件到表中

张映发表于 2019-12-16

分类目录： hadoop/spark/scala

当表数据以文本文件的形势，存放在hdfs上，不管是内部表，还是外部表，导入数据都是比较好操作的。直接通过hdfs命令直接copy到文件服务器上的对应目录就好了，注意hdfs目录的访问权限。

parquet也是可以这样操作的

scala csv txt 转 parquet 的二种方法

张映发表于 2019-12-13

分类目录： hadoop/spark/scala

parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发， Parquet的灵感来自于2010年Google发表的Dremel论文，文中介绍了一种支持嵌套结构的存储格式，并且使用了列式存储的方式提升查询性能，在Dremel论文中还介绍了Google如何使用这种存储格式实现并行查询的。

csv，txt是行式存储，转换过后，在查询速度提高了不少，特别是存储空间，减少了90%多。

Cloudera Manager 迁移服务器

张映发表于 2019-12-06

分类目录： hadoop/spark/scala

Cloudera Manager还是比较耗资源的，想把Cloudera Manager，移动到比较好的机器上。

cdh的安装请参考：cloudera cdh 6.3 安装配置

在这篇文章中，Cloudera Manager安装在bigserver1上面，bigserver1是奔腾双核的CPU。

cdh6 增加 datanode

张映发表于 2019-12-05

分类目录： hadoop/spark/scala

数据量的增加，增加datanode是必然，独立hadoop增加数据节点，请参考：hadoop 动态增加节点

cdh6 存在隐患 : 主机网络接口似乎以全速运行

张映发表于 2019-12-04

分类目录： hadoop/spark/scala

cloudera后台，显示，存在隐患 : 以下网络接口似乎未以全速运行：enp4s0。1 主机网络接口似乎以全速运行。

cloudera cdh6的测试机，都是公司淘汰下来的员工使用过的台式机，很差。硬件达不到要求。才会有上面的问题。然后不影响系统的使用，但是看着不舒服。

cloudera cdh6 配置namenode ha

张映发表于 2019-12-04

分类目录： hadoop/spark/scala

namenode ha肯定是要去做的。如果调度节点挂掉了，又没有备用节点的话，那整个大数据系统就等于挂掉了。

cloudera cdh6 添加spark-sql

张映发表于 2019-12-03

分类目录： hadoop/spark/scala

spark-sql常用的查询工具，速度比较hivesql要快。但是cdh6并没有spark-sql。

在看这篇文章前，先看：cdh 6 使用独立的 apache spark

cloudera manager 群集中有副本不足的块

张映发表于 2019-11-28

分类目录： hadoop/spark/scala

这个问题是由什么引起的呢？如果集群中，有二个datanode，而有3个副本的话，就会出现这样的问题。

cloudera cdh 6.3 安装配置

张映发表于 2019-11-28

分类目录： hadoop/spark/scala

cdh在国内用的比较多。不管是cloudera+cdh或者是ambari+hdp，建议初学者不要用，还是从原生的开始。网上说原生的不稳定，配置复杂。

我用的hadoop2.7.7稳定，以及以hadoop2.7.7为基础构建的生态圈很稳定，在线率100%，到目前为止还没有出现过突发故障。

以hadoop为基础构建一套生态圈，是很复杂。但是拆分开了，采取蚂蚁搬家的方式，就简单多了。并且能了解各组件间是怎么协同工作的。

分类目录
- apache/nginx (36)
- cache (21)
- clickhouse (14)
- drupal (7)
- eclipse (8)
- elasticsearch (18)
- google (3)
- hadoop/spark/scala (96)
- html/css (12)
- java/android (14)
- linux (87)
- mariadb (2)
- mysql (74)
- nodejs/vue/js/jquery (72)
- nosql (39)
- oracle (9)
- pgsql (8)
- php (107)
- seo (16)
- shell (11)
- smarty (5)
- tidb (21)
- wordpress (13)
- 云计算 (22)
- 双眼看社会 (13)
- 技术其他 (41)
- 服务器相关 (136)
- 系统安全 (7)
最近文章
最近评论和留言
- banner 在 awk是命令还是编程语言上的评论
- lin 在 hadoop 查看 mr日志报错上的评论
- ccc 在 cdh hive 2.1.1 升级到 2.3.4 上的评论
- 简简单单在关于我上的评论
- www 在 clickhouse,tidb,mysql 读取速度对比上的评论
- zzq 在 mysql分表，分区的区别和联系上的评论
- Bill 在怎么在网上找到你要的信息上的评论
- 11 在留言板留言了
- Michael 在 canal 同步mysql数据到clickhouse 支持update delete truncate 上的评论
- 我兜里有糖在 linux postgresql 安装配置详解上的评论
登录
- 登录