张映 发表于 2020-01-06

分类目录: hadoop/spark/scala

cdh管理界面已经停止了所有服务,但是jps查看的时候,还是有很多进程。通过kill强制杀死后,又起来了。

阅读全文>>

张映 发表于 2020-01-03

分类目录: hadoop/spark/scala

关于spark debug的文件,算上这篇,已有4篇了,总结一下:

1,spark本地开发,元数据库,数据存储都在开发机。请参考:scala spark sql 本地调试

2,spark连接远程hive,单namenode。请参考:spark 连接远程hive调试的3种方法

3,spark远程调试。请参考:idea 2步配置 远程调试spark

阅读全文>>

张映 发表于 2020-01-02

分类目录: hadoop/spark/scala

在看本文前,请先阅读一下:scala spark sql 本地调试

本地spark连接远程hive,这样就可以不用自己造数据,或者从远程copy数据了。

阅读全文>>

张映 发表于 2020-01-02

分类目录: hadoop/spark/scala

对于习惯了sql的开发同学来说,写sql肯定比较用map,filter内在算法因子要顺手的多。

阅读全文>>

张映 发表于 2019-12-30

分类目录: hadoop/spark/scala

大数据开发的debug,根一般开发的debug是有所不同的,下面会说一下本地debug的方法。关于远程的debug,请参考:idea 2步配置 远程调试spark

阅读全文>>

张映 发表于 2019-12-28

分类目录: hadoop/spark/scala

1,下载spark

# git clone https://github.com/apache/spark.git
# git checkout branch-2.4

阅读全文>>

张映 发表于 2019-12-27

分类目录: hadoop/spark/scala

cdh6默认没有spark-sql,对于开发来说,有没有spark-sql都不重要,建议开发者,尽量少用sql语句。而对于数据分析人员来说,hive sql较慢,spark-sql还是比较合适的。

cdh6的安装,请参考:cloudera cdh 6.3 安装配置

阅读全文>>

张映 发表于 2019-12-17

分类目录: hadoop/spark/scala

RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,才会开始遍历运算,极端情况下,如果代码里面有创建、转换,但是后面没有在Action中使用对应的结果,在执行时会被直接跳过,DataFrame与Dataset均支持sparksql的操作,rdd不支持。

阅读全文>>

张映 发表于 2019-12-16

分类目录: hadoop/spark/scala

当表数据以文本文件的形势,存放在hdfs上,不管是内部表,还是外部表,导入数据都是比较好操作的。直接通过hdfs命令直接copy到文件服务器上的对应目录就好了,注意hdfs目录的访问权限。

parquet也是可以这样操作的

阅读全文>>

张映 发表于 2019-12-13

分类目录: hadoop/spark/scala

parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发, Parquet的灵感来自于2010年Google发表的Dremel论文,文中介绍了一种支持嵌套结构的存储格式,并且使用了列式存储的方式提升查询性能,在Dremel论文中还介绍了Google如何使用这种存储格式实现并行查询的。

csv,txt是行式存储,转换过后,在查询速度提高了不少,特别是存储空间,减少了90%多。

阅读全文>>