2020年,1月存档

张映 发表于 2020-01-03

分类目录: hadoop/spark/scala

关于spark debug的文件,算上这篇,已有4篇了,总结一下:

1,spark本地开发,元数据库,数据存储都在开发机。请参考:scala spark sql 本地调试

2,spark连接远程hive,单namenode。请参考:spark 连接远程hive调试的3种方法

3,spark远程调试。请参考:idea 2步配置 远程调试spark

阅读全文>>

张映 发表于 2020-01-02

分类目录: hadoop/spark/scala

在看本文前,请先阅读一下:scala spark sql 本地调试

本地spark连接远程hive,这样就可以不用自己造数据,或者从远程copy数据了。

阅读全文>>

张映 发表于 2020-01-02

分类目录: hadoop/spark/scala

对于习惯了sql的开发同学来说,写sql肯定比较用map,filter内在算法因子要顺手的多。

阅读全文>>