张映 发表于 2020-01-03

分类目录: hadoop/spark/scala

关于spark debug的文件,算上这篇,已有4篇了,总结一下:

1,spark本地开发,元数据库,数据存储都在开发机。请参考:scala spark sql 本地调试

2,spark连接远程hive,单namenode。请参考:spark 连接远程hive调试的3种方法

3,spark远程调试。请参考:idea 2步配置 远程调试spark

阅读全文>>

张映 发表于 2020-01-02

分类目录: hadoop/spark/scala

在看本文前,请先阅读一下:scala spark sql 本地调试

本地spark连接远程hive,这样就可以不用自己造数据,或者从远程copy数据了。

阅读全文>>

张映 发表于 2020-01-02

分类目录: hadoop/spark/scala

对于习惯了sql的开发同学来说,写sql肯定比较用map,filter内在算法因子要顺手的多。

阅读全文>>

张映 发表于 2019-12-28

分类目录: hadoop/spark/scala

1,下载spark

# git clone https://github.com/apache/spark.git
# git checkout branch-2.4

阅读全文>>

张映 发表于 2019-12-27

分类目录: hadoop/spark/scala

cdh6默认没有spark-sql,对于开发来说,有没有spark-sql都不重要,建议开发者,尽量少用sql语句。而对于数据分析人员来说,hive sql较慢,spark-sql还是比较合适的。

cdh6的安装,请参考:cloudera cdh 6.3 安装配置

阅读全文>>

张映 发表于 2019-11-19

分类目录: hadoop/spark/scala

Apache Zeppelin 是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。

Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。

阅读全文>>

张映 发表于 2019-11-15

分类目录: hadoop/spark/scala

kylin的官方文档,做的感觉一般,写的不详细,并且有坑。

spark独立安装,并不想放到kylin文件下,spark的动态资源管理,早已配置,不需要用到kylin动态资源配置参数,为啥没有单独的呢。

阅读全文>>

张映 发表于 2019-10-29

分类目录: hadoop/spark/scala

没有用cdh系列,但是又想用impala 3.3。安装impala有二种方式,一种源码安装,一种是rpm安装。impala早期版本,还可以设置yum源,进行安装。

不管是哪种方式安装,最终都是cdh中的impala

阅读全文>>

张映 发表于 2019-10-24

分类目录: hadoop/spark/scala

不同的模式运行spark,动态资源分配的配置是不一样的,本文的模式是spark on  yarn。

动态资源分配的意思是,需要的时候拿资源,不需要的时候,归还资源。

优点提高资源的利用率,还有不需要像静态模式那样,根据cpu数,内存数,指定Executor内存数,去算Executor了。

阅读全文>>

张映 发表于 2019-08-27

分类目录: hadoop/spark/scala

spark submit 执行完任务后,卡住了,不退出,找了各种日志,没有报错,并且任务执行的结果也是对的。

出现这个问题,感觉有点蒙,网上找找解决办法,全部不适用。下面详细说一下我的分析和解决过程

阅读全文>>