spark,flink都能进行流处理和批处理。spark的文章写了好多,请在本博客中去搜索。flink的安装,请参考:cdh6 flink 安装
关于spark debug的文件,算上这篇,已有4篇了,总结一下:
1,spark本地开发,元数据库,数据存储都在开发机。请参考:scala spark sql 本地调试
2,spark连接远程hive,单namenode。请参考:spark 连接远程hive调试的3种方法
3,spark远程调试。请参考:idea 2步配置 远程调试spark
对于习惯了sql的开发同学来说,写sql肯定比较用map,filter内在算法因子要顺手的多。
cdh6默认没有spark-sql,对于开发来说,有没有spark-sql都不重要,建议开发者,尽量少用sql语句。而对于数据分析人员来说,hive sql较慢,spark-sql还是比较合适的。
cdh6的安装,请参考:cloudera cdh 6.3 安装配置
Apache Zeppelin 是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。
Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。
kylin的官方文档,做的感觉一般,写的不详细,并且有坑。
spark独立安装,并不想放到kylin文件下,spark的动态资源管理,早已配置,不需要用到kylin动态资源配置参数,为啥没有单独的呢。
没有用cdh系列,但是又想用impala 3.3。安装impala有二种方式,一种源码安装,一种是rpm安装。impala早期版本,还可以设置yum源,进行安装。
不管是哪种方式安装,最终都是cdh中的impala
不同的模式运行spark,动态资源分配的配置是不一样的,本文的模式是spark on yarn。
动态资源分配的意思是,需要的时候拿资源,不需要的时候,归还资源。
优点提高资源的利用率,还有不需要像静态模式那样,根据cpu数,内存数,指定Executor内存数,去算Executor了。