spark«海底苍鹰(tank)博客

flink on yarn 提交任务的二种方式

张映发表于 2020-03-23

分类目录： hadoop/spark/scala

spark，flink都能进行流处理和批处理。spark的文章写了好多，请在本博客中去搜索。flink的安装，请参考：cdh6 flink 安装

阅读全文>>

spark 连接远程hive调试 namenode 做了ha

张映发表于 2020-01-03

分类目录： hadoop/spark/scala

关于spark debug的文件，算上这篇，已有4篇了，总结一下：

1，spark本地开发，元数据库，数据存储都在开发机。请参考：scala spark sql 本地调试

2，spark连接远程hive，单namenode。请参考：spark 连接远程hive调试的3种方法

3，spark远程调试。请参考：idea 2步配置远程调试spark

阅读全文>>

spark 连接远程hive调试的3种方法

张映发表于 2020-01-02

分类目录： hadoop/spark/scala

在看本文前，请先阅读一下：scala spark sql 本地调试

本地spark连接远程hive，这样就可以不用自己造数据，或者从远程copy数据了。

阅读全文>>

scala spark sql 本地调试

张映发表于 2020-01-02

分类目录： hadoop/spark/scala

对于习惯了sql的开发同学来说，写sql肯定比较用map，filter内在算法因子要顺手的多。

阅读全文>>

cdh6 apache spark 重新编译

张映发表于 2019-12-28

分类目录： hadoop/spark/scala

1，下载spark

# git clone https://github.com/apache/spark.git
# git checkout branch-2.4

阅读全文>>

cdh 6 使用独立的 apache spark

张映发表于 2019-12-27

分类目录： hadoop/spark/scala

cdh6默认没有spark-sql，对于开发来说，有没有spark-sql都不重要，建议开发者，尽量少用sql语句。而对于数据分析人员来说，hive sql较慢，spark-sql还是比较合适的。

cdh6的安装，请参考：cloudera cdh 6.3 安装配置

阅读全文>>

zeppelin 整合 spark kylin mysql

张映发表于 2019-11-19

分类目录： hadoop/spark/scala

Apache Zeppelin 是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。

Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。

阅读全文>>

kylin 用spark创建cube

张映发表于 2019-11-15

分类目录： hadoop/spark/scala

kylin的官方文档，做的感觉一般，写的不详细，并且有坑。

spark独立安装，并不想放到kylin文件下，spark的动态资源管理，早已配置，不需要用到kylin动态资源配置参数，为啥没有单独的呢。

阅读全文>>

impala 3.3 源码编辑安装

张映发表于 2019-10-29

分类目录： hadoop/spark/scala

没有用cdh系列，但是又想用impala 3.3。安装impala有二种方式，一种源码安装，一种是rpm安装。impala早期版本，还可以设置yum源，进行安装。

不管是哪种方式安装，最终都是cdh中的impala

阅读全文>>

spark on yarn 动态资源分配

张映发表于 2019-10-24

分类目录： hadoop/spark/scala

不同的模式运行spark，动态资源分配的配置是不一样的，本文的模式是spark on yarn。

动态资源分配的意思是，需要的时候拿资源，不需要的时候，归还资源。

优点提高资源的利用率，还有不需要像静态模式那样，根据cpu数，内存数，指定Executor内存数，去算Executor了。

阅读全文>>

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站

关于我

留言板

开发手册

linux命令

首页

flink on yarn 提交任务的二种方式

spark 连接远程hive调试 namenode 做了ha

spark 连接远程hive调试的3种方法

scala spark sql 本地调试

cdh6 apache spark 重新编译

cdh 6 使用独立的 apache spark

zeppelin 整合 spark kylin mysql

kylin 用spark创建cube

impala 3.3 源码编辑安装

spark on yarn 动态资源分配

分类目录

最近文章

最近评论和留言

登录