张映 发表于 2020-04-02

分类目录: hadoop/spark/scala

在看这篇文章前,请先了解一下:

1,cdh6 flink 安装
2,flink on yarn 提交任务的二种方式
3,cdh hive 2.1.1 升级到 2.3.4

阅读全文>>

张映 发表于 2020-04-02

分类目录: hadoop/spark/scala

最近在玩flink,想让flink sql借用hive的元数据库。可是呢,flink sql能连hive的版本,到目前为止只有2个,hive 1.2.1和hive 2.3.4。

cdh6.3.1装的hive是2.1.1,所以不升级hive,flink sql根本用不了。

阅读全文>>

张映 发表于 2020-01-21

分类目录: hadoop/spark/scala

flink可以做为批处理,也可以流处理的工具。功能根spark差不多,不过据说比spark强大。据说天猫双11,就用的这玩意。

阅读全文>>

张映 发表于 2020-01-19

分类目录: hadoop/spark/scala

phoenix是构建在Hbase之上,使用标准的SQL操作Hbase,可以做联机事务处理,拥有低延迟的特性。

cdh的安装,请参考:cloudera cdh 6.3 安装配置

impala可以整合Hbase,但是不支持delete,upsert。如果想要impala的delete,upsert,存储要用kudu。请参考:impala与hbase整合

hive可以整合Hbase,受限于hive自己的原因,和hbase并不能配合的很好。请参考:hive与hbase整合

阅读全文>>

张映 发表于 2020-01-06

分类目录: hadoop/spark/scala

cdh管理界面已经停止了所有服务,但是jps查看的时候,还是有很多进程。通过kill强制杀死后,又起来了。

阅读全文>>

张映 发表于 2019-12-28

分类目录: hadoop/spark/scala

1,下载spark

# git clone https://github.com/apache/spark.git
# git checkout branch-2.4

阅读全文>>

张映 发表于 2019-12-27

分类目录: hadoop/spark/scala

cdh6默认没有spark-sql,对于开发来说,有没有spark-sql都不重要,建议开发者,尽量少用sql语句。而对于数据分析人员来说,hive sql较慢,spark-sql还是比较合适的。

cdh6的安装,请参考:cloudera cdh 6.3 安装配置

阅读全文>>