hadoop/spark/scala«海底苍鹰(tank)博客

‘hadoop/spark/scala’ 类别下的博文

cdh flink sql 整合 hive

张映发表于 2020-04-02

分类目录： hadoop/spark/scala

在看这篇文章前，请先了解一下：

1，cdh6 flink 安装
2，flink on yarn 提交任务的二种方式
3，cdh hive 2.1.1 升级到 2.3.4

cdh hive 2.1.1 升级到 2.3.4

张映发表于 2020-04-02

分类目录： hadoop/spark/scala

最近在玩flink，想让flink sql借用hive的元数据库。可是呢，flink sql能连hive的版本，到目前为止只有2个，hive 1.2.1和hive 2.3.4。

cdh6.3.1装的hive是2.1.1，所以不升级hive，flink sql根本用不了。

flink on yarn 提交任务的二种方式

张映发表于 2020-03-23

分类目录： hadoop/spark/scala

spark，flink都能进行流处理和批处理。spark的文章写了好多，请在本博客中去搜索。flink的安装，请参考：cdh6 flink 安装

phoenix 双引号单引号

张映发表于 2020-02-27

分类目录： hadoop/spark/scala

phoenix双引号，单引号用起来有点怪怪的。

phoenix表字段，表名等，如果不加双引号，默认是大写的。

单引号加在值上面会被认为成列，例如：where后面条件值，upsert values里面值。phoenix对值类型审核还是挺严格的，VARCHAR肯定是要加单引号的。整形肯定不能加。

cdh6 flink 安装

张映发表于 2020-01-21

分类目录： hadoop/spark/scala

flink可以做为批处理，也可以流处理的工具。功能根spark差不多，不过据说比spark强大。据说天猫双11，就用的这玩意。

phoenix 表增删改查

张映发表于 2020-01-20

分类目录： hadoop/spark/scala

phoenix对表的操作，看似根其他sql差不多，但是总感觉很变扭。特别是不加双引号默认大写，值必须用单引号。

cdh phoenix 安装配置

张映发表于 2020-01-19

分类目录： hadoop/spark/scala

phoenix是构建在Hbase之上，使用标准的SQL操作Hbase，可以做联机事务处理，拥有低延迟的特性。

cdh的安装，请参考：cloudera cdh 6.3 安装配置

impala可以整合Hbase，但是不支持delete，upsert。如果想要impala的delete,upsert，存储要用kudu。请参考：impala与hbase整合

hive可以整合Hbase，受限于hive自己的原因，和hbase并不能配合的很好。请参考：hive与hbase整合

hdfs 小文件合并问题

张映发表于 2020-01-17

分类目录： hadoop/spark/scala

玩过大数据的人，肯定都遇到过小文件问题。这也是玩大数据，必须跨过去的一个坎，要不然，大数据玩不转。

基于hadoop的大数据生态圈架构方案

张映发表于 2020-01-16

分类目录： hadoop/spark/scala

做大数据，时间挺长的了。基于hadoop的大数据生态圈，还是比较稳定和高效的。

hive 分区表分桶表详细介绍

张映发表于 2020-01-15

分类目录： hadoop/spark/scala

默认情况下，简单的HQL查询会扫描整个表。查询大表时，这会降低性能。可以通过创建分区来解决此问题。在Hive中，每个分区对应于预定义的分区列，这些分区列映射到HDFS中表的目录中的子目录。当查询表时，只读取表中所需的数据分区（目录），因此查询的I/O和时间大大减少。使用分区是提高Hive性能的一种非常简单有效的方法。

分类目录
- apache/nginx (36)
- cache (21)
- clickhouse (14)
- drupal (7)
- eclipse (8)
- elasticsearch (18)
- google (3)
- hadoop/spark/scala (96)
- html/css (12)
- java/android (14)
- linux (87)
- mariadb (2)
- mysql (74)
- nodejs/vue/js/jquery (72)
- nosql (39)
- oracle (9)
- pgsql (8)
- php (107)
- seo (16)
- shell (11)
- smarty (5)
- tidb (21)
- wordpress (13)
- 云计算 (22)
- 双眼看社会 (13)
- 技术其他 (41)
- 服务器相关 (136)
- 系统安全 (7)
最近文章
最近评论和留言
- banner 在 awk是命令还是编程语言上的评论
- lin 在 hadoop 查看 mr日志报错上的评论
- ccc 在 cdh hive 2.1.1 升级到 2.3.4 上的评论
- 简简单单在关于我上的评论
- www 在 clickhouse,tidb,mysql 读取速度对比上的评论
- zzq 在 mysql分表，分区的区别和联系上的评论
- Bill 在怎么在网上找到你要的信息上的评论
- 11 在留言板留言了
- Michael 在 canal 同步mysql数据到clickhouse 支持update delete truncate 上的评论
- 我兜里有糖在 linux postgresql 安装配置详解上的评论
登录
- 登录