张映 发表于 2020-04-02

分类目录: hadoop/spark/scala

在看这篇文章前,请先了解一下:

1,cdh6 flink 安装
2,flink on yarn 提交任务的二种方式
3,cdh hive 2.1.1 升级到 2.3.4

阅读全文>>

张映 发表于 2020-04-02

分类目录: hadoop/spark/scala

最近在玩flink,想让flink sql借用hive的元数据库。可是呢,flink sql能连hive的版本,到目前为止只有2个,hive 1.2.1和hive 2.3.4。

cdh6.3.1装的hive是2.1.1,所以不升级hive,flink sql根本用不了。

阅读全文>>

张映 发表于 2020-01-15

分类目录: hadoop/spark/scala

默认情况下,简单的HQL查询会扫描整个表。查询大表时,这会降低性能。可以通过创建分区来解决此问题。在Hive中,每个分区对应于预定义的分区列,这些分区列映射到HDFS中表的目录中的子目录。当查询表时,只读取表中所需的数据分区(目录),因此查询的I/O和时间大大减少。使用分区是提高Hive性能的一种非常简单有效的方法。

阅读全文>>

张映 发表于 2020-01-08

分类目录: hadoop/spark/scala

1,创建hbase表

阅读全文>>

张映 发表于 2020-01-02

分类目录: hadoop/spark/scala

在看本文前,请先阅读一下:scala spark sql 本地调试

本地spark连接远程hive,这样就可以不用自己造数据,或者从远程copy数据了。

阅读全文>>

张映 发表于 2019-12-16

分类目录: hadoop/spark/scala

当表数据以文本文件的形势,存放在hdfs上,不管是内部表,还是外部表,导入数据都是比较好操作的。直接通过hdfs命令直接copy到文件服务器上的对应目录就好了,注意hdfs目录的访问权限。

parquet也是可以这样操作的

阅读全文>>

张映 发表于 2019-11-07

分类目录: hadoop/spark/scala

Presto是一个运行在多台服务器上的分布式系统。 完整安装包括一个coordinator(调度节点)和多个worker。 由客户端提交查询,从Presto命令行CLI提交到coordinator。 coordinator进行解析,分析并执行查询计划,然后分发处理队列到worker中。

Presto通过使用分布式查询,可以快速高效的完成海量数据的查询。作为Hive和Pig的替代者,Presto不仅能访问HDFS,也能访问不同的数据源,包括:RDBMS和其他数据源(如Cassandra)。虽然Presto可以解析SQL,但它不是一个标准的数据库。不是MySQL、PostgreSQL或者Oracle的代替品,也不能用来处理在线事务(OLTP)

阅读全文>>

张映 发表于 2019-10-29

分类目录: hadoop/spark/scala

没有用cdh系列,但是又想用impala 3.3。安装impala有二种方式,一种源码安装,一种是rpm安装。impala早期版本,还可以设置yum源,进行安装。

不管是哪种方式安装,最终都是cdh中的impala

阅读全文>>

张映 发表于 2019-10-15

分类目录: hadoop/spark/scala

hbase通过scan和filter可以实现分页功能,网上已经有很多了。今天要说的是通过hivesql的形势来实现分页。

阅读全文>>

张映 发表于 2019-10-15

分类目录: hadoop/spark/scala

hbase可以进行亿级数据存储,查询数据用scan,get还是比较弱的,不支持sql查询,这就增加了数据分析人员的学习成本。hbase只提供了简单的基于Key值的快速查询能力,要进行复杂的查询功能,通过filter还是比较麻烦的。

不过hive与hbase的整合解决这个问题。不仅如此,还能通过hive将数据批量地导入到hbase中。在看本文前,请查看以下文章

centos7 hadoop 集群 安装配置

zookeeper hadoop 集群 安装配置

centos7 hadoop2.7.7 hbase1.4安装配置详解

hive mysql 安装配置

阅读全文>>