张映 发表于 2020-01-15

分类目录: hadoop/spark/scala

默认情况下,简单的HQL查询会扫描整个表。查询大表时,这会降低性能。可以通过创建分区来解决此问题。在Hive中,每个分区对应于预定义的分区列,这些分区列映射到HDFS中表的目录中的子目录。当查询表时,只读取表中所需的数据分区(目录),因此查询的I/O和时间大大减少。使用分区是提高Hive性能的一种非常简单有效的方法。

阅读全文>>

张映 发表于 2020-01-08

分类目录: hadoop/spark/scala

1,创建hbase表

阅读全文>>

张映 发表于 2020-01-02

分类目录: hadoop/spark/scala

在看本文前,请先阅读一下:scala spark sql 本地调试

本地spark连接远程hive,这样就可以不用自己造数据,或者从远程copy数据了。

阅读全文>>

张映 发表于 2019-12-16

分类目录: hadoop/spark/scala

当表数据以文本文件的形势,存放在hdfs上,不管是内部表,还是外部表,导入数据都是比较好操作的。直接通过hdfs命令直接copy到文件服务器上的对应目录就好了,注意hdfs目录的访问权限。

parquet也是可以这样操作的

阅读全文>>

张映 发表于 2019-11-07

分类目录: hadoop/spark/scala

Presto是一个运行在多台服务器上的分布式系统。 完整安装包括一个coordinator(调度节点)和多个worker。 由客户端提交查询,从Presto命令行CLI提交到coordinator。 coordinator进行解析,分析并执行查询计划,然后分发处理队列到worker中。

Presto通过使用分布式查询,可以快速高效的完成海量数据的查询。作为Hive和Pig的替代者,Presto不仅能访问HDFS,也能访问不同的数据源,包括:RDBMS和其他数据源(如Cassandra)。虽然Presto可以解析SQL,但它不是一个标准的数据库。不是MySQL、PostgreSQL或者Oracle的代替品,也不能用来处理在线事务(OLTP)

阅读全文>>

张映 发表于 2019-10-29

分类目录: hadoop/spark/scala

没有用cdh系列,但是又想用impala 3.3。安装impala有二种方式,一种源码安装,一种是rpm安装。impala早期版本,还可以设置yum源,进行安装。

不管是哪种方式安装,最终都是cdh中的impala

阅读全文>>

张映 发表于 2019-10-15

分类目录: hadoop/spark/scala

hbase通过scan和filter可以实现分页功能,网上已经有很多了。今天要说的是通过hivesql的形势来实现分页。

阅读全文>>

张映 发表于 2019-10-15

分类目录: hadoop/spark/scala

hbase可以进行亿级数据存储,查询数据用scan,get还是比较弱的,不支持sql查询,这就增加了数据分析人员的学习成本。hbase只提供了简单的基于Key值的快速查询能力,要进行复杂的查询功能,通过filter还是比较麻烦的。

不过hive与hbase的整合解决这个问题。不仅如此,还能通过hive将数据批量地导入到hbase中。在看本文前,请查看以下文章

centos7 hadoop 集群 安装配置

zookeeper hadoop 集群 安装配置

centos7 hadoop2.7.7 hbase1.4安装配置详解

hive mysql 安装配置

阅读全文>>

张映 发表于 2019-05-06

分类目录: hadoop/spark/scala

元数据换成mysql,请参考:hive mysql 安装配置,spark从kafka读取数据后,入库hdfs时,会连接mysql元数据库,spark采用的是长连接,当spark关闭时,连接会处于睡眠状态。长时间不处理,mysql的连接数就会被占满。

阅读全文>>

张映 发表于 2019-03-20

分类目录: hadoop/spark/scala

如果表多,字段多,通过命令行查看就不方便了。连hive推荐使用,DbVisualizer配置还是挺简单的。

阅读全文>>