hive«海底苍鹰(tank)博客

默认情况下，简单的HQL查询会扫描整个表。查询大表时，这会降低性能。可以通过创建分区来解决此问题。在Hive中，每个分区对应于预定义的分区列，这些分区列映射到HDFS中表的目录中的子目录。当查询表时，只读取表中所需的数据分区（目录），因此查询的I/O和时间大大减少。使用分区是提高Hive性能的一种非常简单有效的方法。

阅读全文>>

impala与hbase整合

张映发表于 2020-01-08

分类目录： hadoop/spark/scala

1，创建hbase表

阅读全文>>

spark 连接远程hive调试的3种方法

张映发表于 2020-01-02

分类目录： hadoop/spark/scala

在看本文前，请先阅读一下：scala spark sql 本地调试

本地spark连接远程hive，这样就可以不用自己造数据，或者从远程copy数据了。

阅读全文>>

导入parquet文件到表中

张映发表于 2019-12-16

分类目录： hadoop/spark/scala

当表数据以文本文件的形势，存放在hdfs上，不管是内部表，还是外部表，导入数据都是比较好操作的。直接通过hdfs命令直接copy到文件服务器上的对应目录就好了，注意hdfs目录的访问权限。

parquet也是可以这样操作的

阅读全文>>

presto集群安装整合hive

张映发表于 2019-11-07

分类目录： hadoop/spark/scala

Presto是一个运行在多台服务器上的分布式系统。完整安装包括一个coordinator（调度节点）和多个worker。由客户端提交查询，从Presto命令行CLI提交到coordinator。 coordinator进行解析，分析并执行查询计划，然后分发处理队列到worker中。

Presto通过使用分布式查询，可以快速高效的完成海量数据的查询。作为Hive和Pig的替代者，Presto不仅能访问HDFS，也能访问不同的数据源，包括：RDBMS和其他数据源（如Cassandra）。虽然Presto可以解析SQL，但它不是一个标准的数据库。不是MySQL、PostgreSQL或者Oracle的代替品，也不能用来处理在线事务（OLTP）

阅读全文>>