张映 发表于 2020-01-14

分类目录: hadoop/spark/scala

网上购物,很多人只会看最近三个月,或者半年的订单,更早的历史订单就很少有人关注了。这种场景还是挺适合kudu+hdfs.

Apache Kudu旨在快速分析、快速变化的数据。Kudu提供快速插入/更新和高效列扫描的组合,以在单个存储层上实现多个实时分析工作负载。因此,Kudu非常适合作为存储需要实时查询的数据的仓库。此外,Kudu支持实时更新和删除行,以支持延迟到达的数据和数据更正。

Apache HDFS旨在以低成本实现无限的可扩展性。它针对数据不可变的面向批处理的场景进行了优化,与Apache Parquet文件格式配合使用时,可以以极高的吞吐量和效率访问结构化数据。

kudu存最近半年的订单数据,hdfs存历史的订单数据。

阅读全文>>

张映 发表于 2020-01-08

分类目录: hadoop/spark/scala

1,创建hbase表

阅读全文>>

张映 发表于 2020-01-07

分类目录: hadoop/spark/scala

Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。cdh中impala和kudu做了深度整合,性能方面,还是不错的。

阅读全文>>

张映 发表于 2019-10-29

分类目录: hadoop/spark/scala

没有用cdh系列,但是又想用impala 3.3。安装impala有二种方式,一种源码安装,一种是rpm安装。impala早期版本,还可以设置yum源,进行安装。

不管是哪种方式安装,最终都是cdh中的impala

阅读全文>>