2020年,1月存档

张映 发表于 2020-01-21

分类目录: hadoop/spark/scala

flink可以做为批处理,也可以流处理的工具。功能根spark差不多,不过据说比spark强大。据说天猫双11,就用的这玩意。

阅读全文>>

张映 发表于 2020-01-20

分类目录: hadoop/spark/scala

phoenix对表的操作,看似根其他sql差不多,但是总感觉很变扭。特别是不加双引号默认大写,值必须用单引号。

阅读全文>>

张映 发表于 2020-01-19

分类目录: hadoop/spark/scala

phoenix是构建在Hbase之上,使用标准的SQL操作Hbase,可以做联机事务处理,拥有低延迟的特性。

cdh的安装,请参考:cloudera cdh 6.3 安装配置

impala可以整合Hbase,但是不支持delete,upsert。如果想要impala的delete,upsert,存储要用kudu。请参考:impala与hbase整合

hive可以整合Hbase,受限于hive自己的原因,和hbase并不能配合的很好。请参考:hive与hbase整合

阅读全文>>

张映 发表于 2020-01-17

分类目录: hadoop/spark/scala

玩过大数据的人,肯定都遇到过小文件问题。这也是玩大数据,必须跨过去的一个坎,要不然,大数据玩不转。

阅读全文>>

张映 发表于 2020-01-16

分类目录: hadoop/spark/scala

做大数据,时间挺长的了。基于hadoop的大数据生态圈,还是比较稳定和高效的。

阅读全文>>

张映 发表于 2020-01-15

分类目录: hadoop/spark/scala

默认情况下,简单的HQL查询会扫描整个表。查询大表时,这会降低性能。可以通过创建分区来解决此问题。在Hive中,每个分区对应于预定义的分区列,这些分区列映射到HDFS中表的目录中的子目录。当查询表时,只读取表中所需的数据分区(目录),因此查询的I/O和时间大大减少。使用分区是提高Hive性能的一种非常简单有效的方法。

阅读全文>>

张映 发表于 2020-01-14

分类目录: hadoop/spark/scala

网上购物,很多人只会看最近三个月,或者半年的订单,更早的历史订单就很少有人关注了。这种场景还是挺适合kudu+hdfs.

Apache Kudu旨在快速分析、快速变化的数据。Kudu提供快速插入/更新和高效列扫描的组合,以在单个存储层上实现多个实时分析工作负载。因此,Kudu非常适合作为存储需要实时查询的数据的仓库。此外,Kudu支持实时更新和删除行,以支持延迟到达的数据和数据更正。

Apache HDFS旨在以低成本实现无限的可扩展性。它针对数据不可变的面向批处理的场景进行了优化,与Apache Parquet文件格式配合使用时,可以以极高的吞吐量和效率访问结构化数据。

kudu存最近半年的订单数据,hdfs存历史的订单数据。

阅读全文>>

张映 发表于 2020-01-08

分类目录: hadoop/spark/scala

1,创建hbase表

阅读全文>>

张映 发表于 2020-01-07

分类目录: hadoop/spark/scala

Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。cdh中impala和kudu做了深度整合,性能方面,还是不错的。

阅读全文>>

张映 发表于 2020-01-06

分类目录: hadoop/spark/scala

cdh管理界面已经停止了所有服务,但是jps查看的时候,还是有很多进程。通过kill强制杀死后,又起来了。

阅读全文>>