网上购物,很多人只会看最近三个月,或者半年的订单,更早的历史订单就很少有人关注了。这种场景还是挺适合kudu+hdfs.
Apache Kudu旨在快速分析、快速变化的数据。Kudu提供快速插入/更新和高效列扫描的组合,以在单个存储层上实现多个实时分析工作负载。因此,Kudu非常适合作为存储需要实时查询的数据的仓库。此外,Kudu支持实时更新和删除行,以支持延迟到达的数据和数据更正。
Apache HDFS旨在以低成本实现无限的可扩展性。它针对数据不可变的面向批处理的场景进行了优化,与Apache Parquet文件格式配合使用时,可以以极高的吞吐量和效率访问结构化数据。
kudu存最近半年的订单数据,hdfs存历史的订单数据。
阅读全文>>
Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。cdh中impala和kudu做了深度整合,性能方面,还是不错的。
阅读全文>>
cdh管理界面已经停止了所有服务,但是jps查看的时候,还是有很多进程。通过kill强制杀死后,又起来了。
阅读全文>>
关于spark debug的文件,算上这篇,已有4篇了,总结一下:
1,spark本地开发,元数据库,数据存储都在开发机。请参考:scala spark sql 本地调试
2,spark连接远程hive,单namenode。请参考:spark 连接远程hive调试的3种方法
3,spark远程调试。请参考:idea 2步配置 远程调试spark
阅读全文>>
在看本文前,请先阅读一下:scala spark sql 本地调试
本地spark连接远程hive,这样就可以不用自己造数据,或者从远程copy数据了。
阅读全文>>
对于习惯了sql的开发同学来说,写sql肯定比较用map,filter内在算法因子要顺手的多。
阅读全文>>
大数据开发的debug,根一般开发的debug是有所不同的,下面会说一下本地debug的方法。关于远程的debug,请参考:idea 2步配置 远程调试spark
阅读全文>>
1,下载spark
# git clone https://github.com/apache/spark.git
# git checkout branch-2.4
阅读全文>>
cdh6默认没有spark-sql,对于开发来说,有没有spark-sql都不重要,建议开发者,尽量少用sql语句。而对于数据分析人员来说,hive sql较慢,spark-sql还是比较合适的。
cdh6的安装,请参考:cloudera cdh 6.3 安装配置
阅读全文>>