hadoop/spark/scala«海底苍鹰(tank)博客

‘hadoop/spark/scala’ 类别下的博文

kudu hdfs 数据分层灵活存储

张映发表于 2020-01-14

网上购物，很多人只会看最近三个月，或者半年的订单，更早的历史订单就很少有人关注了。这种场景还是挺适合kudu+hdfs.

Apache Kudu旨在快速分析、快速变化的数据。Kudu提供快速插入/更新和高效列扫描的组合，以在单个存储层上实现多个实时分析工作负载。因此，Kudu非常适合作为存储需要实时查询的数据的仓库。此外，Kudu支持实时更新和删除行，以支持延迟到达的数据和数据更正。

Apache HDFS旨在以低成本实现无限的可扩展性。它针对数据不可变的面向批处理的场景进行了优化，与Apache Parquet文件格式配合使用时，可以以极高的吞吐量和效率访问结构化数据。

kudu存最近半年的订单数据，hdfs存历史的订单数据。

阅读全文>>

impala与hbase整合

张映发表于 2020-01-08

分类目录： hadoop/spark/scala

1，创建hbase表

阅读全文>>

impala kudu 创建表

张映发表于 2020-01-07

分类目录： hadoop/spark/scala

Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。cdh中impala和kudu做了深度整合，性能方面，还是不错的。

阅读全文>>

process information unavailable 解决办法

张映发表于 2020-01-06

分类目录： hadoop/spark/scala

cdh管理界面已经停止了所有服务，但是jps查看的时候，还是有很多进程。通过kill强制杀死后，又起来了。

阅读全文>>

spark 连接远程hive调试 namenode 做了ha

张映发表于 2020-01-03

分类目录： hadoop/spark/scala

关于spark debug的文件，算上这篇，已有4篇了，总结一下：

1，spark本地开发，元数据库，数据存储都在开发机。请参考：scala spark sql 本地调试

2，spark连接远程hive，单namenode。请参考：spark 连接远程hive调试的3种方法

3，spark远程调试。请参考：idea 2步配置远程调试spark

阅读全文>>

spark 连接远程hive调试的3种方法

张映发表于 2020-01-02

分类目录： hadoop/spark/scala

在看本文前，请先阅读一下：scala spark sql 本地调试

本地spark连接远程hive，这样就可以不用自己造数据，或者从远程copy数据了。

阅读全文>>

scala spark sql 本地调试

张映发表于 2020-01-02

分类目录： hadoop/spark/scala

对于习惯了sql的开发同学来说，写sql肯定比较用map，filter内在算法因子要顺手的多。

阅读全文>>

大数据开发本地debug 二种方式对比

张映发表于 2019-12-30

分类目录： hadoop/spark/scala

大数据开发的debug，根一般开发的debug是有所不同的，下面会说一下本地debug的方法。关于远程的debug，请参考：idea 2步配置远程调试spark

阅读全文>>

cdh6 apache spark 重新编译

张映发表于 2019-12-28

分类目录： hadoop/spark/scala

1，下载spark

# git clone https://github.com/apache/spark.git
# git checkout branch-2.4

阅读全文>>

cdh 6 使用独立的 apache spark

张映发表于 2019-12-27

分类目录： hadoop/spark/scala

cdh6默认没有spark-sql，对于开发来说，有没有spark-sql都不重要，建议开发者，尽量少用sql语句。而对于数据分析人员来说，hive sql较慢，spark-sql还是比较合适的。

cdh6的安装，请参考：cloudera cdh 6.3 安装配置

阅读全文>>

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站

关于我

留言板

开发手册

linux命令

首页

‘hadoop/spark/scala’ 类别下的博文

kudu hdfs 数据分层灵活存储

impala与hbase整合

impala kudu 创建表

process information unavailable 解决办法

spark 连接远程hive调试 namenode 做了ha

spark 连接远程hive调试的3种方法

scala spark sql 本地调试

大数据开发本地debug 二种方式对比

cdh6 apache spark 重新编译

cdh 6 使用独立的 apache spark

分类目录

最近文章

最近评论和留言

登录