2020 一月«海底苍鹰(tank)博客

2020年,1月存档

cdh6 flink 安装

张映发表于 2020-01-21

分类目录： hadoop/spark/scala

flink可以做为批处理，也可以流处理的工具。功能根spark差不多，不过据说比spark强大。据说天猫双11，就用的这玩意。

phoenix 表增删改查

张映发表于 2020-01-20

分类目录： hadoop/spark/scala

phoenix对表的操作，看似根其他sql差不多，但是总感觉很变扭。特别是不加双引号默认大写，值必须用单引号。

cdh phoenix 安装配置

张映发表于 2020-01-19

分类目录： hadoop/spark/scala

phoenix是构建在Hbase之上，使用标准的SQL操作Hbase，可以做联机事务处理，拥有低延迟的特性。

cdh的安装，请参考：cloudera cdh 6.3 安装配置

impala可以整合Hbase，但是不支持delete，upsert。如果想要impala的delete,upsert，存储要用kudu。请参考：impala与hbase整合

hive可以整合Hbase，受限于hive自己的原因，和hbase并不能配合的很好。请参考：hive与hbase整合

hdfs 小文件合并问题

张映发表于 2020-01-17

分类目录： hadoop/spark/scala

玩过大数据的人，肯定都遇到过小文件问题。这也是玩大数据，必须跨过去的一个坎，要不然，大数据玩不转。

基于hadoop的大数据生态圈架构方案

张映发表于 2020-01-16

分类目录： hadoop/spark/scala

做大数据，时间挺长的了。基于hadoop的大数据生态圈，还是比较稳定和高效的。

hive 分区表分桶表详细介绍

张映发表于 2020-01-15

分类目录： hadoop/spark/scala

默认情况下，简单的HQL查询会扫描整个表。查询大表时，这会降低性能。可以通过创建分区来解决此问题。在Hive中，每个分区对应于预定义的分区列，这些分区列映射到HDFS中表的目录中的子目录。当查询表时，只读取表中所需的数据分区（目录），因此查询的I/O和时间大大减少。使用分区是提高Hive性能的一种非常简单有效的方法。

kudu hdfs 数据分层灵活存储

张映发表于 2020-01-14

分类目录： hadoop/spark/scala

网上购物，很多人只会看最近三个月，或者半年的订单，更早的历史订单就很少有人关注了。这种场景还是挺适合kudu+hdfs.

Apache Kudu旨在快速分析、快速变化的数据。Kudu提供快速插入/更新和高效列扫描的组合，以在单个存储层上实现多个实时分析工作负载。因此，Kudu非常适合作为存储需要实时查询的数据的仓库。此外，Kudu支持实时更新和删除行，以支持延迟到达的数据和数据更正。

Apache HDFS旨在以低成本实现无限的可扩展性。它针对数据不可变的面向批处理的场景进行了优化，与Apache Parquet文件格式配合使用时，可以以极高的吞吐量和效率访问结构化数据。

kudu存最近半年的订单数据，hdfs存历史的订单数据。

impala与hbase整合

张映发表于 2020-01-08

分类目录： hadoop/spark/scala

1，创建hbase表

impala kudu 创建表

张映发表于 2020-01-07

分类目录： hadoop/spark/scala

Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。cdh中impala和kudu做了深度整合，性能方面，还是不错的。

process information unavailable 解决办法

张映发表于 2020-01-06

分类目录： hadoop/spark/scala

cdh管理界面已经停止了所有服务，但是jps查看的时候，还是有很多进程。通过kill强制杀死后，又起来了。

分类目录
- apache/nginx (36)
- cache (21)
- clickhouse (14)
- drupal (7)
- eclipse (8)
- elasticsearch (18)
- google (3)
- hadoop/spark/scala (96)
- html/css (12)
- java/android (14)
- linux (87)
- mariadb (2)
- mysql (74)
- nodejs/vue/js/jquery (72)
- nosql (39)
- oracle (9)
- pgsql (8)
- php (107)
- seo (16)
- shell (11)
- smarty (5)
- tidb (21)
- wordpress (13)
- 云计算 (22)
- 双眼看社会 (13)
- 技术其他 (41)
- 服务器相关 (136)
- 系统安全 (7)
最近文章
最近评论和留言
- banner 在 awk是命令还是编程语言上的评论
- lin 在 hadoop 查看 mr日志报错上的评论
- ccc 在 cdh hive 2.1.1 升级到 2.3.4 上的评论
- 简简单单在关于我上的评论
- www 在 clickhouse,tidb,mysql 读取速度对比上的评论
- zzq 在 mysql分表，分区的区别和联系上的评论
- Bill 在怎么在网上找到你要的信息上的评论
- 11 在留言板留言了
- Michael 在 canal 同步mysql数据到clickhouse 支持update delete truncate 上的评论
- 我兜里有糖在 linux postgresql 安装配置详解上的评论
登录
- 登录