张映 发表于 2019-11-15

分类目录: hadoop/spark/scala

kylin的官方文档,做的感觉一般,写的不详细,并且有坑。

spark独立安装,并不想放到kylin文件下,spark的动态资源管理,早已配置,不需要用到kylin动态资源配置参数,为啥没有单独的呢。

阅读全文>>

张映 发表于 2019-11-14

分类目录: 服务器相关

当从硬盘copy 10T的数据到nextcloud的时候,copy到data目录下,web端是看不到的。因为copy的文件,在数据库里面没有记录的。

阅读全文>>

张映 发表于 2019-11-13

分类目录: linux

好长时间没有,centos挂U盘或者移动硬盘。但是有的时候,也是需要用到的。例如:短时间内把10T的视频从一台服务器迁到另外一台服务器,最便捷快速的方式,用usb3.0的移动硬盘了。

阅读全文>>

张映 发表于 2019-11-13

分类目录: hadoop/spark/scala

Apache Kylin不同于“大规模并行处理”(Massive Parallel Processing,MPP)架构的Hive、Presto等,Apache Kylin采用“预计算”的模式,用户只需要提前定义好查询维度,Kylin将帮助我们进行计算,并将结果存储到HBase中,为海量数据的查询和分析提供亚秒级返回,是一种典型的“空间换时间”的解决方案。Apache Kylin的出现不仅很好地解决了海量数据快速查询的问题,也避免了手动开发和维护提前计算程序带来的一系列麻烦。

说的更直白一点就是查询数据不查原始表,查结果表。

阅读全文>>

张映 发表于 2019-11-11

分类目录: linux

git  reset --hard,版本回去某到某一版本,对本机的版本产生影响,不对远程分支产生影响。

git revert,撤销某一个,或者连续的多个版本,会对远程分支产生影响。这根git reset反思想的。

git stash,保存当前状态,可以理解成存档,用在切换分支时,又不想commit当前分支时使用。

git restore,单纯的撤销

阅读全文>>

张映 发表于 2019-11-08

分类目录: hadoop/spark/scala

hbase的master的备份机,启动不了了。报以下错误:

2019-11-08 10:19:51,950 ERROR [main] zookeeper.RecoverableZooKeeper: ZooKeeper create failed after 4 attempts
2019-11-08 10:19:52,820 INFO [main] zookeeper.ZooKeeper: Session: 0x0 closed
2019-11-08 10:19:52,820 ERROR [main] master.HMasterCommandLine: Master exiting

阅读全文>>

张映 发表于 2019-11-07

分类目录: hadoop/spark/scala

Presto是一个运行在多台服务器上的分布式系统。 完整安装包括一个coordinator(调度节点)和多个worker。 由客户端提交查询,从Presto命令行CLI提交到coordinator。 coordinator进行解析,分析并执行查询计划,然后分发处理队列到worker中。

Presto通过使用分布式查询,可以快速高效的完成海量数据的查询。作为Hive和Pig的替代者,Presto不仅能访问HDFS,也能访问不同的数据源,包括:RDBMS和其他数据源(如Cassandra)。虽然Presto可以解析SQL,但它不是一个标准的数据库。不是MySQL、PostgreSQL或者Oracle的代替品,也不能用来处理在线事务(OLTP)

阅读全文>>

张映 发表于 2019-10-30

分类目录: linux

通过webdav进行网络磁盘映射后,发现windows系统copy文件报错,而mac就不会

提示:0x800700DF: 文件大小超过允许的限制,无法保存

阅读全文>>

张映 发表于 2019-10-29

分类目录: hadoop/spark/scala

没有用cdh系列,但是又想用impala 3.3。安装impala有二种方式,一种源码安装,一种是rpm安装。impala早期版本,还可以设置yum源,进行安装。

不管是哪种方式安装,最终都是cdh中的impala

阅读全文>>

张映 发表于 2019-10-24

分类目录: hadoop/spark/scala

不同的模式运行spark,动态资源分配的配置是不一样的,本文的模式是spark on  yarn。

动态资源分配的意思是,需要的时候拿资源,不需要的时候,归还资源。

优点提高资源的利用率,还有不需要像静态模式那样,根据cpu数,内存数,指定Executor内存数,去算Executor了。

阅读全文>>