张映 发表于 2019-12-04

分类目录: hadoop/spark/scala

cloudera后台,显示,存在隐患 : 以下网络接口似乎未以全速运行:enp4s0。1 主机网络接口似乎以全速运行。

cloudera cdh6的测试机,都是公司淘汰下来的员工使用过的台式机,很差。硬件达不到要求。才会有上面的问题。然后不影响系统的使用,但是看着不舒服。

阅读全文>>

张映 发表于 2019-12-04

分类目录: hadoop/spark/scala

namenode ha肯定是要去做的。如果调度节点挂掉了,又没有备用节点的话,那整个大数据系统就等于挂掉了。

阅读全文>>

张映 发表于 2019-12-03

分类目录: hadoop/spark/scala

spark-sql常用的查询工具,速度比较hivesql要快。但是cdh6并没有spark-sql。

在看这篇文章前,先看:cdh 6 使用独立的 apache spark

阅读全文>>

张映 发表于 2019-11-29

分类目录: php, 云计算, 服务器相关

nextcloud网页端,视频和PDF是看不到缩略图的,只能通过名字和大小来区分,不是很方便。

阅读全文>>

张映 发表于 2019-11-28

分类目录: hadoop/spark/scala

这个问题是由什么引起的呢?如果集群中,有二个datanode,而有3个副本的话,就会出现这样的问题。

阅读全文>>

张映 发表于 2019-11-28

分类目录: java/android

用yum安装了openjdk,然后又想用oracle jdk。原来的openjdk,又不想丢,怎么办呢?

阅读全文>>

张映 发表于 2019-11-28

分类目录: hadoop/spark/scala

cdh在国内用的比较多。不管是cloudera+cdh或者是ambari+hdp,建议初学者不要用,还是从原生的开始。网上说原生的不稳定,配置复杂。

我用的hadoop2.7.7稳定,以及以hadoop2.7.7为基础构建的生态圈很稳定,在线率100%,到目前为止还没有出现过突发故障。

以hadoop为基础构建一套生态圈,是很复杂。但是拆分开了,采取蚂蚁搬家的方式,就简单多了。并且能了解各组件间是怎么协同工作的。

阅读全文>>

张映 发表于 2019-11-19

分类目录: hadoop/spark/scala

Apache Zeppelin 是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。

Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。

阅读全文>>

张映 发表于 2019-11-15

分类目录: hadoop/spark/scala

kylin的官方文档,做的感觉一般,写的不详细,并且有坑。

spark独立安装,并不想放到kylin文件下,spark的动态资源管理,早已配置,不需要用到kylin动态资源配置参数,为啥没有单独的呢。

阅读全文>>

张映 发表于 2019-11-14

分类目录: 云计算, 服务器相关

当从硬盘copy 10T的数据到nextcloud的时候,copy到data目录下,web端是看不到的。因为copy的文件,在数据库里面没有记录的。

阅读全文>>