张映 发表于 2019-02-26

分类目录: hadoop/spark

数据量过大,mysql支持不了。mysql只是个临时方案,最终大数据搭建好了以后,还是需要把mysql的数据,导入到hadoop中。

阅读全文>>

张映 发表于 2019-02-25

分类目录: hadoop/spark

同事说spark-sql插入不了数据,读取数据可以。写会报以下错误

2019-02-20 19:12:40 INFO audit:371 - ugi=root ip=unknown-ip-addr cmd=get_table : db=dataall tbl=track_pc
Error in query: java.lang.IllegalArgumentException: Wrong FS: hdfs://aaaaa:9000/user/hive/warehouse/dataall.db/track_pc/.hive-staging_hive_2019-02-20_19-12-39_656_7771985312772642109-1/-ext-10000/part-00000-53761c78-6e3b-47e0-b203-57fba5f90856-c000, expected: hdfs://bbbbb;

hive读取数据,插入数据都可以。

阅读全文>>

张映 发表于 2019-02-19

分类目录: hadoop/spark

mysql的数据库数据过大,做数据分析,需要从mysql转向hadoop。

阅读全文>>

张映 发表于 2019-02-12

分类目录: java/android

用了十几年的eclipse了, java现在主要用idea,转的过程中,也没感觉有什么不适应。推荐大家使用idea。idea的热部署根eclipse差不多,除了ide配置不同外。

阅读全文>>

张映 发表于 2019-01-28

分类目录: hadoop/spark

kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。

阅读全文>>

张映 发表于 2019-01-25

分类目录: hadoop/spark

namenode是hadoop的核心,如果namenode宕机,整个hadoop都会挂掉。

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

阅读全文>>

张映 发表于 2019-01-15

分类目录: java/android

关于开机启动,其实有很多办法,例如:chkconfig,systemctl,supervisord等。

阅读全文>>

张映 发表于 2019-01-15

分类目录: hadoop/spark

通过sql的方式,读取数据,根我们常用的关系型数据库差不多,更容易上手,当然没有updata和delete。

阅读全文>>

张映 发表于 2019-01-11

分类目录: nodejs/vue/js/jquery

vue前端框架,就不多说了

ssr,最近很热的词,意为 Server Side Rendering(服务端渲染),目的是为了解决单页面应用的 SEO 的问题,对于一般网站影响不大,但是对于论坛类,内容类网站来说是致命的,搜索引擎无法抓取页面相关内容,也就是用户搜不到此网站的相关信息。

阅读全文>>

张映 发表于 2019-01-09

分类目录: hadoop/spark

hive和spark sql 默认用的都是derby,上篇文章说了,hive怎么使用mysql做为元数据库

spark sql使用hive的配置来连接mysql,配置下来挺简单的,并且不需要启动hive

阅读全文>>