2019 二月«海底苍鹰(tank)博客

2019年,2月存档

zookeeper 日志清理

张映发表于 2019-02-28

zookeeper服务器会产生三类日志：事务日志、快照日志和集群服务器运行日志。

在zookeeper默认配置文件zoo.cfg中有一个配置项dataDir，该配置项用于配置zookeeper快照日志和事务日志的存储地址。在官方提供的默认参考配置文件zoo_sample.cfg中，只有dataDir配置项。其实在实际应用中，还可以为事务日志专门配置存储地址，配置项名称为dataLogDir，在zoo_sample.cfg中并未体现出来。在没有dataLogDir配置项的时候，

zookeeper默认将事务日志文件和快照日志文件都存储在dataDir对应的目录下。建议将事务日志（dataLogDir）与快照日志（dataLog）单独配置，因为当zookeeper集群进行频繁的数据读写操作是，会产生大量的事务日志信息，将两类日志分开存储会提高系统性能，而且，可以允许将两类日志存在在不同的存储介质上，减少磁盘压力。

zookeeper集群服务器运行日志，该日志的配置地址在conf/目录下的log4j.properties文件中，该文件中有一个配置项为“zookeeper.log.dir=.”，表示log4j日志文件在与执行程序（zkServer.sh）在同一目录下。当执行zkServer.sh 时，在该文件夹下会产生zookeeper.out日志文件。下面主要介绍事务日志与快照日志。

阅读全文>>

spark-sql YARN application has exited unexpectedly with state FAILED! 解决

张映发表于 2019-02-26

分类目录： hadoop/spark/scala

sqark-sql登录进去后，过段时间就会自动退出。并且会报

2019-02-26 18:38:09 INFO SparkSQLCLIDriver:951 - Spark master: yarn, Application Id: application_1550658770519_0084
spark-sql>
>
> use 2019-02-26 18:38:32 ERROR YarnClientSchedulerBackend:70 - YARN application has exited unexpectedly with state FAILED! Check the YARN application logs for more details.，以前一直都没有出现过。

阅读全文>>

hive 导入 mysql文本

张映发表于 2019-02-26

分类目录： hadoop/spark/scala

数据量过大，mysql支持不了。mysql只是个临时方案，最终大数据搭建好了以后，还是需要把mysql的数据，导入到hadoop中。

阅读全文>>

hadoop hive 创建表的坑

张映发表于 2019-02-25

分类目录： hadoop/spark/scala

同事说spark-sql插入不了数据，读取数据可以。写会报以下错误

2019-02-20 19:12:40 INFO audit:371 - ugi=root ip=unknown-ip-addr cmd=get_table : db=dataall tbl=track_pc
Error in query: java.lang.IllegalArgumentException: Wrong FS: hdfs://aaaaa:9000/user/hive/warehouse/dataall.db/track_pc/.hive-staging_hive_2019-02-20_19-12-39_656_7771985312772642109-1/-ext-10000/part-00000-53761c78-6e3b-47e0-b203-57fba5f90856-c000, expected: hdfs://bbbbb;

hive读取数据，插入数据都可以。

阅读全文>>