2019 四月«海底苍鹰(tank)博客

2019年,4月存档

kafka 修改topic partitions

张映发表于 2019-04-29

分类目录： hadoop/spark/scala

kafka topic的partitions为1时，存取的数据，只会在kafka集群中的一台机器上面，时间一长，必然会造成，资源不均衡。

kafka auto.offset.reset latest earliest 详解

张映发表于 2019-04-28

分类目录： hadoop/spark/scala

auto.offset.reset关乎kafka数据的读取，是一个非常重要的设置。常用的二个值是latest和earliest，默认是latest。

spark kafka consumer 消费数据的二种方式

张映发表于 2019-04-28

分类目录： hadoop/spark/scala

如果实时的从kafka取数据，通过spark入hdfs，会产生很多的task，在hdfs上会产生非常多的小文件。浪费硬盘空间不说，在用spark进行数据分析的时间，非常耗spark节点的内存。

最好不要实时的入库，间断去运行。这样会尽量减少小文件的产生。但是不能根本上解决小问题，最终还是通过CombineFileInputFormat来解决，这个后面的文章，会单独说。

kafka consumer 参数调优

张映发表于 2019-04-26

分类目录： hadoop/spark/scala

producter生产消息，基本上没有出现过问题，但是consumer遇到了不少问题。用是kafka2系列。

scala akka 打包报错

张映发表于 2019-04-25

分类目录： hadoop/spark/scala

利用akka包来做scala的定时任务，便是打包时报以下错误：

Exception in thread "main" java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V
at akka.util.Timeout.<init>(Timeout.scala:13)
at akka.actor.ActorSystem$Settings.<init>(ActorSystem.scala:327)
at akka.actor.ActorSystemImpl.<init>(ActorSystem.scala:651)
at akka.actor.ActorSystem$.apply(ActorSystem.scala:244)
at akka.actor.ActorSystem$.apply(ActorSystem.scala:287)
at akka.actor.ActorSystem$.apply(ActorSystem.scala:232)
at netjoy.spark_sql.track_pc.run$.main(run.scala:30)
at netjoy.spark_sql.track_pc.run.main(run.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)
at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:849)
at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:167)
at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:195)
at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:86)
at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:924)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:933)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

spark Container killed on request. Exit code is 143 解决办法

张映发表于 2019-04-25

分类目录： hadoop/spark/scala

scala启动多个sparkcontext时，发现启动不起来。查看Applications任务时，发现Memory Total和Memory Used一样了。

jenkins 创建用户组分配权限

张映发表于 2019-04-04

分类目录：服务器相关

jenkins对于发代码，还是比较方便的，不管是Php，python，java，vue等都可以发布，可以减少运维成本，并且能很好的管理权限。

pm2 启动ssr 失败

张映发表于 2019-04-02

分类目录： nodejs/vue/js/jquery

pm2是一个带有负载均衡功能的 Node 应用的进程管理器。对于node的管理，还是比较方便的。

分类目录
- apache/nginx (36)
- cache (21)
- clickhouse (14)
- drupal (7)
- eclipse (8)
- elasticsearch (18)
- google (3)
- hadoop/spark/scala (96)
- html/css (12)
- java/android (14)
- linux (87)
- mariadb (2)
- mysql (74)
- nodejs/vue/js/jquery (72)
- nosql (39)
- oracle (9)
- pgsql (8)
- php (107)
- seo (16)
- shell (11)
- smarty (5)
- tidb (21)
- wordpress (13)
- 云计算 (22)
- 双眼看社会 (13)
- 技术其他 (41)
- 服务器相关 (136)
- 系统安全 (7)
最近文章
最近评论和留言
- banner 在 awk是命令还是编程语言上的评论
- lin 在 hadoop 查看 mr日志报错上的评论
- ccc 在 cdh hive 2.1.1 升级到 2.3.4 上的评论
- 简简单单在关于我上的评论
- www 在 clickhouse,tidb,mysql 读取速度对比上的评论
- zzq 在 mysql分表，分区的区别和联系上的评论
- Bill 在怎么在网上找到你要的信息上的评论
- 11 在留言板留言了
- Michael 在 canal 同步mysql数据到clickhouse 支持update delete truncate 上的评论
- 我兜里有糖在 linux postgresql 安装配置详解上的评论
登录
- 登录