kafka topic的partitions为1时,存取的数据,只会在kafka集群中的一台机器上面,时间一长,必然会造成,资源不均衡。
2019年,4月存档
auto.offset.reset关乎kafka数据的读取,是一个非常重要的设置。常用的二个值是latest和earliest,默认是latest。
如果实时的从kafka取数据,通过spark入hdfs,会产生很多的task,在hdfs上会产生非常多的小文件。浪费硬盘空间不说,在用spark进行数据分析的时间,非常耗spark节点的内存。
最好不要实时的入库,间断去运行。这样会尽量减少小文件的产生。但是不能根本上解决小问题,最终还是通过CombineFileInputFormat来解决,这个后面的文章,会单独说。
producter生产消息,基本上没有出现过问题,但是consumer遇到了不少问题。用是kafka2系列。
利用akka包来做scala的定时任务,便是打包时报以下错误:
Exception in thread "main" java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V
at akka.util.Timeout.<init>(Timeout.scala:13)
at akka.actor.ActorSystem$Settings.<init>(ActorSystem.scala:327)
at akka.actor.ActorSystemImpl.<init>(ActorSystem.scala:651)
at akka.actor.ActorSystem$.apply(ActorSystem.scala:244)
at akka.actor.ActorSystem$.apply(ActorSystem.scala:287)
at akka.actor.ActorSystem$.apply(ActorSystem.scala:232)
at netjoy.spark_sql.track_pc.run$.main(run.scala:30)
at netjoy.spark_sql.track_pc.run.main(run.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)
at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:849)
at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:167)
at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:195)
at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:86)
at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:924)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:933)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
scala启动多个sparkcontext时,发现启动不起来。查看Applications任务时,发现Memory Total和Memory Used一样了。
jenkins对于发代码,还是比较方便的,不管是Php,python,java,vue等都可以发布,可以减少运维成本,并且能很好的管理权限。
pm2是一个带有负载均衡功能的 Node 应用的进程管理器。对于node的管理,还是比较方便的。