‘hadoop/spark/scala’ 类别下的博文

张映 发表于 2019-08-27

分类目录: hadoop/spark/scala

spark submit 执行完任务后,卡住了,不退出,找了各种日志,没有报错,并且任务执行的结果也是对的。

出现这个问题,感觉有点蒙,网上找找解决办法,全部不适用。下面详细说一下我的分析和解决过程

阅读全文>>

张映 发表于 2019-08-09

分类目录: hadoop/spark/scala

将多个相关的项目定义在一个构建中是很有用的,尤其是如果它们依赖另一个,而且你倾向于一起修改它们。
每个子项目在构建中都有它们自己的源文件夹,当打包时生成各自的 jar 文件,而且通常和其他的项目一样运转。

阅读全文>>

张映 发表于 2019-08-05

分类目录: hadoop/spark/scala

sbt功能很强大,也很灵活,但是灵活的代价就是比较复杂。

阅读全文>>

张映 发表于 2019-08-03

分类目录: hadoop/spark/scala

大数据开发,一直都用java spring boot框架,加载scala,spark,scala兼容包等,spark开发用scala,其他的开发用java,打包用mvn,感觉还是挺不错的。

如果只是开spark,scala就足够了,没必要在用spring boot。这样感觉不会那么怪。

阅读全文>>

张映 发表于 2019-08-03

分类目录: hadoop/spark/scala

安装IDEA就不说了,也很简单。在这里推荐做java和scala的人使用idea,真的比eclipse好用。

阅读全文>>

张映 发表于 2019-08-01

分类目录: hadoop/spark/scala

scala sbt 加载了spark包,DEBUG的时候报错了。

libraryDependencies ++= Seq(
    "org.apache.spark" % "spark-core_2.12" % "2.4.0",
    "org.apache.spark" % "spark-sql_2.12" % "2.4.0"
)

阅读全文>>

张映 发表于 2019-07-11

分类目录: hadoop/spark/scala

没找到合适spark sql的客户端,所以不能像navicat,heidisql等那样,可以把可视化数据导成csv,excel等。但是可以通过spark-shell导出数据。

阅读全文>>

张映 发表于 2019-05-15

分类目录: hadoop/spark/scala

spark申请资源时,报错了,如下

2019-05-15 10:15:15 INFO BlockManagerInfo:54 - Added broadcast_0_piece0 in memory on namenode1:37836 (size: 83.1 KB, free: 6.2 GB)
2019-05-15 10:15:15 INFO SparkContext:54 - Created broadcast 0 from broadcast at DAGScheduler.scala:1161
2019-05-15 10:15:15 INFO DAGScheduler:54 - Submitting 2 missing tasks from ResultStage 0 (MapPartitionsRDD[1] at sql at run.scala:132) (first 15 tasks are for partitions Vector(0, 1))
2019-05-15 10:15:15 INFO YarnScheduler:54 - Adding task set 0.0 with 2 tasks
2019-05-15 10:15:30 WARN YarnScheduler:66 - Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

提示已经很清楚了,资源不够。因资源不够报出来的错识,非常的多。以前写的博客里面有提到了一些。

阅读全文>>

张映 发表于 2019-05-10

分类目录: hadoop/spark/scala

一个topic创建了几个partition,启动consumer的时候,只会消费一个partition,消费完了后,会把这个consumer给关闭掉。再启动consumer时,还是只会消费上次消费的那个partition。中间没有任何报错。

阅读全文>>

张映 发表于 2019-05-06

分类目录: hadoop/spark/scala

删除topic后,在重新创建相同名字的topic,报错了。下面总结一套,可行的方案。

阅读全文>>