张映 发表于 2019-05-15

分类目录: hadoop/spark

spark申请资源时,报错了,如下

2019-05-15 10:15:15 INFO BlockManagerInfo:54 - Added broadcast_0_piece0 in memory on namenode1:37836 (size: 83.1 KB, free: 6.2 GB)
2019-05-15 10:15:15 INFO SparkContext:54 - Created broadcast 0 from broadcast at DAGScheduler.scala:1161
2019-05-15 10:15:15 INFO DAGScheduler:54 - Submitting 2 missing tasks from ResultStage 0 (MapPartitionsRDD[1] at sql at run.scala:132) (first 15 tasks are for partitions Vector(0, 1))
2019-05-15 10:15:15 INFO YarnScheduler:54 - Adding task set 0.0 with 2 tasks
2019-05-15 10:15:30 WARN YarnScheduler:66 - Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

提示已经很清楚了,资源不够。因资源不够报出来的错识,非常的多。以前写的博客里面有提到了一些。

阅读全文>>

张映 发表于 2019-05-06

分类目录: hadoop/spark

元数据换成mysql,请参考:hive mysql 安装配置,spark从kafka读取数据后,入库hdfs时,会连接mysql元数据库,spark采用的是长连接,当spark关闭时,连接会处于睡眠状态。长时间不处理,mysql的连接数就会被占满。

阅读全文>>

张映 发表于 2019-04-25

分类目录: hadoop/spark

scala启动多个sparkcontext时,发现启动不起来。查看Applications任务时,发现Memory Total和Memory Used一样了。

阅读全文>>

张映 发表于 2019-03-21

分类目录: hadoop/spark

Spark支持Yarn,Mesos,Standalone三种集群部署模式,它们的共同点:Master服务(Yarn ResourceManager,Mesos master,Spark standalone)来决定哪些应用可以运行以及在哪什么时候运行,Slave服务(Yarn NodeManger)运行在每个节点上,节点上实际运行着Executor进程,此外还监控着它们的运行状态以及资源的消耗

Spark On Yarn模式,又分cluster和client模式。cluster和client的最大区别在于,driver运行在哪里。

阅读全文>>

张映 发表于 2019-03-12

分类目录: hadoop/spark

spark-submit提交包是在服务器上,本地开发环境没有spark-submit。如果想要本地debug远程的spark,用idea很简单就可以实现。

阅读全文>>

张映 发表于 2019-02-26

分类目录: hadoop/spark

sqark-sql登录进去后,过段时间就会自动退出。并且会报

2019-02-26 18:38:09 INFO SparkSQLCLIDriver:951 - Spark master: yarn, Application Id: application_1550658770519_0084
spark-sql>
>
> use 2019-02-26 18:38:32 ERROR YarnClientSchedulerBackend:70 - YARN application has exited unexpectedly with state FAILED! Check the YARN application logs for more details.,以前一直都没有出现过。

阅读全文>>

张映 发表于 2019-02-25

分类目录: hadoop/spark

同事说spark-sql插入不了数据,读取数据可以。写会报以下错误

2019-02-20 19:12:40 INFO audit:371 - ugi=root ip=unknown-ip-addr cmd=get_table : db=dataall tbl=track_pc
Error in query: java.lang.IllegalArgumentException: Wrong FS: hdfs://aaaaa:9000/user/hive/warehouse/dataall.db/track_pc/.hive-staging_hive_2019-02-20_19-12-39_656_7771985312772642109-1/-ext-10000/part-00000-53761c78-6e3b-47e0-b203-57fba5f90856-c000, expected: hdfs://bbbbb;

hive读取数据,插入数据都可以。

阅读全文>>

张映 发表于 2019-01-15

分类目录: hadoop/spark

通过sql的方式,读取数据,根我们常用的关系型数据库差不多,更容易上手,当然没有updata和delete。

阅读全文>>

张映 发表于 2019-01-09

分类目录: hadoop/spark

hive和spark sql 默认用的都是derby,上篇文章说了,hive怎么使用mysql做为元数据库

spark sql使用hive的配置来连接mysql,配置下来挺简单的,并且不需要启动hive

阅读全文>>

张映 发表于 2019-01-07

分类目录: hadoop/spark

spark-sql是spark的一个核心组件,可以实现简单的关系型数据库操作。

阅读全文>>