‘hadoop/spark/scala’ 类别下的博文

张映 发表于 2019-09-24

分类目录: hadoop/spark/scala

在HBase中,namespace命名空间指对一组表的逻辑分组,类似关系型数据库中的database,方便对表在业务上划分。Apache HBase从0.98.0, 0.95.2两个版本开始支持namespace级别的授权操作,HBase全局管理员可以创建、修改和回收namespace的授权。

阅读全文>>

张映 发表于 2019-09-23

分类目录: hadoop/spark/scala

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

阅读全文>>

张映 发表于 2019-08-27

分类目录: hadoop/spark/scala

spark submit 执行完任务后,卡住了,不退出,找了各种日志,没有报错,并且任务执行的结果也是对的。

出现这个问题,感觉有点蒙,网上找找解决办法,全部不适用。下面详细说一下我的分析和解决过程

阅读全文>>

张映 发表于 2019-08-09

分类目录: hadoop/spark/scala

将多个相关的项目定义在一个构建中是很有用的,尤其是如果它们依赖另一个,而且你倾向于一起修改它们。
每个子项目在构建中都有它们自己的源文件夹,当打包时生成各自的 jar 文件,而且通常和其他的项目一样运转。

阅读全文>>

张映 发表于 2019-08-05

分类目录: hadoop/spark/scala

sbt功能很强大,也很灵活,但是灵活的代价就是比较复杂。

阅读全文>>

张映 发表于 2019-08-03

分类目录: hadoop/spark/scala

大数据开发,一直都用java spring boot框架,加载scala,spark,scala兼容包等,spark开发用scala,其他的开发用java,打包用mvn,感觉还是挺不错的。

如果只是开spark,scala就足够了,没必要在用spring boot。这样感觉不会那么怪。

阅读全文>>

张映 发表于 2019-08-03

分类目录: hadoop/spark/scala

安装IDEA就不说了,也很简单。在这里推荐做java和scala的人使用idea,真的比eclipse好用。

阅读全文>>

张映 发表于 2019-08-01

分类目录: hadoop/spark/scala

scala sbt 加载了spark包,DEBUG的时候报错了。

libraryDependencies ++= Seq(
    "org.apache.spark" % "spark-core_2.12" % "2.4.0",
    "org.apache.spark" % "spark-sql_2.12" % "2.4.0"
)

阅读全文>>

张映 发表于 2019-07-11

分类目录: hadoop/spark/scala

没找到合适spark sql的客户端,所以不能像navicat,heidisql等那样,可以把可视化数据导成csv,excel等。但是可以通过spark-shell导出数据。

阅读全文>>

张映 发表于 2019-05-15

分类目录: hadoop/spark/scala

spark申请资源时,报错了,如下

2019-05-15 10:15:15 INFO BlockManagerInfo:54 - Added broadcast_0_piece0 in memory on namenode1:37836 (size: 83.1 KB, free: 6.2 GB)
2019-05-15 10:15:15 INFO SparkContext:54 - Created broadcast 0 from broadcast at DAGScheduler.scala:1161
2019-05-15 10:15:15 INFO DAGScheduler:54 - Submitting 2 missing tasks from ResultStage 0 (MapPartitionsRDD[1] at sql at run.scala:132) (first 15 tasks are for partitions Vector(0, 1))
2019-05-15 10:15:15 INFO YarnScheduler:54 - Adding task set 0.0 with 2 tasks
2019-05-15 10:15:30 WARN YarnScheduler:66 - Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

提示已经很清楚了,资源不够。因资源不够报出来的错识,非常的多。以前写的博客里面有提到了一些。

阅读全文>>