张映 发表于 2019-12-30

分类目录: hadoop/spark/scala

大数据开发的debug,根一般开发的debug是有所不同的,下面会说一下本地debug的方法。关于远程的debug,请参考:idea 2步配置 远程调试spark

阅读全文>>

张映 发表于 2019-12-13

分类目录: hadoop/spark/scala

parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发, Parquet的灵感来自于2010年Google发表的Dremel论文,文中介绍了一种支持嵌套结构的存储格式,并且使用了列式存储的方式提升查询性能,在Dremel论文中还介绍了Google如何使用这种存储格式实现并行查询的。

csv,txt是行式存储,转换过后,在查询速度提高了不少,特别是存储空间,减少了90%多。

阅读全文>>

张映 发表于 2019-08-09

分类目录: hadoop/spark/scala

将多个相关的项目定义在一个构建中是很有用的,尤其是如果它们依赖另一个,而且你倾向于一起修改它们。
每个子项目在构建中都有它们自己的源文件夹,当打包时生成各自的 jar 文件,而且通常和其他的项目一样运转。

阅读全文>>

张映 发表于 2019-08-03

分类目录: hadoop/spark/scala

大数据开发,一直都用java spring boot框架,加载scala,spark,scala兼容包等,spark开发用scala,其他的开发用java,打包用mvn,感觉还是挺不错的。

如果只是开spark,scala就足够了,没必要在用spring boot。这样感觉不会那么怪。

阅读全文>>

张映 发表于 2019-08-03

分类目录: hadoop/spark/scala

安装IDEA就不说了,也很简单。在这里推荐做java和scala的人使用idea,真的比eclipse好用。

阅读全文>>

张映 发表于 2019-08-01

分类目录: hadoop/spark/scala

scala sbt 加载了spark包,DEBUG的时候报错了。

libraryDependencies ++= Seq(
    "org.apache.spark" % "spark-core_2.12" % "2.4.0",
    "org.apache.spark" % "spark-sql_2.12" % "2.4.0"
)

阅读全文>>

张映 发表于 2019-04-25

分类目录: hadoop/spark/scala

利用akka包来做scala的定时任务,便是打包时报以下错误:

Exception in thread "main" java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V
at akka.util.Timeout.<init>(Timeout.scala:13)
at akka.actor.ActorSystem$Settings.<init>(ActorSystem.scala:327)
at akka.actor.ActorSystemImpl.<init>(ActorSystem.scala:651)
at akka.actor.ActorSystem$.apply(ActorSystem.scala:244)
at akka.actor.ActorSystem$.apply(ActorSystem.scala:287)
at akka.actor.ActorSystem$.apply(ActorSystem.scala:232)
at netjoy.spark_sql.track_pc.run$.main(run.scala:30)
at netjoy.spark_sql.track_pc.run.main(run.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)
at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:849)
at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:167)
at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:195)
at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:86)
at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:924)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:933)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

阅读全文>>

张映 发表于 2019-03-12

分类目录: java/android

scala是一种类似java的编程语言,一种纯面向对象的语言,每一个值都是对象。对象的数据类型以及行为由类和特征(Trait)描述。类抽象机制的扩展有两种途径。一种途径是子类继承,另一种途径是灵活的混入(Mixin)机制。这两种途径能避免多重继承的种种问题。

随着大数据越来越普及,scala的使用度可能会越来越高。熟悉java的话,去学scala,很容易上手。

阅读全文>>

张映 发表于 2019-01-15

分类目录: hadoop/spark/scala

通过sql的方式,读取数据,根我们常用的关系型数据库差不多,更容易上手,当然没有updata和delete。

阅读全文>>

张映 发表于 2019-01-04

分类目录: hadoop/spark/scala

dataframe类似于关系型数据库的表,从dataframe中查询数据,需要调用api来实现,到目前为止spark支持的语言scala,java,r,python。

阅读全文>>