rdd,dataframe,dataset相互转换

张映发表于 2019-12-17

RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，才会开始遍历运算，极端情况下，如果代码里面有创建、转换，但是后面没有在Action中使用对应的结果，在执行时会被直接跳过，DataFrame与Dataset均支持sparksql的操作，rdd不支持。

1，df转rdd

val array = List((1, "tank1", 25),(2, "tank2", 26),(3, "tank3", 29))
val df = array.toDF("id", "name", "age")
val rdd1 = df.rdd

2，ds转rdd

val array = List((1, "tank1", 25),(2, "tank2", 26),(3, "tank3", 29))
val ds = array.toDS
val rdd2 = ds.rdd

3，df转ds

val array = List((1, "tank1", 25),(2, "tank2", 26),(3, "tank3", 29))
val df = array.toDF("id", "name", "age")
case class tanktest(id:Int,name:String,age:Int)extends Serializable
val ds = df.as[tanktest]

4，ds转df

val array = List((1, "tank1", 25),(2, "tank2", 26),(3, "tank3", 29))
val ds = array.toDS
val ds2df = ds.toDF

5，rdd转df

val spark = SparkSession.builder().master("local").appName("tanktest").getOrCreate()
import spark.implicits._  //implicits集成到sparksession

//方法一
val rdd = spark.sparkContext.parallelize(Seq(
(1, "tank1", 25),
(2, "zhang", 26)
))

val df = rdd.toDF("id", "name", "age")

//方法二
val schema = StructType(List(
StructField("id", IntegerType, nullable = false),
StructField("name", StringType, nullable = true),
StructField("age", IntegerType, nullable = true)
))

val rdd = spark.sparkContext.parallelize(Seq(
Row(1, "tank1", 25), //row
Row(2, "zhang", 26)
))

val df = spark.sqlContext.createDataFrame(rdd,schema)

6，rdd转ds

val spark = SparkSession.builder().master("local").appName("tanktest").getOrCreate()
import spark.implicits._  //implicits集成到sparksession
val rdd = spark.sparkContext.parallelize(Seq(
(1, "tank1", 25), //无row
(2, "zhang", 26)
))
rdd.toDS()

转载请注明
作者:海底苍鹰
地址:http://blog.51yip.com/hadoop/2324.html

spark 创建 dataframe

留下评论

抱歉，发表回复评论您必须登录。

分类目录
- apache/nginx (36)
- cache (21)
- clickhouse (14)
- drupal (7)
- eclipse (8)
- elasticsearch (18)
- google (3)
- hadoop/spark/scala (96)
- html/css (12)
- java/android (14)
- linux (87)
- mariadb (2)
- mysql (74)
- nodejs/vue/js/jquery (72)
- nosql (39)
- oracle (9)
- pgsql (8)
- php (107)
- seo (16)
- shell (11)
- smarty (5)
- tidb (21)
- wordpress (13)
- 云计算 (22)
- 双眼看社会 (13)
- 技术其他 (41)
- 服务器相关 (136)
- 系统安全 (7)
最近文章
最近评论和留言
- banner 在 awk是命令还是编程语言上的评论
- lin 在 hadoop 查看 mr日志报错上的评论
- ccc 在 cdh hive 2.1.1 升级到 2.3.4 上的评论
- 简简单单在关于我上的评论
- www 在 clickhouse,tidb,mysql 读取速度对比上的评论
- zzq 在 mysql分表，分区的区别和联系上的评论
- Bill 在怎么在网上找到你要的信息上的评论
- 11 在留言板留言了
- Michael 在 canal 同步mysql数据到clickhouse 支持update delete truncate 上的评论
- 我兜里有糖在 linux postgresql 安装配置详解上的评论
登录
- 登录

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站

关于我

留言板

开发手册

linux命令

首页

rdd,dataframe,dataset相互转换

留下评论

分类目录

最近文章

最近评论和留言

登录

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站 关于我 留言板 开发手册 linux命令 首页

rdd,dataframe,dataset相互转换

留下评论

分类目录

最近文章

最近评论和留言

登录

赞助本站

关于我

留言板

开发手册

linux命令

首页