spark-sql 创建表插入数据

张映发表于 2019-01-07

spark-sql是spark的一个核心组件，可以实现简单的关系型数据库操作。

一，启动spark-sql

cd /bigdata/spark/bin
./spark-sql

如果进入spark-sql报以下错误：

Caused by: ERROR XSDB6: Another instance of Derby may have already booted the database /home/bigdata/spark/bin/metastore_db.

解决办法：

[root@bigserver1 bin]# ps aux |grep java |grep -i sql
root 24797 2.1 16.8 3286436 559340 pts/2 Sl+ 13:13 1:23 /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-1.el7_6.x86_64/bin/java -cp /bigdata/spark/conf/:/bigdata/spark/jars/*:/bigdata/hadoop/etc/hadoop/ -Xmx512m org.apache.spark.deploy.SparkSubmit --class org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver spark-internal
[root@bigserver1 bin]# kill 24797

在启动就好

二，创建表

1，以文本方式存储

create external table mytest1(id bigint, name string)
row format delimited fields terminated by ','
location 'hdfs://bigserver1:9000/test/spark/tank3';

这种方式创建的表，是以文本的形式存储的

2，以parquet存储

CREATE TABLE mytest3 (id bigint, name string)
 USING HIVE OPTIONS(fileFormat 'PARQUET')
 location 'hdfs://bigserver1:9000/test/spark/tank4';

这种创建表的方式，指定了文件存储方式，在用scala读取时会方便一些。

在这里要注意一点，如果没有指定location的话，默认会装到

spark-sql 创建表

hive_serde_tab2，hive_serde_tab1表名

三，添加数据

INSERT INTO mytest3 VALUES (1,"zhang"), (2,"tank")

对于数据的编辑和删除，纯spark-sql现在还不支持，后面会尝试着结合，hive和hbase，来进行。希望达到的目的就是，能实现简单的增，删，改，查

四，单表查询数据，根关系型的差不多

五，用scala去读取上面创建的二个表

1，读取文本表

scala> var test = spark.read.format("text").option("header", true).option("delimiter", ",").load("hdfs://bigserver1:9000/test/spark/tank3");
test: org.apache.spark.sql.DataFrame = [value: string]

scala> test.withColumn("_tmp", split($"value", ",")).select(
 | $"_tmp".getItem(0).as("id"),
 | $"_tmp".getItem(1).as("name")
 | ).drop("_tmp").show();
+---+-----+
| id| name|
+---+-----+
| 2|zhang|
| 3| ying|
| 1| tank|
+---+-----+

2，读取parquet表

scala> var test = spark.read.load("hdfs://bigserver1:9000/test/spark/tank4");
test: org.apache.spark.sql.DataFrame = [id: bigint, name: string]

scala> test.show();
+---+-----+
| id| name|
+---+-----+
| 1|zhang|
| 2| tank|
+---+-----+

转载请注明
作者:海底苍鹰
地址:http://blog.51yip.com/hadoop/2029.html

留下评论

抱歉，发表回复评论您必须登录。

分类目录
- apache/nginx (36)
- cache (21)
- clickhouse (14)
- drupal (7)
- eclipse (8)
- elasticsearch (18)
- google (3)
- hadoop/spark/scala (96)
- html/css (12)
- java/android (14)
- linux (87)
- mariadb (2)
- mysql (74)
- nodejs/vue/js/jquery (72)
- nosql (39)
- oracle (9)
- pgsql (8)
- php (107)
- seo (16)
- shell (11)
- smarty (5)
- tidb (21)
- wordpress (13)
- 云计算 (22)
- 双眼看社会 (13)
- 技术其他 (41)
- 服务器相关 (136)
- 系统安全 (7)
最近文章
最近评论和留言
- banner 在 awk是命令还是编程语言上的评论
- lin 在 hadoop 查看 mr日志报错上的评论
- ccc 在 cdh hive 2.1.1 升级到 2.3.4 上的评论
- 简简单单在关于我上的评论
- www 在 clickhouse,tidb,mysql 读取速度对比上的评论
- zzq 在 mysql分表，分区的区别和联系上的评论
- Bill 在怎么在网上找到你要的信息上的评论
- 11 在留言板留言了
- Michael 在 canal 同步mysql数据到clickhouse 支持update delete truncate 上的评论
- 我兜里有糖在 linux postgresql 安装配置详解上的评论
登录
- 登录

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站

关于我

留言板

开发手册

linux命令

首页

spark-sql 创建表插入数据

留下评论

分类目录

最近文章

最近评论和留言

登录

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站 关于我 留言板 开发手册 linux命令 首页

spark-sql 创建表 插入数据

留下评论

分类目录

最近文章

最近评论和留言

登录

赞助本站

关于我

留言板

开发手册

linux命令

首页

spark-sql 创建表插入数据