parquet«海底苍鹰(tank)博客

导入parquet文件到表中

张映发表于 2019-12-16

分类目录： hadoop/spark/scala

当表数据以文本文件的形势，存放在hdfs上，不管是内部表，还是外部表，导入数据都是比较好操作的。直接通过hdfs命令直接copy到文件服务器上的对应目录就好了，注意hdfs目录的访问权限。

parquet也是可以这样操作的

阅读全文>>

scala csv txt 转 parquet 的二种方法

张映发表于 2019-12-13

分类目录： hadoop/spark/scala

parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发， Parquet的灵感来自于2010年Google发表的Dremel论文，文中介绍了一种支持嵌套结构的存储格式，并且使用了列式存储的方式提升查询性能，在Dremel论文中还介绍了Google如何使用这种存储格式实现并行查询的。

csv，txt是行式存储，转换过后，在查询速度提高了不少，特别是存储空间，减少了90%多。

阅读全文>>

分类目录
- apache/nginx (36)
- cache (21)
- clickhouse (14)
- drupal (7)
- eclipse (8)
- elasticsearch (18)
- google (3)
- hadoop/spark/scala (96)
- html/css (12)
- java/android (14)
- linux (87)
- mariadb (2)
- mysql (74)
- nodejs/vue/js/jquery (72)
- nosql (39)
- oracle (9)
- pgsql (8)
- php (107)
- seo (16)
- shell (11)
- smarty (5)
- tidb (21)
- wordpress (13)
- 云计算 (22)
- 双眼看社会 (13)
- 技术其他 (41)
- 服务器相关 (136)
- 系统安全 (7)
最近文章
最近评论和留言
- banner 在 awk是命令还是编程语言上的评论
- lin 在 hadoop 查看 mr日志报错上的评论
- ccc 在 cdh hive 2.1.1 升级到 2.3.4 上的评论
- 简简单单在关于我上的评论
- www 在 clickhouse,tidb,mysql 读取速度对比上的评论
- zzq 在 mysql分表，分区的区别和联系上的评论
- Bill 在怎么在网上找到你要的信息上的评论
- 11 在留言板留言了
- Michael 在 canal 同步mysql数据到clickhouse 支持update delete truncate 上的评论
- 我兜里有糖在 linux postgresql 安装配置详解上的评论
登录
- 登录

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站

关于我

留言板

开发手册

linux命令

首页

导入parquet文件到表中

scala csv txt 转 parquet 的二种方法

分类目录

最近文章

最近评论和留言

登录

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站 关于我 留言板 开发手册 linux命令 首页

导入parquet文件到表中

scala csv txt 转 parquet 的二种方法

分类目录

最近文章

最近评论和留言

登录

赞助本站

关于我

留言板

开发手册

linux命令

首页