张映 发表于 2019-12-16

分类目录: hadoop/spark/scala

当表数据以文本文件的形势,存放在hdfs上,不管是内部表,还是外部表,导入数据都是比较好操作的。直接通过hdfs命令直接copy到文件服务器上的对应目录就好了,注意hdfs目录的访问权限。

parquet也是可以这样操作的

阅读全文>>

张映 发表于 2019-12-13

分类目录: hadoop/spark/scala

parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发, Parquet的灵感来自于2010年Google发表的Dremel论文,文中介绍了一种支持嵌套结构的存储格式,并且使用了列式存储的方式提升查询性能,在Dremel论文中还介绍了Google如何使用这种存储格式实现并行查询的。

csv,txt是行式存储,转换过后,在查询速度提高了不少,特别是存储空间,减少了90%多。

阅读全文>>