张映 发表于 2019-12-13

分类目录: hadoop/spark/scala

parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发, Parquet的灵感来自于2010年Google发表的Dremel论文,文中介绍了一种支持嵌套结构的存储格式,并且使用了列式存储的方式提升查询性能,在Dremel论文中还介绍了Google如何使用这种存储格式实现并行查询的。

csv,txt是行式存储,转换过后,在查询速度提高了不少,特别是存储空间,减少了90%多。

阅读全文>>

张映 发表于 2019-07-11

分类目录: hadoop/spark/scala

没找到合适spark sql的客户端,所以不能像navicat,heidisql等那样,可以把可视化数据导成csv,excel等。但是可以通过spark-shell导出数据。

阅读全文>>