spark中dataframe解析_Spark SQL | 目前Spark社区最活跃的组件之一-白红宇

spark中dataframe解析_Spark SQL | 目前Spark社区最活跃的组件之一

阅读量：6903 次

发布时间：2019-06-27

本文共 514 字，大约阅读时间需要 1 分钟。

Spark SQL是一个用来处理结构化数据的Spark组件，前身是shark，但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等，制约了Spark各个组件之间的相互集成，因此Spark SQL应运而生。

Spark SQL在汲取了shark诸多优势如内存列存储、兼容hive等基础上，做了重新的构造，因此也摆脱了对hive的依赖，但同时兼容hive。除了采取内存列存储优化性能，还引入了字节码生成技术、CBO和RBO对查询等进行动态评估获取最优逻辑计划、物理计划执行等。基于这些优化，使得Spark SQL相对于原有的SQL on Hadoop技术在性能方面得到有效提升。

同时，Spark SQL支持多种数据源，如JDBC、HDFS、HBase。它的内部组件，如SQL的语法解析器、分析器等支持重定义进行扩展，能更好的满足不同的业务场景。与Spark Core无缝集成，提供了DataSet/DataFrame的可编程抽象数据模型，并且可被视为一个分布式的SQL查询引擎。

关联文章：

Spark通识

Spark RDD详解

Apache Hive

关注微信公众号：大数据学习与分享，获取更多技术干货

转载地址：http://iaodl.baihongyu.com/

你可能感兴趣的文章

使用Reveal来查看别人的APP界面+白苹果不刷机解决方式