当前位置:首页 > 数据分析 > 正文

spark数据分析功能介绍

Spark是一个适用于多种情况的通用数据处理引擎。

Spark创新性地提出了ResilientDistributedDataset(RDD)的概念,首先对分布式数据集进行采样,所有统计分析任务都基于此。RDD的基础。它转换为由操作组成的有向无环图(DAG)。

4.数据查询分析:Hive的核心任务是将SQL语句转换为结构化的。可以将数据映射到数据库表中,并提供HQL(HiveSQL)查询功能。

此外,SparkSQL充分利用RCFile、ORC、Parquet等列存储格式,只扫描实际包含的列。您可以在查询中忽略其他列中的数据。

Spark是一个开源数据分析集群计算框架,最初由加州大学伯克利分校的AMPLab开发,基于HDFS。