当前位置:首页 > 数据分析 > 正文

spark进行数据分析

Spark是个开源的数据分析集群计算框架,最初由加州大学伯克利分校AMPLab开发,建立于HDFS之上。 Spark与Hadoop一样,用于构建大规模、低延时的数据分析应用。 Spark采用Scala语言实现,使用Scala作为应用框架。

Spark是一个基于RAM计算的开源码ComputerCluster运算系统,目的是更快速地进行数据分析。 Spark早期的核心部分代码只有3万行。

在构建spark离线数据分析平台之前,先简单说明传统的离线数据分析平台。 传统离线数据分析工作,一般把数据结构化存储在RDBMS,可通过SQL代码、报表工具、挖掘工具快速对数据进行分析。