当前位置:首页 > 机器学习 > 正文

spark机器学习入门

首先,如果你是在学术领域中进行机器学习研究,数学很重要;第二,在行业领域中,数学对于一小部分高级数据分析师/数据科学家也是重要的。 特别是像Google和Facebook这样的公司,他们走在前沿,正在使用机器学习领域的尖端工具,这些人会在他们的工作中经常使用微积分、线性代数和更高级的数学。

Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

PyTorch是一个用于机器学习和深度学习的开源框架,由Facebook开发。 它基于动态图模式,使得模型的构建和调试非常容易。 PyTorch还提供了强大的GPU加速功能,可以在短时间内对大规模数据集进行训练。 3、Apache Spark Apache Spark是一个用于大数据处理的快速、通用和容错的开源框架,由Apache软件基金会开发。