1、 ·超强的通用性:Spark提供了Spark RDD、Spark SQL、Spark Streaming、Spark MLlib、Spark GraphX等技术组件,可以一站式地完成大数据领域的离线批处理、交互式查询、流式计算、机器学习、图计算等常见的任务。
4、 因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。 Spark的适用场景:1)多次操作特定数据集的应用场合 Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。
5、 Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 是Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
2、 2、PyTorch PyTorch是一个用于机器学习和深度学习的开源框架,由Facebook开发。 它基于动态图模式,使得模型的构建和调试非常容易。 PyTorch还提供了强大的GPU加速功能,可以在短时间内对大规模数据集进行训练。
上一篇:spark算法和传统机器学习
下一篇:spark如何集成深度学习算法