spark机器学习算法实战

发布时间：2024-07-02 08:36:09 作者：徭季翼

1、 1.Spark Context设置内部服务并建立到Spark执行环境的连接。 2.驱动程序中的Spark Context对象协调所有分布式进程并允许进行资源分配。 3.集群管理器执行程序，它们是具有逻辑的JVM进程。 4.Spark Context对象将应用程序发送给执行者。 5.Spark Context在每个执行器中执行任务。

4、 Spark 是专为大规模数据处理而设计的快速通用的计算引擎。是Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

2、 2、Spark提供Cache机制来支持需要反复迭代的计算或者多次数据共享，减少数据读取的I/O开销。 Spark使用内存缓存来提升性能，因此进行交互式分析也足够快速，缓存同时提升了迭代算法的性能，这使得Spark非常适合数据理论任务，特别是机器学习。

上一篇：spark机器学习与推荐系统实例

下一篇：spark机器学习应用实验报告

spark机器学习算法实战

发布时间：2024-07-02 08:36:09 作者：徭季翼

相关资讯

热门合集标签

热门资讯