首页 数据挖掘 机器学习 自动化 决策支持 强化学习

当前位置:首页 > 机器学习 > spark机器学习算法实战

spark机器学习算法实战

发布时间:2024-07-02 08:36:09 作者:徭季翼

1、 1.Spark Context设置内部服务并建立到Spark执行环境的连接。 2.驱动程序中的Spark Context对象协调所有分布式进程并允许进行资源分配。 3.集群管理器执行程序,它们是具有逻辑的JVM进程。 4.Spark Context对象将应用程序发送给执行者。 5.Spark Context在每个执行器中执行任务。

4、 Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 是Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

2、 2、Spark提供Cache机制来支持需要反复迭代的计算或者多次数据共享,减少数据读取的I/O开销。 Spark使用内存缓存来提升性能,因此进行交互式分析也足够快速,缓存同时提升了迭代算法的性能,这使得Spark非常适合数据理论任务,特别是机器学习。