1、 1.Spark Context设置内部服务并建立到Spark执行环境的连接。 2.驱动程序中的Spark Context对象协调所有分布式进程并允许进行资源分配。 3.集群管理器执行程序,它们是具有逻辑的JVM进程。 4.Spark Context对象将应用程序发送给执行者。 5.Spark Context在每个执行器中执行任务。
4、 Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 是Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
2、 2、Spark提供Cache机制来支持需要反复迭代的计算或者多次数据共享,减少数据读取的I/O开销。 Spark使用内存缓存来提升性能,因此进行交互式分析也足够快速,缓存同时提升了迭代算法的性能,这使得Spark非常适合数据理论任务,特别是机器学习。
上一篇:spark机器学习与推荐系统实例
下一篇:spark机器学习应用实验报告