spark学习环境版本说明
spark版本:spark-3.0.0 hadoop版本:hadoop-3.2.1 hbase版本:hbase-2.2.5 kafka版本:kafka_2.12-2.4.1 java版本:1.8 scala版本:2.12
分布式计算:
spark系列思维导图:
建议保存本地查看
spark架构体系:
Spark中重要角色
Master :是一个Java进程,接收Worker的注册信息和心跳、移除异常超时的Worker、接收客户端提交的任务、负责资源调度、命令Worker启动Executor。
Worker :是一个Java进程,负责管理当前节点的资源关联,向Master注册并定期发送心跳,负责启动Executor、并监控Executor的状态。
SparkSubmit :是一个Java进程,负责向Master提交任务。
Driver :是很多类的统称,可以认为SparkContext就是Driver,client模式Driver运行在SparkSubmit进程中,cluster模式单独运行在一个进程中,负责将用户编写的代码转成Tasks,然后调度到Executor中执行,并监控Task的状态和执行进度。
Executor :是一个Java进程,负责执行Driver端生成的Task,将Task放入线程中运行。
Spark环境搭建(standalone模式)
standalone模式是Spark自带的分布式集群模式,不依赖其他的资源调度框架