Spark 核心篇 - 任务调度 4 执行 Task

上一节分析到Driver端在Task执行前的所有工作,这部分工作主要是在TaskSechduler和SchedulerBackend中完成的,处理完成后将Task交由Work上的Executor执行 通过保存的`executorEndpoint`进行发送任务及数据。
阅读全文

Spark 核心篇 - 任务调度 0 提交作业

在 Action 算子执行时,SparkContext(SC) 会进行Job提交,此后调度流程进入DAGScheduler(DS).DS 会对 Job 进行解析,根据 DAG 图(linage)进行 Stage 的划分。之后将 Stage 进行提交,DS 继续将 Stage 进行解析,根据不同的 Stage 创建出不同的 Task,Task 创建完成后将 Task 构造成 TaskSet,交由TaskScheduler(TS)。由TS将 TaskSet 分配出去到每一个Executor,Executor 根据收到的 TaskSet 开始执行任务。
阅读全文

Spark 核心篇 - SparkContext初始化流程

作为主要的 spark 基础类,除了创建 RDD 外,他同时也是我们在提交了任务后,对于环境的初始化,以及 Spark 在运行过程中使用到的多个调度器的初始 化工作(DAGScheduler、TaskScheduler),用一张图来简单说明 SparkContext 的主要初始化工作。
阅读全文

Delta Lake 快速入门

Delta Lake是一个开源存储层,它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理,并统一了流式处理和批处理数据处理。Delta Lake运行在现有数据湖之上,与ApacheSpark API完全兼容。
阅读全文
本文目录
    Loading...