云计算复习之Spark（Scala版）期末复习整理_ar

声明:
1. 本文针对的是一个知识的梳理，自行整理以及方便记忆
2. 若有错误不当之处, 请指出

scala是一种针对jvm 将面向函数和面向对象技术组合在一起的编程语言。scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言，而又无缝地结合了命令式和函数式的编程风格。

scala官网6个特征：

1).java和scala可以混编

2).类型推测(自动推测类型)

3).并发和分布式

4).特质，特征(类似java中interfaces 和 abstract结合)

5).模式匹配（类似java switch）

6).高阶函数
scala有个原则就是极简原则，不用写的东西一概不写。

scala的基本操作具体参考：scala快速入门(适用于学习spark)_scala spark-csdn博客

spark的特点：快速，易用，通用，随处运行

mapreduce和spark的对比：

spark是内存计算框架，mapreduce是磁盘计算框架

这张图显而易见，性能高

spark的生态系统良好，学习起来方便

基本概念与架构

driver作为管家结点，当执行一个application时，driver会向集群管理器申请资源，启动executor，并向executor发送应用程序代码和文件，然后在executor上执行task，运行结束后，执行结果会返回给driver，或者写到hdfs或者其他数据库中

简述spark集群的基本运行流程

1）spark集群启动后，worker向master注册信息，spark-submit命令提交程序后，driver和application也会向master注册信息，创建sparkcontext对象：主要的对象包含dagscheduler和taskscheduler
2）driver把application信息注册给master后，master会根据app信息去worker节点启动executor
3）executor内部会创建运行task的线程池，然后把启动的executor反向注册给dirver
4）dagscheduler：负责把spark作业转换成stage的dag（directed acyclic graph有向无环图），根据宽窄依赖切分stage，然后把stage封装成taskset的形式发送个taskscheduler；同时dagscheduler还会处理由于shuffle数据丢失导致的失败；
5）taskscheduler：维护所有taskset，分发task给各个节点的executor（根据数据本地化策略分发task），监控task的运行状态，负责重试失败的task；
6）所有task运行完成后，sparkcontext向master注销，释放资源；

1.为应用构建起基本的运行环境，即由driver创建一个sparkcontext进行资源的申请、任务的分配和监控（sparkcontext构建起应用和集群直接的联系，连接集群的通道）

2.资源管理器为executor分配资源，并启动executor进程