Spark核心知识要点（三）_ar

1、为什么要进行序列化序列化？

可以减少数据的体积，减少存储空间，高效存储和传输数据，不好的是使用的时候要反序列化，非常消耗cpu。

2、yarn中的container是由谁负责销毁的，在hadoop mapreduce中container可以复用么？

applicationmaster负责销毁，在hadoop mapreduce不可以复用，在spark on yarn程序container可以复用。

3、提交任务时，如何指定spark application的运行模式？

1）cluster模式：./spark-submit --class xx.xx.xx --master yarn --deploy-mode cluster xx.jar
2）client模式：./spark-submit --class xx.xx.xx --master yarn --deploy-mode client xx.jar

4、不启动spark集群master和work服务，可不可以运行spark程序？

可以，只要资源管理器第三方管理就可以，如由yarn管理，spark集群不启动也可以使用spark；spark集群启动的是work和master，这个其实就是资源管理框架，
yarn中的resourcemanager相当于master，nodemanager相当于worker，做计算是executor，和spark集群的work和manager可以没关系，归根接底还是jvm的运行，
只要所在的jvm上安装了spark就可以。

5、spark on yarn cluster 模式下，applicationmaster和driver是在同一个进程么？

是，driver 位于applicationmaster进程中。该进程负责申请资源，还负责监控程序、资源的动态情况。

6、运行在yarn中application有几种类型的container？

1）运行applicationmaster的container：这是由resourcemanager（向内部的资源调度器）申请和启动的，用户提交应用程序时，
可指定唯一的applicationmaster所需的资源；
2）运行各类任务的container：这是由applicationmaster向resourcemanager申请的，并由applicationmaster与nodemanager通信以启动之。

7、executor启动时，资源通过哪几个参数指定？

1）num-executors是executor的数量
2）executor-memory 是每个executor使用的内存
3）executor-cores 是每个executor分配的cpu

8、为什么会产生yarn，解决了什么问题，有什么优势？

1）为什么产生yarn，针对mrv1的各种缺陷提出来的资源管理框架
2）解决了什么问题，有什么优势，参考这篇博文：http://www.aboutyun.com/forum.php?mod=viewthread&tid=6785

9、一个task的map数量由谁来决定？

一般情况下，在输入源是文件的时候，一个task的map数量由splitsize来决定的
那么splitsize是由以下几个来决定的
goalsize = totalsize / mapred.map.tasks
insize = max {mapred.min.split.size, minsplitsize}
splitsize = max (minsize, min(goalsize, dfs.block.size))
一个task的reduce数量，由partition决定。

10、列出你所知道的调度器，说明其工作原理？

1）fifo schedular 默认的调度器先进先出
2）capacity schedular 计算能力调度器选择占用内存小优先级高的
3）fair schedular 调度器公平调度器所有job 占用相同资源

11、导致executor产生full gc 的原因，可能导致什么问题？

可能导致executor僵死问题，海量数据的shuffle和数据倾斜等都可能导致full gc。以shuffle为例，伴随着大量的shuffle写操作，jvm的新生代不断gc，
eden space写满了就往survivor space写，同时超过一定大小的数据会直接写到老生代，当新生代写满了之后，也会把老的数据搞到老生代，如果老生代空间不足了，
就触发full gc，还是空间不够，那就oom错误了，此时线程被blocked，导致整个executor处理数据的进程被卡住。

12、spark累加器有哪些特点？

1）累加器在全局唯一的，只增不减，记录全局集群的唯一状态；
2）在exe中修改它，在driver读取；
3）executor级别共享的，广播变量是task级别的共享两个application不可以共享累加器，但是同一个app不同的job可以共享。

13、spark hashparitioner的弊端是什么？

hashpartitioner分区的原理很简单，对于给定的key，计算其hashcode，并除于分区的个数取余，如果余数小于0，则用余数+分区的个数，最后返回的值就是
这个key所属的分区id；弊端是数据不均匀，容易导致数据倾斜，极端情况下某几个分区会拥有rdd的所有数据。

14、rangepartitioner分区的原理？

rangepartitioner分区则尽量保证每个分区中数据量的均匀，而且分区与分区之间是有序的，也就是说一个分区中的元素肯定都是比另一个分区内的元素小
或者大；但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。其原理是水塘抽样。

15、rangepartioner分区器特点？

rangepartioner尽量保证每个分区中数据量的均匀，而且分区与分区之间是有序的，一个分区中的元素肯定都是比另一个分区内的元素小或者大；
但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。rangepartitioner作用：将一定范围内的数映射到某一个分区内，
在实现中，分界的算法尤为重要。算法对应的函数是rangebounds。

16、如何理解standalone模式下，spark资源分配是粗粒度的？

spark默认情况下资源分配是粗粒度的，也就是说程序在提交时就分配好资源，后面执行的时候使用分配好的资源，除非资源出现了故障才会重新分配。
比如spark shell启动，已提交，一注册，哪怕没有任务，worker都会分配资源给executor。

17、union操作是产生宽依赖还是窄依赖？

产生窄依赖。

18、窄依赖父rdd的partition和子rdd的parition是不是都是一对一的关系？

不一定，除了一对一的窄依赖，还包含一对固定个数的窄依赖（就是对父rdd的依赖的partition的数量不会随着rdd数量规模的改变而改变），
比如join操作的每个partiion仅仅和已知的partition进行join，这个join操作是窄依赖，依赖固定数量的父rdd，因为是确定的partition关系。

19、hadoop中，mapreduce操作的mapper和reducer阶段相当于spark中的哪几个算子？

相当于spark中的map算子和reducebykey算子，当然还是有点区别的,mr会自动进行排序的，spark要看你用的是什么partitioner。

20、什么是shuffle，以及为什么需要shuffle？

shuffle中文翻译为洗牌，需要shuffle的原因是：某种具有共同特征的数据汇聚到一个计算节点上进行计算。

Spark核心知识要点（三）

2024年08月02日 • ar •我要评论