当前位置: 代码网 > it编程>游戏开发>ar > Spark核心知识要点(三)

Spark核心知识要点(三)

2024年08月02日 ar 我要评论
Spark核心知识要点(三)

1、为什么要进行序列化序列化?

可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗cpu。

2、yarn中的container是由谁负责销毁的,在hadoop mapreduce中container可以复用么?

applicationmaster负责销毁,在hadoop mapreduce不可以复用,在spark on yarn程序container可以复用。

3、提交任务时,如何指定spark application的运行模式?

1)cluster模式:./spark-submit --class xx.xx.xx --master yarn --deploy-mode cluster xx.jar
2)client模式:./spark-submit --class xx.xx.xx --master yarn --deploy-mode client xx.jar

4、不启动spark集群master和work服务,可不可以运行spark程序?

可以,只要资源管理器第三方管理就可以,如由yarn管理,spark集群不启动也可以使用spark;spark集群启动的是work和master,这个其实就是资源管理框架,
yarn中的resourcemanager相当于master,nodemanager相当于worker,做计算是executor,和spark集群的work和manager可以没关系,归根接底还是jvm的运行,
只要所在的jvm上安装了spark就可以。

5、spark on yarn cluster 模式下,applicationmaster和driver是在同一个进程么?

是,driver 位于applicationmaster进程中。该进程负责申请资源,还负责监控程序、资源的动态情况。

6、运行在yarn中application有几种类型的container?

1)运行applicationmaster的container:这是由resourcemanager(向内部的资源调度器)申请和启动的,用户提交应用程序时,
可指定唯一的applicationmaster所需的资源;
2)运行各类任务的container:这是由applicationmaster向resourcemanager申请的,并由applicationmaster与nodemanager通信以启动之。

7、executor启动时,资源通过哪几个参数指定?

1)num-executors是executor的数量
2)executor-memory 是每个executor使用的内存
3)executor-cores 是每个executor分配的cpu

8、为什么会产生yarn,解决了什么问题,有什么优势?

1)为什么产生yarn,针对mrv1的各种缺陷提出来的资源管理框架
2)解决了什么问题,有什么优势,参考这篇博文:http://www.aboutyun.com/forum.php?mod=viewthread&tid=6785

9、一个task的map数量由谁来决定?

一般情况下,在输入源是文件的时候,一个task的map数量由splitsize来决定的
那么splitsize是由以下几个来决定的
goalsize = totalsize / mapred.map.tasks
insize = max {mapred.min.split.size, minsplitsize}
splitsize = max (minsize, min(goalsize, dfs.block.size))
一个task的reduce数量,由partition决定。

10、列出你所知道的调度器,说明其工作原理?

1)fifo schedular 默认的调度器 先进先出
2)capacity schedular 计算能力调度器 选择占用内存小 优先级高的
3)fair schedular 调度器 公平调度器 所有job 占用相同资源

11、导致executor产生full gc 的原因,可能导致什么问题?

可能导致executor僵死问题,海量数据的shuffle和数据倾斜等都可能导致full gc。以shuffle为例,伴随着大量的shuffle写操作,jvm的新生代不断gc,
eden space写满了就往survivor space写,同时超过一定大小的数据会直接写到老生代,当新生代写满了之后,也会把老的数据搞到老生代,如果老生代空间不足了,
就触发full gc,还是空间不够,那就oom错误了,此时线程被blocked,导致整个executor处理数据的进程被卡住。

12、spark累加器有哪些特点?

1)累加器在全局唯一的,只增不减,记录全局集群的唯一状态;
2)在exe中修改它,在driver读取;
3)executor级别共享的,广播变量是task级别的共享两个application不可以共享累加器,但是同一个app不同的job可以共享。

13、spark hashparitioner的弊端是什么?

hashpartitioner分区的原理很简单,对于给定的key,计算其hashcode,并除于分区的个数取余,如果余数小于0,则用余数+分区的个数,最后返回的值就是
这个key所属的分区id;弊端是数据不均匀,容易导致数据倾斜,极端情况下某几个分区会拥有rdd的所有数据。

14、rangepartitioner分区的原理?

rangepartitioner分区则尽量保证每个分区中数据量的均匀,而且分区与分区之间是有序的,也就是说一个分区中的元素肯定都是比另一个分区内的元素小
或者大;但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。其原理是水塘抽样。

15、rangepartioner分区器特点?

rangepartioner尽量保证每个分区中数据量的均匀,而且分区与分区之间是有序的,一个分区中的元素肯定都是比另一个分区内的元素小或者大;
但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。rangepartitioner作用:将一定范围内的数映射到某一个分区内,
在实现中,分界的算法尤为重要。算法对应的函数是rangebounds。

16、如何理解standalone模式下,spark资源分配是粗粒度的?

spark默认情况下资源分配是粗粒度的,也就是说程序在提交时就分配好资源,后面执行的时候使用分配好的资源,除非资源出现了故障才会重新分配。
比如spark shell启动,已提交,一注册,哪怕没有任务,worker都会分配资源给executor。

17、union操作是产生宽依赖还是窄依赖?

产生窄依赖。

18、窄依赖父rdd的partition和子rdd的parition是不是都是一对一的关系?

不一定,除了一对一的窄依赖,还包含一对固定个数的窄依赖(就是对父rdd的依赖的partition的数量不会随着rdd数量规模的改变而改变),
比如join操作的每个partiion仅仅和已知的partition进行join,这个join操作是窄依赖,依赖固定数量的父rdd,因为是确定的partition关系。

19、hadoop中,mapreduce操作的mapper和reducer阶段相当于spark中的哪几个算子?

相当于spark中的map算子和reducebykey算子,当然还是有点区别的,mr会自动进行排序的,spark要看你用的是什么partitioner。

20、什么是shuffle,以及为什么需要shuffle?

shuffle中文翻译为洗牌,需要shuffle的原因是:某种具有共同特征的数据汇聚到一个计算节点上进行计算。

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com