当前位置: 代码网 > it编程>前端脚本>Python > 大数据进阶之路——Spark SQL小结_spark sql进阶

大数据进阶之路——Spark SQL小结_spark sql进阶

2024年08月02日 Python 我要评论
Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

spark一共有6种运行模式:local,standalone,yarn-cluster,yarn-client, mesos, kubernetes

  1. local: local 模式即单机模式,如果在命令语句中不加任何配置,则默认是 local 模式,在本地运行。这也是部署、设置最简单的一种模式,所有的 spark 进程都运行在一台机器或一个虚拟机上面。
  2. standalone: standalone 是 spark 自身实现的资源调度框架。如果我们只使用 spark 进行大数据计算,不使用其他的计算框架时,就采用 standalone 模式就够了,尤其是单用户的情况下。standalone 模式是 spark 实现的资源调度框架,其主要的节点有 client 节点、master 节点和 worker 节点。其中 driver 既可以运行在 master 节点上中,也可以运行在本地 client 端。当用 spark-shell 交互式工具提交 spark 的 job 时,driver 在 master 节点上运行;当使用 spark-submit 工具提交 job 或者在 eclipse、idea 等开发平台上使用 new sparkconf.setmanager(“spark://master:7077”) 方式运行 spark 任务时,driver 是运行在本地 client 端上的。

standalone 模式的部署比较繁琐,不过官方有提供部署脚本,需要把 spark 的部署包安装到每一台节点机器上,并且部署的目录也必须相同,而且需要 master 节点和其他节点实现 ssh 无密码登录。启动时,需要先启动 spark 的 master 和 slave 节点。提交命令类似于:

./bin/spark-submit \
  --class org.apache.spark.examples.sparkpi \
  --master spark://oscar-2.local:7077 \
  /tmp/spark-2.2.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.2.0.jar \
  100

其中 master:7077是 spark 的 master 节点的主机名和端口号,当然集群是需要提前启动。

不管使用什么模式,spark应用程序的代码是一模一样的,只需要在提交的时候通过–master参数来指定我们的运行模式即可

  • client
    driver运行在client端(提交spark作业的机器)
    client会和请求到的container进行通信来完成作业的调度和执行,client是不能退出的
    日志信息会在控制台输出:便于我们测试
  • cluster
    driver运行在applicationmaster中
    client只要提交完作业之后就可以关掉,因为作业已经在yarn上运行了
    日志是在终端看不到的,因为日志是在driver上,只能通过yarn logs -applicationidapplicatio
(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com