当前位置: 代码网 > it编程>开发工具>Pycharm > pycharm连接spark教程

pycharm连接spark教程

2025年01月14日 Pycharm 我要评论
1.解压hadoop解压到任意盘,路径不要带中文路径进入保存后的bin目录,查看,是否解压成功2.解压spark到任意位置,路径不要带有中文3. 打开pycharm把hadoop,spark环境变量配

1.解压hadoop

解压到任意盘,路径不要带中文路径

进入保存后的bin目录,查看,是否解压成功

2.解压spark

到任意位置,路径不要带有中文

3. 打开pycharm

把hadoop,spark环境变量配置到pycharm中。

3.1新建项目

3.2在项目中创建一个python文件

3.3把hadoop_home

python_home,pythonpath添加到pycharm中.

  • 1.hadoop_home
  • 2.spark_home
  • 3.pythonpath

注意!!!

pythonpath路径要添加到d:\spark\spark-2.4.6-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip下

3.4 检查是否有以下软件包

3.4.1 如果没有请按照以下教程下载,后期需要

3.4.2安装py4j

3.4.3安装pyspark推荐2.4.6版本

3.4.4安装pip

3.5安装findspark

4.把winutils.exe插件

放到hadoop解压后的/bin目录下面

5.把以下代码

复制到4.2步骤中,新建的python文件中

#添加此代码
import findspark
findspark.init()
#在spark前,添加此代码
from pyspark.sql import sparksession
spark = sparksession.builder.appname("wordcount").getorcreate()
spark.sparkcontext.textfile("file:///d:/hadoop/hadoop-2.7.7/readme.txt")\
        .flatmap(lambda x: x.split(' '))\
        .map(lambda x: (x, 1))\
        .reducebykey(lambda x, y: x + y)\
        .foreach(print)

必须要有这句话在spark前面!!!

6.测试

出现以上内容,表示pycharm连接spark成功。

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持代码网。

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com