pyflink作业在yarn上提交失败:python脚本缺失原因分析及解决方法
使用yarn提交pyflink作业时,可能会遇到找不到python脚本的错误,例如:
2024-05-24 16:38:02,030 info org.apache.flink.client.python.pythondriver [] - pyflink181.zip/pyflink181/bin/python: can't open file 'hdfs://nameservice1/pyflink/wc2.py': [errno 2] no such file or directory
这通常发生在使用以下类似命令时:
./flink run-application -t yarn-application \ -dyarn.application.name=flinkcdctestpython \ -dyarn.provided.lib.dirs="hdfs://nameservice1/pyflink/flink-dist-181" \ -pyarch hdfs://nameservice1/pyflink/pyflink181.zip \ -pyclientexec pyflink181.zip/pyflink181/bin/python \ -pyexec pyflink181.zip/pyflink181/bin/python \ -py hdfs://nameservice1/pyflink/wc2.py
与之对比,java作业提交则通常不会出现问题:
./flink run-application -t yarn-application \ -djobmanager.memory.process.size=1024m \ -dtaskmanager.memory.process.size=1024m \ -dyarn.application.name=flinkcdctest \ -dyarn.provided.lib.dirs="hdfs://nameservice1/pyflink/flink-dist-181" \ hdfs://nameservice1/pyflink/statemachineexample.jar
java作业成功提交,说明hdfs配置正确,问题在于pyflink作业的python脚本路径或配置。
排查及解决步骤
-
验证python脚本路径: 使用hdfs dfs -ls hdfs://nameservice1/pyflink/wc2.py命令检查脚本wc2.py是否存在于指定的hdfs路径。如果不存在,请确保正确上传脚本到该路径。
-
检查pyflink配置: 仔细检查-pyarch、-pyclientexec和-pyexec参数,确保它们准确指向pyflink环境和python解释器。 pyflink181.zip必须包含所有必要的python库和执行环境。
-
权限问题: 使用hdfs dfs -ls -h hdfs://nameservice1/pyflink/wc2.py查看脚本的hdfs权限。 如果权限不足,使用hdfs dfs -chmod 755 hdfs://nameservice1/pyflink/wc2.py修改权限,确保yarn和flink用户拥有读取权限。
-
日志分析: 启用flink和yarn的详细日志记录,分析错误日志以获取更具体的错误信息和发生位置。
-
python环境兼容性: 确保pyflink使用的python版本与开发脚本时使用的版本一致,避免版本不兼容导致脚本无法识别或执行。
通过以上步骤,系统地排查问题,并根据实际情况调整配置,即可解决pyflink作业在yarn上提交时找不到python脚本的问题。 如果问题仍然存在,请提供更详细的flink和yarn日志信息以便进一步分析。
以上就是在yarn上提交pyflink作业时,为什么会报错无法找到python脚本?的详细内容,更多请关注代码网其它相关文章!
发表评论