java spark文件读取乱码问题的解决方法_Java

一、问题

环境为jdk1.8，spark3.2.1，读取hadoop中gb18030编码格式的文件出现乱码。

二、心酸历程

为了解决该问题，尝试过很多种方法，但都没有成功

1、textfile+configuration方式——乱码

        string filepath = "hdfs:///user/test.deflate";
        //创建sparksession和sparkcontext的实例
        string encoding = "gb18030";

        sparksession spark = sparksession.builder()
                .master("local[*]").appname("spark example")
                .getorcreate();

        javasparkcontext sc = javasparkcontext.fromsparkcontext(spark.sparkcontext());
        configuration entries = sc.hadoopconfiguration();
        entries.set("textinputformat.record.delimiter", "\n");
        entries.set("mapreduce.input.fileinputformat.inputdir",filepath);entries.set("mapreduce.input.fileinputformat.encoding", "gb18030");
        
        javardd<string> rdd = sc.textfile(filepath);

2、spark.read().option方式——乱码

        dataset<row> load = spark.read().format("text").option("encoding", "gb18030").load(filepath);

        load.foreach(row -> {
            system.out.println(row.tostring());
            system.out.println(new string(row.tostring().getbytes(encoding),"utf-8"));
            system.out.println(new string(row.tostring().getbytes(encoding),"gbk"));


        });

3、newapihadoopfile+configuration——乱码

        javapairrdd<longwritable, text> longwritabletextjavapairrdd = sc.newapihadoopfile(filepath, textinputformat.class, longwritable.class, text.class, entries );

        system.out.println("longwritabletextjavapairrdd  count ="+longwritabletextjavapairrdd.count());
        longwritabletextjavapairrdd.foreach(k->{

            system.out.println(k._2);
        });

4、newapihadoopfile+自定义类——乱码

        javapairrdd<longwritable, text> longwritabletextjavapairrdd = sc.newapihadoopfile(filepath, gbkinputformat.class, longwritable.class, text.class, entries );

        system.out.println("longwritabletextjavapairrdd  count ="+longwritabletextjavapairrdd.count());
        longwritabletextjavapairrdd.foreach(k->{

            system.out.println(k._2);
        });

代码中gbkinputformat.class是textinputformat.class复制将内部utf-8修改为gb18030所得

5、newapihadooprdd+自定义类——乱码

        javapairrdd<longwritable, text> longwritabletextjavapairrdd1 = sc.newapihadooprdd(entries, gbkinputformat.class, longwritable.class, text.class);
        system.out.println("longwritabletextjavapairrdd  count ="+longwritabletextjavapairrdd1.count());
        longwritabletextjavapairrdd1.foreach(k->{
            system.out.println(k._2());
        });

三、最终解决

上述方法感觉指定的字符编码并没有生效不知道为什么，如有了解原因的还请为我解惑，谢谢

最终解决方案如下

       javapairrdd<longwritable, text> longwritabletextjavapairrdd = sc.newapihadoopfile(filepath, textinputformat.class, longwritable.class, text.class, new configuration());

        system.out.println("longwritabletextjavapairrdd  count ="+longwritabletextjavapairrdd.count());
        longwritabletextjavapairrdd.foreach(k->{
            system.out.println(new string(k._2.copybytes(), encoding));
        });

        javapairrdd<longwritable, text> longwritabletextjavapairrdd1 = sc.newapihadooprdd(entries, textinputformat.class, longwritable.class, text.class);

        system.out.println("longwritabletextjavapairrdd  count ="+longwritabletextjavapairrdd1.count());
        longwritabletextjavapairrdd1.foreach(k->{
            system.out.println(new string(k._2().copybytes(),encoding));
            system.out.println(new string(k._2.copybytes(),encoding));
        });

主要是new string(k._2().copybytes(),encoding)得以解决

到此这篇关于java spark文件读取乱码问题的解决方法的文章就介绍到这了,更多相关java spark文件读取乱码内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

Transactional注解导致Spring Bean定时任务失效的解决方法

背景业务需要定时捞取数据库中新增的数据做数据处理及分析，更新状态，处理结束。而我们不能随意定义线程池，规定使用统一的标准规范来定义线程池。如在配置文件中配置线程池的属性：名称，线程…

2024年10月28日 • 编程语言

SpringSecurity 认证实现流程分析

一、初步理解springsecurity的原理其实就是一个过滤器链，内部包含了提供各种功能的过滤器。当前系统中springsecurity过滤器链中有哪些过滤器及它们的顺序。核心过…

2024年10月28日 • 编程语言

SpringBoot统一数据返回的方法实现

一. 概念其实统一数据返回是运用了aop（对某一类事情的集中处理）的思维，简单概括就是在我们进行前后端数据交互的时候，能够让后端的数据进行统一的打包封装，返回给... [阅读全文]

MyBatis-Plus自定义SQL和复杂查询的实现

mybatis-plus 是 mybatis 的增强版，提供了许多开箱即用的 crud 操作。然而，在实际项目中，开发者常常需要编写自定义 sql 以处理更复杂... [阅读全文]

Java中Executor和Executors的区别小结

在java并发编程中，executor和executors是两个密切相关但功能不同的类或接口，它们都与线程池管理和任务执行相关。理解这两者的区别对正确使用jav... [阅读全文]

java中阻塞队列和非阻塞队列的实现

在 java 中，**阻塞队列（blocking queue）和非阻塞队列（non-blocking queue）**是两种用于并发编程的队列类型，它们在多线程... [阅读全文]


验证码：

验证码：

java spark文件读取乱码问题的解决方法

2024年10月28日 • Java •我要评论