Java调用IK分词器进行分词方式,封装工具类_Java

使用场景

在大数据的场景下，一般用于统计关键词出现的频率，因此我们需要对一些数据文本进行分词，得到我们想要的关键词。

导入依赖

<dependency>
            <groupid>com.janeluo</groupid>
            <artifactid>ikanalyzer</artifactid>
            <version>2012_u6</version>
        </dependency>

分词的使用

arraylist<string> result = new arraylist<>();
// 创建一个reader对象
stringreader reader = new stringreader(keyword);
// 创建一个分词对象
iksegmenter iksegmenter = new iksegmenter(reader, true);
lexeme next = iksegmenter.next();

while ( next != null ) {
      // 获取分词的结果
      result.add(next.getlexemetext());
      next = iksegmenter.next();
}
return result;

分词结果：

usesmart = true时的结果，一个词不会重复出现

usesmart = false时的结果，词会多次出现

显然usesmart = false效果好点

封装工具类

package com.cw.util;

import org.wltea.analyzer.core.iksegmenter;
import org.wltea.analyzer.core.lexeme;

import java.io.ioexception;
import java.io.stringreader;
import java.util.arraylist;
import java.util.list;

/**
 * @author cw
 * @version 1.0
 * @date 2023/3/1 8:41
 * @desc ik分词工具类
 */
public class ikutil {

    /**
     *  分词
     * @param keyword 需要分词的文本
     * @return
     */
    public static list<string> splitkeyword(string keyword) throws ioexception {

        arraylist<string> result = new arraylist<>();
        // 创建一个reader对象
        stringreader reader = new stringreader(keyword);
        // 创建一个分词对象
        iksegmenter iksegmenter = new iksegmenter(reader, false);
        lexeme next = iksegmenter.next();

        while ( next != null ) {
            // 获取分词的结果
            result.add(next.getlexemetext());
            next = iksegmenter.next();
        }
        return result;
    }
}

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持代码网。

Springboot RestTemplate设置超时时间的方法(Spring boot 版本)

java config方式spring boot 版本<=1.3@configurationpublic class appconfig{ @bea... [阅读全文]

springBoot整合jwt实现token令牌认证的示例代码

1. 什么token作为计算机术语时，是“令牌”的意思。token是服务端生成的一串字符串，以作客户端进行请求的一个令牌，当第一次登录后... [阅读全文]

Springboot启动报错Input length = 2的问题解决

springboot启动报错:java.nio.charset.malformedinputexception: input length = 2原因 : 配置... [阅读全文]

idea如何通过maven指定JDK版本

idea通过maven指定jdk版本问题描述如图：设置了通过idea设置了jdk的版本之后，运行 maven build，或者过一段时间之后，项目的编译 jdk... [阅读全文]

SpringBoot整合FTP使用示例教程

一、springboot整合ftp使用1、引入依赖这里引用 apache commons-net依赖，用于ftp客户端操作。<dependency>... [阅读全文]

Java并发编程ArrayBlockingQueue的使用

一、arrayblockingqueue概述arrayblockingqueue是一个基于数组的有界阻塞队列。它在创建时需要指定队列的大小，并且这个大小在之后是... [阅读全文]


验证码：

验证码：

Java调用IK分词器进行分词方式,封装工具类

2024年08月12日 • Java •我要评论

使用场景

导入依赖

分词的使用

封装工具类

总结

相关文章:

发表评论