Java利用DFA算法实现敏感词管理_Java

我们在完成一些文章发布的功能是，可以使用第三方工具如阿里云的内容安全来进行文章的审核，但是这个第三方接口并不能过滤一些敏感词

因此这时候我们需要自己维护一套敏感词。

1.敏感词-过滤

技术选型

方案	说明
数据库模糊查询	效率太低
string.indexof("")查找	数据库量大的话也是比较慢
全文检索	分词再匹配
dfa算法	确定有穷自动机(一种数据结构)

2.dfa实现原理

dfa全称为：deterministic finite automaton,即确定有穷自动机。

存储：一次性的把所有的敏感词存储到了多个map中，就是下图表示这种结构

检索的过程

3.实现步骤

3.1初始化敏感词库

private static int checkword(string text, int beginindex) {
        if (dictionarymap == null) {
            throw new runtimeexception("字典不能为空");
        }
        boolean isend = false;
        int wordlength = 0;
        map<string, object> curmap = dictionarymap;
        int len = text.length();
        // 从文本的第beginindex开始匹配
        for (int i = beginindex; i < len; i++) {
            string key = string.valueof(text.charat(i));
            // 获取当前key的下一个节点
            curmap = (map<string, object>) curmap.get(key);
            if (curmap == null) {
                break;
            } else {
                wordlength ++;
                if ("1".equals(curmap.get("isend"))) {
                    isend = true;
                }
            }
        }
        if (!isend) {
            wordlength = 0;
        }
        return wordlength;
    }

3.3获取匹配的关键词和命中的次数

 public static map<string, integer> matchwords(string text) {
        map<string, integer> wordmap = new hashmap<>();
        int len = text.length();
        for (int i = 0; i < len; i++) {
            int wordlength = checkword(text, i);
            if (wordlength > 0) {
                string word = text.substring(i, i + wordlength);
                // 添加关键词匹配次数
                if (wordmap.containskey(word)) {
                    wordmap.put(word, wordmap.get(word) + 1);
                } else {
                    wordmap.put(word, 1);
                }
 
                i += wordlength - 1;
            }
        }
        return wordmap;
    }

3.4测试

public static void main(string[] args) {
        list<string> list = new arraylist<>();
        list.add("星期天");
        list.add("放假");
        list.add("加班");
        initmap(list);
        string content="我是一个好人，但是我星期天又要加班";
        map<string, integer> map = matchwords(content);
        system.out.println(map);
    }

到此这篇关于java利用dfa算法实现敏感词管理的文章就介绍到这了,更多相关java敏感词管理内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

Java后端请求接收多个对象入参的数据方法(推荐)

在java后端开发中，如果我们希望接收多个对象作为http请求的入参，可以使用spring boot框架来简化这一过程。spring boot提供了强大的res... [阅读全文]

java程序中date类型比较大小问题

前言工作中遇到时间的比较问题，这里提供几种常用的date类型数据比较大小方式。compareto()方法before()方法after()方法gettime()... [阅读全文]

SpringBoot集成Mongodb的操作方法

1.什么是mongodb？ mongodb是一种非关系型数据库，被广泛用于大型数据存储和分布式系统的构建。mongodb支持的数据模型比传统的关系型数据库更加... [阅读全文]

Win10 IDEA如何连接虚拟机中的Hadoop(HDFS)

获取虚拟机的ip虚拟机终端输入ip a关闭虚拟机防火墙sudo ufw disable修改hadoop的core-site.xml文件将localhost修改为虚拟机局域网ip# …

2024年11月08日 • 编程语言

解读Maven安装全过程

maven 下载安装1.下载maven选择版本注意：idea 2022 兼容maven 3.8.1及之前的所用版本idea 2021 兼容maven 3.8.1及之前的所用版本id…

2024年11月08日 • 编程语言

基于SpringBoot实现QQ邮箱验证码注册功能

开启邮箱服务（1）首先打开qq邮箱，点击设置并来到账号页面（2）找到并开通以下的邮件协议服务，而且服务开启也较为简单，需要我们发送一个短信到指定的号码，开启后平... [阅读全文]


验证码：

验证码：

Java利用DFA算法实现敏感词管理

2024年11月09日 • Java •我要评论