spring boot 使用DFA算法实现敏感词过滤

tech2024-12-09 27

spring boot 使用DFA算法实现敏感词过滤

敏感词、文字过滤是一个网站必不可少的功能，如何设计一个好的、高效的过滤算法是非常有必要的。

DFA算法简介

DFA全称为：Deterministic Finite Automaton,即确定有穷自动机。其特征为：有一个有限状态集合和一些从一个状态通向另一个状态的边，每条边上标记有一个符号，其中一个状态是初态，某些状态是终态。但不同于不确定的有限自动机，DFA中不会有从同一状态出发的两条边标志有相同的符号。

确定：状态以及引起状态转换的事件都是可确定的，不存在“意外”。有穷：状态以及事件的数量都是可穷举的。

计算机操作系统中的进程状态与切换可以作为 DFA 算法的一种近似理解。如下图所示，其中椭圆表示状态，状态之间的连线表示事件，进程的状态以及事件都是可确定的，且都可以穷举。

数据结构

state_event_dict = { "匹": { "配": { "算": { "法": { "is_end": True }, "is_end": False }, "关": { "键": { "词": { "is_end": True }, "is_end": False }, "is_end": False }, "is_end": False }, "is_end": False }, "信": { "息": { "抽": { "取": { "is_end": True }, "is_end": False }, "is_end": False }, "is_end": False } }

Java实现DFA算法实现敏感词过滤

定义敏感词词库让SpringBoot加载到这里用到了 @Bean 以及 @Autowired 注入到算法map里面 @Configuration public class CheckConfig { @Autowired private DFAUtil dfaUtil; @Bean public void init(){ Set<String> set=new HashSet<>(); set.add("你是"); set.add("我是"); set.add("他是"); set.add("弟弟"); set.add("大家好"); //将集合放到算法里，这里可以优化，写词库文件等等， dfaUtil.createDFAHashMap(set); } } 创建AOP切面前置通知 package com.yxl.aspect; @Component @Aspect @Slf4j public class CheckInputParameterAspect { private static final Log Logger = LogFactory.getLog(com.yxzapp.aspect.CheckInputParameterAspect.class); @Autowired private DFAUtil dfaUtil ; /** * 定义切入点:拦截controller层所有方法 */ @Pointcut("execution(public * com.yxl.modules.*..*Controller.*(..))") public void params() { } /** * 前置通知 * * @param * @throws Throwable */ @Before("params()") public Object before(JoinPoint point) throws Throwable { ServletRequestAttributes attributes = (ServletRequestAttributes) RequestContextHolder.getRequestAttributes(); HttpServletRequest request = Objects.requireNonNull(attributes).getRequest(); //获取请求参数 Object[] args = point.getArgs(); // 数组转 String Set<String> sensitiveWordByDFAMap = dfaUtil.getSensitiveWordByDFAMap(StringUtils.join(args,","), 1); Logger.info("敏感词有"+sensitiveWordByDFAMap.size()+"个"); if(sensitiveWordByDFAMap.size()>=1){ //自定义的异常 throw new BizException("500","您输入的内容有敏感词"); } Logger.info("当前调用接口-[" + request.getRequestURL() + "]"); return args; } } DFA算法工具类 package com.yxzapp.utils; import org.springframework.stereotype.Component; import java.util.HashMap; import java.util.HashSet; import java.util.Set; @Component public class DFAUtil { HashMap<String, Object> dfaMap; public static final int minMatchType=1; public static final int maxMatchType=2; /*{日= * {本= * {人={isEnd=1}, * 鬼= * {子={isEnd=1}, * isEnd=0}, * isEnd=0}, * isEnd=0}, * * 大= * {汉= * {民={isEnd=0, * 族={isEnd=1}}, * isEnd=0}, * isEnd=0, * 中={isEnd=0, * 华={isEnd=1, * 帝={isEnd=0, * 国={isEnd=1}}}}}}*/ /**set作为敏感词，创建出对应的dfa的Map，以供检验敏感词 * @param set */ public void createDFAHashMap(Set<String> set){ HashMap<String, Object> nowMap; //根据set的大小，创建map的大小 dfaMap=new HashMap<>(set.size()); //对set里的字符串进行循环 for(String key:set){ //对每个字符串最初，nowMap就是dfaMap nowMap=dfaMap; for(int i=0;i<key.length();i++){ //一个个字符循环 String nowChar=String.valueOf(key.charAt(i)); //根据nowChar得到nowMap里面对应的value HashMap<String, Object> map=(HashMap<String, Object>)nowMap.get(nowChar); //如果map为空，则说明nowMap里面没有以nowChar开头的东西，则创建一个新的hashmap， //以nowChar为key，新的map为value，放入nowMap if(map==null){ map=new HashMap<String,Object>(); nowMap.put(nowChar, map); } //nowMap=map，就是nowChar对应的对象 nowMap=map; //最后在nowMap里设置isEnd //如果nowMap里面已经有isEnd，并且为1，说明以前已经有关键字了，就不再设置isEnd //因为如果没有这一步，大中华和大中华帝国，先设置大中华 //在大中华帝国设置的时候，华对应的map有isEnd=1，如果这时对它覆盖，就会isEnd=0，导致大中华这个关键字失效 if(nowMap.containsKey("isEnd")&&nowMap.get("isEnd").equals("1")){ continue; } if(i!=key.length()-1){ nowMap.put("isEnd", "0"); } else{ nowMap.put("isEnd", "1"); } } } System.out.println(dfaMap); } /** 用创建的dfaMap，根据matchType检验字符串string是否包含敏感词，返回包含所有对于敏感词的set * @param string 要检查是否有敏感词在内的字符串 * @param matchType 检查类型，如大中华帝国牛逼对应大中华和大中华帝国两个关键字，1为最小检查，会检查出大中华，2位最大，会检查出大中华帝国 * @return */ public Set<String> getSensitiveWordByDFAMap(String string,int matchType){ Set<String> set=new HashSet<>(); for(int i=0;i<string.length();i++){ //matchType是针对同一个begin的后面，在同一个begin匹配最长的还是最短的敏感词 int length=getSensitiveLengthByDFAMap(string,i,matchType); if(length>0){ set.add(string.substring(i,i+length)); //这个对应的是一个敏感词内部的关键字（不包括首部），如果加上，大中华帝国，对应大中华和中华两个敏感词，只会对应大中华而不是两个 //i=i+length-1;//减1的原因，是因为for会自增 } } return set; } /**如果存在，则返回敏感词字符的长度，不存在返回0 * @param string * @param beginIndex * @param matchType 1：最小匹配规则，2：最大匹配规则 * @return */ public int getSensitiveLengthByDFAMap(String string,int beginIndex,int matchType){ //当前匹配的长度 int nowLength=0; //最终匹配敏感词的长度，因为匹配规则2，如果大中华帝，对应大中华，大中华帝国，在华的时候，nowLength=3，因为是最后一个字，将nowLenth赋给resultLength //然后在帝的时候，now=4，result=3，然后不匹配，resultLength就是上一次最大匹配的敏感词的长度 int resultLength=0; HashMap<String, Object> nowMap=dfaMap; for(int i=beginIndex;i<string.length();i++){ String nowChar=String.valueOf(string.charAt(i)); //根据nowChar得到对应的map，并赋值给nowMap nowMap=(HashMap<String, Object>)nowMap.get(nowChar); //nowMap里面没有这个char，说明不匹配，直接返回 if(nowMap==null){ break; } else{ nowLength++; //如果现在是最后一个，更新resultLength if("1".equals(nowMap.get("isEnd"))){ resultLength=nowLength; //如果匹配模式是最小，直接匹配到，退出 //匹配模式是最大，则继续匹配，resultLength保留上一次匹配到的length if(matchType==minMatchType){ break; } } } } return resultLength; } } 测试 @ApiOperation(value = "测试", notes = "测试") @PostMapping("gettest") public ResultBody gettest(@RequestParam String aa, @RequestParam String bb){ return ResultBody.success(aa+bb); }

有更好方式或者优化的小伙伴可以评论

个人博客： http://blog.yanxiaolong.cn/.

最新回复(0)