Hutool Hutool
(opens new window)
🏡首页
📖指南
  • 核心(Hutool-core)
  • 配置文件(Hutool-setting)
  • 日志(Hutool-log)
  • 缓存(Hutool-cache)
  • JSON(Hutool-json)
  • 加密解密(Hutool-crypto)
  • DFA查找(Hutool-dfa)
  • 数据库(Hutool-db)
  • HTTP客户端(Hutool-http)
  • 定时任务(Hutool-cron)
  • 扩展(Hutool-extra)
  • 布隆过滤(Hutool-bloomFilter)
  • 切面(Hutool-aop)
  • 脚本(Hutool-script)
  • Office文档操作(Hutool-poi)
  • 系统调用(Hutool-system)
  • 图形验证码(Hutool-captcha)
  • 网络Socket(Hutool-socket)
  • JWT(Hutool-jwt)
💡javaDoc (opens new window)
⏳更新记录 (opens new window)
  • 🍎gitee (opens new window)
  • 🍏github (opens new window)
(opens new window)
🏡首页
📖指南
  • 核心(Hutool-core)
  • 配置文件(Hutool-setting)
  • 日志(Hutool-log)
  • 缓存(Hutool-cache)
  • JSON(Hutool-json)
  • 加密解密(Hutool-crypto)
  • DFA查找(Hutool-dfa)
  • 数据库(Hutool-db)
  • HTTP客户端(Hutool-http)
  • 定时任务(Hutool-cron)
  • 扩展(Hutool-extra)
  • 布隆过滤(Hutool-bloomFilter)
  • 切面(Hutool-aop)
  • 脚本(Hutool-script)
  • Office文档操作(Hutool-poi)
  • 系统调用(Hutool-system)
  • 图形验证码(Hutool-captcha)
  • 网络Socket(Hutool-socket)
  • JWT(Hutool-jwt)
💡javaDoc (opens new window)
⏳更新记录 (opens new window)
  • 🍎gitee (opens new window)
  • 🍏github (opens new window)
  • 快速入门

  • 核心(Hutool-core)

  • 配置文件(Hutool-setting)

  • 日志(Hutool-log)

  • 缓存(Hutool-cache)

  • JSON(Hutool-json)

  • 加密解密(Hutool-crypto)

  • DFA查找(Hutool-dfa)

  • 数据库(Hutool-db)

  • HTTP客户端(Hutool-http)

  • 定时任务(Hutool-cron)

  • 扩展(Hutool-extra)

    • 概述
    • Servlet工具-ServletUtil
    • 二维码工具-QrCodeUtil
    • 邮件工具-MailUtil
    • cglib

    • emoji

    • FTP

    • Jsch封装

    • Spring

    • 中文分词

      • 中文分词封装-TokenizerUtil
        • 介绍
        • 原理
        • 使用
          • 解析文本并分词
          • 自定义模板引擎
    • 压缩

    • 拼音

    • 表达式引擎

    • 模板引擎

  • 布隆过滤(Hutool-bloomFilter)

  • 切面(Hutool-aop)

  • 脚本(Hutool-script)

  • Office文档操作(Hutool-poi)

  • 系统调用(Hutool-system)

  • 图形验证码(Hutool-captcha)

  • 网络Socket(Hutool-socket)

  • JWT(Hutool-jwt)

  • 指南
  • 扩展(Hutool-extra)
  • 中文分词
Hutool
2023-03-28
目录

中文分词封装-TokenizerUtil

特别赞助 by:

# 介绍

现阶段,应用于搜索引擎和自然语言处理的中文分词库五花八门,使用方式各不统一,虽然有适配于Lucene和Elasticsearch的插件,但是我们想在多个库之间选择更换时,依旧有学习时间。

Hutool针对常见中文分词库做了统一接口封装,即定义一套规范,隔离各个库的差异,做到一段代码,随意更换。

Hutool现在封装的引擎有:

  • Ansj (opens new window)
  • HanLP (opens new window)
  • IKAnalyzer (opens new window)
  • Jcseg (opens new window)
  • Jieba (opens new window)
  • mmseg4j (opens new window)
  • Word (opens new window)
  • Smartcn (opens new window)

注意 此工具和模块从Hutool-4.4.0开始支持。

# 原理

类似于Java日志门面的思想,Hutool将分词引擎的渲染抽象为三个概念:

  • TokenizerEngine 分词引擎,用于封装分词库对象
  • Result 分词结果接口定义,用于抽象对文本分词的结果,实现了Iterator和Iterable接口,用于遍历分词
  • Word 表示分词中的一个词,既分词后的单词,可以获取单词文本、起始位置和结束位置等信息

通过实现这三个接口,用户便可抛开分词库的差异,实现多文本分词。

Hutool同时会通过TokenizerFactory根据用户引入的分词库的jar来自动选择用哪个库实现分词。

# 使用

# 解析文本并分词

//自动根据用户引入的分词库的jar来自动选择使用的引擎
TokenizerEngine engine = TokenizerUtil.createEngine();

//解析文本
String text = "这两个方法的区别在于返回值";
Result result = engine.parse(text);
//输出:这 两个 方法 的 区别 在于 返回 值
String resultStr = CollUtil.join((Iterator<Word>)result, " ");

当你引入Ansj,会自动路由到Ansj的库去实现分词,引入HanLP则会路由到HanLP,依此类推。

也就是说,使用Hutool之后,无论你用任何一种分词库,代码不变。

# 自定义模板引擎

此处以HanLP为例:

TokenizerEngine engine = new HanLPEngine();

//解析文本
String text = "这两个方法的区别在于返回值";
Result result = engine.parse(text);
//输出:这 两个 方法 的 区别 在于 返回 值
String resultStr = CollUtil.join((Iterator<Word>)result, " ");
上次更新: 2025/05/06, 10:48:51
Spring工具-SpringUtil
压缩封装-CompressUtil

← Spring工具-SpringUtil 压缩封装-CompressUtil→

Theme by Vdoing | Copyright © 2023-2025 Hutool | MulanPSL-2.0
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×