Jcseg 是基于 mmseg 算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于 Jetty 的 web 服务器,方便各大语言直接 http 调用,同时提供了最新版本的 lucene,solr 和 elasticsearch 的分词接口!
2.6.3 版本主要更新如下:
1、优化 mmseg 的过滤实现,主要是运行效率上的。
2、修复一个因为 “单字词条覆盖” 导致的 bug,这是一个隐藏很久的老 bug了,触发的情况会导致 “最大语素自由度” 的过滤异常,例如:
# 怀旧时,词条 “时” 本身比 “怀” 的语素自由度高,也就是这个且分结果应该如下:
jcseg~tokenizer:complex>> 怀旧时
分词结果:
怀旧[0,2]/v 时[2,1]/nhf
Done, total:3, tokens:2, in 0.00000sec
# 这个 bug 出现的时候且分结果会是错误的,例如:怀/ 旧时/
3、词库更新:增加了一些新词条,例如 https 等。
2.6.3版本下载地址:
1、Gitee:https://gitee.com/lionsoul/jcseg/tree/v2.6.3-release
2、Github:https://github.com/lionsoul2014/jcseg/releases/tag/v2.6.3-release