Jcseg 2.6.3 发布 - Java 轻量级开源自然语言处理包


Jcseg 是基于 mmseg 算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于 Jetty 的 web 服务器,方便各大语言直接 http 调用,同时提供了最新版本的 lucene,solr 和 elasticsearch 的分词接口!

2.6.3 版本主要更新如下

1、优化 mmseg 的过滤实现,主要是运行效率上的。

2、修复一个因为 “单字词条覆盖” 导致的 bug,这是一个隐藏很久的老 bug了,触发的情况会导致 “最大语素自由度” 的过滤异常,例如:

# 怀旧时,词条 “时” 本身比 “怀” 的语素自由度高,也就是这个且分结果应该如下:
jcseg~tokenizer:complex>> 怀旧时
分词结果:
怀旧[0,2]/v 时[2,1]/nhf
Done, total:3, tokens:2, in 0.00000sec

# 这个 bug 出现的时候且分结果会是错误的,例如:怀/ 旧时/

3、词库更新:增加了一些新词条,例如 https 等。

2.6.3版本下载地址

1、Gitee:https://gitee.com/lionsoul/jcseg/tree/v2.6.3-release

2、Github:https://github.com/lionsoul2014/jcseg/releases/tag/v2.6.3-release


相關推薦

2023-10-11

进行构建。 ideaseg 是 Indexea 推出的一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。 HanLP 相比其他诸如 IK、jcs

2023-04-07

Xmake 是一个基于 Lua 的轻量级跨平台构建工具。 它非常的轻量,没有任何依赖,因为它内置了 Lua 运行时。 它使用 xmake.lua 维护项目构建,相比 makefile/CMakeLists.txt,配置语法更加简洁直观,对新手非常友好,短时间内就能快

2023-07-09

YMP 是一个非常简单、易用的轻量级 Java 应用开发框架,涵盖 AOP、IoC、WebMVC、ORM、Validation、Plugin、Serv、Cache 等特性,主要技术特点: 采用组件化、模块方式打包,可按需装配,灵活可扩展; 采用微内核实现 AutoScan、AOP、

2023-02-11

发的原创 IM 通信层框架: 历经 8 年、久经考验; 超轻量级、高度提炼,lib 包 50KB 以内; 精心封装,一套 API 同时支持 UDP、TCP、WebSocket 三种协议(可能是全网唯一开源的); 客户端支持 iOS、Android、标准 Java、H5、

2022-04-18

Eurynome Cloud 是一款企业级微服务架构和服务能力开发平台。基于Spring Boot 2.6.6、Spring Cloud 2021.0.1、Spring Cloud Alibaba 2021.0.1.0、Nacos 2.0.4 等最新版本开发,遵循SpringBoot编程思想,高度模块化和可配置化。具备服务发现、配置、熔断

2024-08-20

为用户提供更稳定、流畅的创新操作体验。 MoonBit自去年发布 alpha 版后,反响热烈。经过一年的高速迭代,MoonBit 到达了 beta 预览版的里程碑:在核心语言特性上,MoonBit媲美、甚至超越了大部分主流语言的1.0版本;语言特性的

2022-09-06

项目介绍 MiniDao 是一款轻量级 JAVA 持久层框架,基于 SpringJdbc + freemarker 实现,具备 Mybatis 一样的 SQL 分离和逻辑标签能力。Minidao 产生的初衷是为了解决 Hibernate 项目,在复杂 SQL 具备 Mybatis 一样的灵活能力,同时支持事务同

2022-09-21

预览阶段 为 Java 引入虚拟线程,虚拟线程是 JDK 实现的轻量级线程,它在其他多线程语言中已经被证实是十分有用的,比如 Go 中的 Goroutine、Erlang 中的进程。虚拟线程避免了上下文切换的额外耗费,兼顾了多线程的优点,简化

2023-03-22

2 预览阶段 为 Java 引入虚拟线程,虚拟线程是 JDK 实现的轻量级线程,它在其他多线程语言中已经被证实是十分有用的,比如 Go 中的 Goroutine、Erlang 中的进程。虚拟线程避免了上下文切换的额外耗费,兼顾了多线程的优点,简化

2022-07-28

线程(预览版) 将虚拟线程引入 Java 平台。虚拟线程是轻量级线程,可显著地减少编写、维护和观察高吞吐量并发应用程序的工作量。 这是一个预览 API,我们 OSC 曾对此进行了详细介绍 。 Vector API (第四次孵化) 引入

2024-06-22

仓颉语言采用用户态线程模型,每个仓颉线程都是极其轻量级的执行实体,拥有独立的执行上下文但共享内存。对开发者来说,用户态线程的使用和传统的系统线程的使用方式保持一致,没有带来额外负担;而从运行态视角看

2023-10-09

开发的原创IM通信层框架: 历经10年、久经考验; 超轻量级、高度提炼,lib包50KB以内; 精心封装,一套API同时支持UDP、TCP、WebSocket三种协议(可能是全网唯一开源的); 客户端支持 iOS、Android、标准Java、H5、小程序

2023-11-07

数据采集 ETL & 流批一体化框架 bboss v7.1.1发布 --- 高效、稳定、快速、安全 本次版本最大亮点:新增MongoDB CDC输入插件,可以增量模式采集MongoDB 增、删、改数据,也可每次作业重启从最新位置采集MongoDB 增、删、改数据,

2022-11-27

轻量级容错组件 Resilience4j 发布了最新的 2.0.0 版本,版本号上了个大号,但是没有什么额外的更新,只是更新了依赖包,分别是: 移除对 Vavr 的依赖 Upgraded to Java 17 Upgraded to Kotlin 1.7.20 Upgraded to Spring Boot 2.7 Upgraded to