ideaseg 1.1 发布,基于 NLP 的中文分词器


ideaseg 1.1 刚刚发布,该版本主要增加了支持多语种混合内容的分词功能,ideaseg 分词器能识别文本内容中存在的不同语言的内容,分别使用不同的分词器进行处理,提升分词的准确度。

使用方法:

POST _analyze
{
"analyzer": "ideaseg_multilang",
"text": "你好我是中国人,,,,,,,дравствуйте я китаец,Hello word girls,早上好"
}

你可以通过 https://gitee.com/indexea/ideaseg/tree/v1.1/ 获取该版本源码进行构建。

ideaseg 是 Indexea 推出的一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。

HanLP 相比其他诸如 IK、jcseg 等分词器而言,在分词的准确率上有巨大的提升,但速度上有所牺牲。 通过对 HanLP 进行优化配置,ideaseg 在准确度和分词速度上取得了最佳的平衡。

详细的介绍和使用方法请看 https://gitee.com/indexea/ideaseg 


相關推薦

2022-09-06

EasyNLP 的中文 CLUE/FewCLUE 等的 Benchmark 知识预训练技术: 发布一系列知识预训练模型,致力于提升预训练模型的常识性和知识性 中文预训练模型:发布针对中文的 SOTA 的预训练模型,降低中文预训练技术门槛 多模态预训练:

2023-01-10

Jcseg 是基于 mmseg 算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于 Jetty 的 web 服务器,方便各大语言直接 http 调用,同时提供了最新版本的 lucene

2023-11-04

司创始团队曾深度参与智源·悟道大模型的研发,目前已发布产品包括世界首个中文及跨语言反向词典WantWords、名句语义检索系统WantQuotes、智能写作工具深言达意等。 根据介绍,LingoWhale-8B模型是拥有约80亿参数的中英双语大语

2023-09-16

2023 Google 开发者大会精彩演讲回顾 Pigsty 在 PostgreSQL 16 发布后跟进了全新版本 Pigsty v2.4,提供了对 PostgreSQL 16 正式版的完整支持。此外在 v2.4 中,还对监控已有PG实例,特别是 RDS for PostgreSQL 与 PolarDB 提供了额外的支持。Redis 监

2023-07-15

云片、网易云) V6.8.0版本更新 2023年07月14日ModStartCMS发布v6.8.0版本,增加了以下16个特性: [新功能] 内容区块增加根据ID获取内容块的方法 [新功能] 用户注册、登录、找回密码等页面增加canonical优化爬虫路径 [新功

2022-10-08

墨干编辑器 v1.1.1-rc1 已经发布,基于 GNU TeXmacs 的结构化编辑器。 马上下载 点我下载 系统 MD5校验 Gitee Windows 10及以上版本 1ba830f010d3a7494a9a15c0d2ba374b Gitee macOS >= 10.15 1a30c95cc201ae9945c3e51880778602

2023-08-16

本次 v3.6.0 版本,主要强化全文索引能力,以及优化部分场景下的 MATCH 性能。 强化 强化增强全文索引功能,具体 pr 参见:#5567、#5575、#5577、#5580、#5584、#5587 优化 支持使用 MATCH 子句检索 VID 或属性索引时使用

2023-04-03

彭博 (Bloomberg) 发布了一篇研究报告,详细介绍了新型的大规模生成式 AI 模型 BloombergGPT 的开发。这种大型语言模型(LLM)专门针对各种金融数据进行了训练,以支持金融行业内多样化的自然语言处理(NLP)任务。 公告称,基于

2023-11-21

ww.oschina.net/p/mathlabtool 更新功能列表(231120): 增加 NLP 交互接口。 mlt_AI_NLP_chat(function (msg, file_dir){ mlt_page_console_log('get_msg:', msg, file_dir, '\n'); var ret_msg = 'ret_' + msg; mlt_page_console_log('ret_msg:', ret_msg, '\n'); return ret_msg; });

2024-01-02

Vue 3.4 已正式发布,代号"🏀 Slam Dunk"(灌篮高手)。 新版本主要变化 重写模板解析器,速度提升了 2 倍 重构响应性系统 (Reactivity System),让 effect 的触发更准确高效 优化 API,比如defineModel进入稳定阶段,以及绑定 props 时

2024-05-18

亲爱的社区小伙伴们,Apache Doris 2.0.10 版本已于 2024 年 5 月 15 日正式与大家见面,该版本提交了 83 个改进项以及问题修复,进一步提升了系统的性能及稳定性,欢迎大家下载体验。 官网下载: https://doris.apache.org/download/ GitHub

2023-10-26

Language Model Evaluation Harness 当一个新的大语言模型(LLM)发布时,通常都会被进行评估,将该模型与 ChatGPT 在某个基准上进行比较,很多公司可能会使用 lm-eval-harness 来生成评估分数。lm-eval-harness 由分布式人工智能研究所 Eleuther

2024-10-08

误和潜在的存储问题。 打磨了一年多时间后,今天正式发布了 V2.1.1 版本,该版本是个 BUG 修正版本,如有需要可以尽快升级。 自 V2.0 开始的更新日志如下: 1. KVDB(键值数据库): 性能优化与错误修复: 修复运行

2023-03-01

HanLP 1.8.4 现已发布。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模