ideaseg 1.1 刚刚发布,该版本主要增加了支持多语种混合内容的分词功能,ideaseg 分词器能识别文本内容中存在的不同语言的内容,分别使用不同的分词器进行处理,提升分词的准确度。
使用方法:
POST _analyze
{
"analyzer": "ideaseg_multilang",
"text": "你好我是中国人,,,,,,,дравствуйте я китаец,Hello word girls,早上好"
}
你可以通过 https://gitee.com/indexea/ideaseg/tree/v1.1/ 获取该版本源码进行构建。
ideaseg 是 Indexea 推出的一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。
HanLP 相比其他诸如 IK、jcseg 等分词器而言,在分词的准确率上有巨大的提升,但速度上有所牺牲。 通过对 HanLP 进行优化配置,ideaseg 在准确度和分词速度上取得了最佳的平衡。
详细的介绍和使用方法请看 https://gitee.com/indexea/ideaseg 。