Stanza v1.4.0 发布,斯坦福自然语言处理库,支持上千种语言

Stanza 是斯坦福 NLP 组的官方 Python NLP(自然语言处理) 库。它支持在 60 多种语言上运行各种准确的自然语

Stanza 是斯坦福 NLP 组的官方 Python NLP(自然语言处理) 库。它支持在 60 多种语言上运行各种准确的自然语言处理工具。

目前该库更新了 1.4.0 版本,此版本将转换器输入集成到 NER 和 conparse 模块。此外,Stanza 现在支持 NER 和 conparse 的其他几种语言。详细变更如下:

接口改进

  • 将 resources.json 和模型下载到临时目录中,以避免多个处理器之间的竞争条件。#213 #1001
  • 自动下载管道模型,无需调用 stanza.download(...) #486 #943
  • 添加关闭下载的功能
  • 添加一个可以设置处理器和包的新接口。 #917
  • 使用预标记标志时,如果可用,请从文本中获取字符偏移量。#967 #975
  • 如果使用 Bert 或其他转换器,则缓存模型,而不是多次加载。 #980
  • 允许在管道的单独运行中禁用处理器。 #945 #947

其他改进

  • 添加 # text 和 # sent_id 到 conll 输出。 #918 #983 #995
  • 将 ner 添加到令牌 conll 输出。 #993 #996
  • 修复缺少的斯洛伐克 MWT 模型。 #971
  • 在下载之前检查是否存在 CoreNLP 模型。 #965
  • 将 run_charlm 脚本转换为 python。 #942

详情可查阅更新公告:https://github.com/stanfordnlp/stanza/releases/tag/v1.4.0

关于作者: qwephp

.

为您推荐