Stanza 是斯坦福 NLP 组的官方 Python NLP(自然语言处理) 库。它支持在 60 多种语言上运行各种准确的自然语言处理工具。
目前该库更新了 1.4.0 版本,此版本将转换器输入集成到 NER 和 conparse 模块。此外,Stanza 现在支持 NER 和 conparse 的其他几种语言。详细
变更如下:
接口改进
- 将 resources.json 和模型下载到临时目录中,以避免多个处理器之间的竞争条件。#213 #1001
- 自动下载管道模型,无需调用
stanza.download(...)
#486 #943
- 添加关闭下载的功能
- 添加一个可以设置处理器和包的新接口。 #917
- 使用预标记标志时,如果可用,请从文本中获取字符偏移量。#967 #975
- 如果使用 Bert 或其他转换器,则缓存模型,而不是多次加载。 #980
- 允许在管道的单独运行中禁用处理器。 #945 #947
其他改进
- 添加 # text 和 # sent_id 到 conll 输出。 #918 #983 #995
- 将 ner 添加到令牌 conll 输出。 #993 #996
- 修复缺少的斯洛伐克 MWT 模型。 #971
- 在下载之前检查是否存在 CoreNLP 模型。 #965
- 将 run_charlm 脚本转换为 python。 #942
详情可查阅更新公告:https://github.com/stanfordnlp/stanza/releases/tag/v1.4.0