docTR 0.6.0 发布,OCR 文档文本识别库


docTR 是一个无缝、高性能且可访问的库,用于由深度学习支持的 OCR 相关任务。

docTR 0.6.0 发布了,doctr 0.6.0 需要 TensorFlow >= 2.9.0 或 PyTorch >= 1.8.0。

版本亮点:

与 Huggingface Hub 完全集成

  • 从 Hub 加载:
from doctr.io import DocumentFile
from doctr.models import ocr_predictor, from_hub
image = DocumentFile.from_images(['data/example.jpg'])
# Load a custom detection model from huggingface hub
det_model = from_hub('Felix92/doctr-torch-db-mobilenet-v3-large')
# Load a custom recognition model from huggingface hub
reco_model = from_hub('Felix92/doctr-torch-crnn-mobilenet-v3-large-french')
# You can easily plug in this models to the OCR predictor
predictor = ocr_predictor(det_arch=det_model, reco_arch=reco_model)
result = predictor(image)
  • 推送到 Hub:
from doctr.models import recognition, login_to_hub, push_to_hf_hub
login_to_hub()
my_awesome_model = recognition.crnn_mobilenet_v3_large(pretrained=True)
push_to_hf_hub(my_awesome_model, model_name='doctr-crnn-mobilenet-v3-large-french-v1', task='recognition', arch='crnn_mobilenet_v3_large')

文档:https://mindee.github.io/doctr/using_doctr/sharing_models.html

新模型(两个框架)

  • 分类:VisionTransformer(ViT)
  • 识别:用于场景文本识别的 Vision Transformer (ViTSTR)

错误修复识别模型

  • MASTER 和 SAR 架构现在可在两个框架(TensorFlow 和 PyTorch)中运行

 

更新公告:https://github.com/mindee/doctr/releases/tag/v0.6.0


相關推薦

2024-04-17

了聊天对话总结功能,你可以通过这个功能生成对话总结文档,方便你回顾和学习。同时,我们还支持了Jenkins对接,你可以通过ChatBot触发Jenkins任务,包括触发流水线、查看流水线、检索流水线等。 最后,我们还增强了Chitchat

2022-05-30

Plain-Text、Adobe Encore DVD)。 目前,Subtitle Edit 3.6.6 已发布,该版本更新内容如下: New 为 iTT 属性添加工具栏图标 添加新的子格式 在 UI 中关闭“word split list”的选项 自定义文本格式的自定义文件 ext 添加语音识别

2022-07-17

文件上传到超过 80 个支持的存储服务上。 ShareX 14.1 正式发布,更新内容如下: 增加了波兰语支持 OCR 的改进 OCR 窗口布局的变化 在语言选项附近添加了 OCR 帮助按钮,可以打开 OCR 帮助页面,这样用户可以看到如何安

2023-08-28

创会」北京站,聊聊 AI 大模型与底层技术 >>> 谷歌近日发布了 ChromeOS 116,新版本将在未来几天内逐步向用户推送。 主要变化: 增强的自动纠错:当用户使用物理键盘输入英文时,该功能会在兼容的应用中自动开启,可

2022-07-20

色器、贴图、录屏等额外功能。 目前 eSearch 1.7.3 版本已发布,带来如下内容: 主要更新 修复部分系统下 ocr 错误 截屏界面插件 自定义用户数据路径 新增 主要 关联 png、jpg、svg 打开方式 命令行支持打开文件参

2022-09-08

Microsoft PowerToys 是 Windows 系统实用程序,供高级用户调整和简化其 Windows 体验,可最大限度地提高生产力。 以下是 PowerToys v0.62 版本中的一些亮点: 亮点 新工具:Screen Ruler 是一个快速和简单的工具来测量屏幕上的像素 新

2022-09-02

深度操作系统20.7积极响应社区用户反馈的需求,进一步提升用户体验,修复底层漏洞,新增HWE 5.18内核兼容更多硬件设备,升级Stable内核至5.15.45,提升系统稳定性和安全性,欢迎大家体验! HWE 5.18内核 新增HWE 5.18内核兼

2022-07-03

文件上传到超过 80 个支持的存储服务上。 ShareX 14.0 正式发布,更新内容如下: 支持带有更大指针尺寸的屏幕捕捉光标 增加图片编辑器的缩放支持 在图像编辑器画布尺寸窗口中增加了画布颜色按钮 增加了 "限制区域捕

2022-04-24

EasyOCR 1.4.2 发布,该版本更新了 opencv 的依赖,以及解决了 pillow 的一些相关问题,没有其他大的改进。 一个开箱即用的 OCR 工具,支持超过 80 种语言,包括中文:Latin, Chinese, Arabic, Devanagari, Cyrillic, etc. 你可以通过下面地址在线

2023-09-07

2.0、Plain-Text、Adobe Encore DVD)。 目前,Subtitle Edit 4.0.0 已发布,该版本更新内容如下: New 新工具栏/视频播放器主题 Beautify time codes(通过镜头变化) 添加 Purfview 的 Faster-Whisper 为 WebVTT 使用本地样式 为"Generate video with

2023-02-01

0、Plain-Text、Adobe Encore DVD)。 目前,Subtitle Edit 3.6.11 已发布,该版本更新内容如下: New 添加文件 - 关闭翻译的字幕 为翻译添加自动命名规则 添加更多 Whisper post-processing 为 Google Cloud Vision OCR 添加行合并选项 添加新

2023-04-18

深度操作系统(deepin)是一款致力于为全球用户提供美观易用、安全稳定服务的Linux发行版,也是全球排名领先的来自中国团队研发的Linux发行版。点击查看deepin全球排名:https://distrowatch.com/table.php?distribution=deepin deepin20.9版本

2023-09-22

支持三大核心能力,包括自然语言搜索、图片内容搜索、文档内容搜索,可实现“一键搜索,一键直达”的便捷体验。 不管是关键词文件名查找,还是文件内容查找、图片OCR查找、时间范围查找等,都支持智能全局搜索。 邮

2022-12-09

深度操作系统 20.8 已发布,此版本新增社区自研应用“深度之家”,升级 Qt 至 5.15.6 版本,更新了 DTK 开发库,修复底层漏洞进一步提升系统兼容性和安全性;功能层面上积极响应社区用户反馈的需求,开发并集成了大量实用功