docTR 0.6.0 发布,OCR 文档文本识别库


docTR 是一个无缝、高性能且可访问的库,用于由深度学习支持的 OCR 相关任务。

docTR 0.6.0 发布了,doctr 0.6.0 需要 TensorFlow >= 2.9.0 或 PyTorch >= 1.8.0。

版本亮点:

与 Huggingface Hub 完全集成

  • 从 Hub 加载:
from doctr.io import DocumentFile
from doctr.models import ocr_predictor, from_hub
image = DocumentFile.from_images(['data/example.jpg'])
# Load a custom detection model from huggingface hub
det_model = from_hub('Felix92/doctr-torch-db-mobilenet-v3-large')
# Load a custom recognition model from huggingface hub
reco_model = from_hub('Felix92/doctr-torch-crnn-mobilenet-v3-large-french')
# You can easily plug in this models to the OCR predictor
predictor = ocr_predictor(det_arch=det_model, reco_arch=reco_model)
result = predictor(image)
  • 推送到 Hub:
from doctr.models import recognition, login_to_hub, push_to_hf_hub
login_to_hub()
my_awesome_model = recognition.crnn_mobilenet_v3_large(pretrained=True)
push_to_hf_hub(my_awesome_model, model_name='doctr-crnn-mobilenet-v3-large-french-v1', task='recognition', arch='crnn_mobilenet_v3_large')

文档:https://mindee.github.io/doctr/using_doctr/sharing_models.html

新模型(两个框架)

  • 分类:VisionTransformer(ViT)
  • 识别:用于场景文本识别的 Vision Transformer (ViTSTR)

错误修复识别模型

  • MASTER 和 SAR 架构现在可在两个框架(TensorFlow 和 PyTorch)中运行

 

更新公告:https://github.com/mindee/doctr/releases/tag/v0.6.0


相關推薦

2024-04-17

了聊天对话总结功能,你可以通过这个功能生成对话总结文档,方便你回顾和学习。同时,我们还支持了Jenkins对接,你可以通过ChatBot触发Jenkins任务,包括触发流水线、查看流水线、检索流水线等。 最后,我们还增强了Chitchat

2022-05-30

Plain-Text、Adobe Encore DVD)。 目前,Subtitle Edit 3.6.6 已发布,该版本更新内容如下: New 为 iTT 属性添加工具栏图标 添加新的子格式 在 UI 中关闭“word split list”的选项 自定义文本格式的自定义文件 ext 添加语音识别

2022-07-17

文件上传到超过 80 个支持的存储服务上。 ShareX 14.1 正式发布,更新内容如下: 增加了波兰语支持 OCR 的改进 OCR 窗口布局的变化 在语言选项附近添加了 OCR 帮助按钮,可以打开 OCR 帮助页面,这样用户可以看到如何安

2023-08-28

创会」北京站,聊聊 AI 大模型与底层技术 >>> 谷歌近日发布了 ChromeOS 116,新版本将在未来几天内逐步向用户推送。 主要变化: 增强的自动纠错:当用户使用物理键盘输入英文时,该功能会在兼容的应用中自动开启,可

2022-07-20

色器、贴图、录屏等额外功能。 目前 eSearch 1.7.3 版本已发布,带来如下内容: 主要更新 修复部分系统下 ocr 错误 截屏界面插件 自定义用户数据路径 新增 主要 关联 png、jpg、svg 打开方式 命令行支持打开文件参

2024-07-09

OpsPilot 2.2.0 版本发布公告 🎉 各位亲爱的用户,我们很高兴地宣布OpsPilot最新2.2.0版本的发布!此次更新带来了许多令人兴奋的新功能和优化,让我们一同来看看吧! 🛠 基础服务更新 新增 SaltStack Server:强力管理配置,提

2022-09-02

深度操作系统20.7积极响应社区用户反馈的需求,进一步提升用户体验,修复底层漏洞,新增HWE 5.18内核兼容更多硬件设备,升级Stable内核至5.15.45,提升系统稳定性和安全性,欢迎大家体验! HWE 5.18内核 新增HWE 5.18内核兼

2022-09-08

Microsoft PowerToys 是 Windows 系统实用程序,供高级用户调整和简化其 Windows 体验,可最大限度地提高生产力。 以下是 PowerToys v0.62 版本中的一些亮点: 亮点 新工具:Screen Ruler 是一个快速和简单的工具来测量屏幕上的像素 新

2022-07-03

文件上传到超过 80 个支持的存储服务上。 ShareX 14.0 正式发布,更新内容如下: 支持带有更大指针尺寸的屏幕捕捉光标 增加图片编辑器的缩放支持 在图像编辑器画布尺寸窗口中增加了画布颜色按钮 增加了 "限制区域捕

2024-08-20

。 Linux桌面应用UI自动化测试 基于Qt属性查找、图像识别、OCR识别、相对位移方案获取元素位置,通过键鼠模拟操控元素进行UI操作。 Web UI自动化测试 基于PlayWright控制浏览器(可自定义)进行Web UI自动化测试。 Linux DBu

2024-07-24

🌟 OpsPilot 2.4.0 发布:强化主动消息与自动化技能,新增联网检索和Jenkins支持! 各位亲爱的用户,我们非常兴奋地向您宣布,OpsPilot 2.4.0 版本正式发布!此次更新不仅强化了主动消息和自动化技能,还新增了关键的新功能。让

2022-04-24

EasyOCR 1.4.2 发布,该版本更新了 opencv 的依赖,以及解决了 pillow 的一些相关问题,没有其他大的改进。 一个开箱即用的 OCR 工具,支持超过 80 种语言,包括中文:Latin, Chinese, Arabic, Devanagari, Cyrillic, etc. 你可以通过下面地址在线

2023-09-07

2.0、Plain-Text、Adobe Encore DVD)。 目前,Subtitle Edit 4.0.0 已发布,该版本更新内容如下: New 新工具栏/视频播放器主题 Beautify time codes(通过镜头变化) 添加 Purfview 的 Faster-Whisper 为 WebVTT 使用本地样式 为"Generate video with

2024-06-22

OpenHarmony-v5.0-Beta1 版本已于 2024-06-20 发布。 版本概述 OpenHarmony 5.0 Beta1版本标准系统能力持续完善,ArkUI完善了组件通过C API调用的能力;应用框架细化了生命周期管理能力,完善了应用拉起、跳转的能力;分布式软总线连接能