docTR 0.6.0 发布，OCR 文档文本识别库

2023-06-29 發表於开源资讯

docTR 是一个无缝、高性能且可访问的库，用于由深度学习支持的 OCR 相关任务。

docTR 0.6.0 发布了，doctr 0.6.0 需要 TensorFlow >= 2.9.0 或 PyTorch >= 1.8.0。

版本亮点：

与 Huggingface Hub 完全集成

从 Hub 加载：

from doctr.io import DocumentFile
from doctr.models import ocr_predictor, from_hub
image = DocumentFile.from_images(['data/example.jpg'])
# Load a custom detection model from huggingface hub
det_model = from_hub('Felix92/doctr-torch-db-mobilenet-v3-large')
# Load a custom recognition model from huggingface hub
reco_model = from_hub('Felix92/doctr-torch-crnn-mobilenet-v3-large-french')
# You can easily plug in this models to the OCR predictor
predictor = ocr_predictor(det_arch=det_model, reco_arch=reco_model)
result = predictor(image)

推送到 Hub：

from doctr.models import recognition, login_to_hub, push_to_hf_hub
login_to_hub()
my_awesome_model = recognition.crnn_mobilenet_v3_large(pretrained=True)
push_to_hf_hub(my_awesome_model, model_name='doctr-crnn-mobilenet-v3-large-french-v1', task='recognition', arch='crnn_mobilenet_v3_large')

文档：https://mindee.github.io/doctr/using_doctr/sharing_models.html

新模型（两个框架）

分类：VisionTransformer（ViT）
识别：用于场景文本识别的 Vision Transformer (ViTSTR)

错误修复识别模型

MASTER 和 SAR 架构现在可在两个框架（TensorFlow 和 PyTorch）中运行

更新公告：https://github.com/mindee/doctr/releases/tag/v0.6.0

docTR 0.6.0 发布，OCR 文档文本识别库

与 Huggingface Hub 完全集成

新模型（两个框架）

错误修复识别模型

相關推薦

小红书开源基于 VLM 的文档解析模型 dots.ocr

🎉 OpsPilot 1.0.0：企业微信通道新增 OCR 识别能力！🚀

小红书开源多模态大模型 dots.vlm1

Subtitle Edit 3.6.6 发布，字幕编辑工具

2025 年 AI 费控软件市场深度测评：企业 AI 费控系统选型指南

ShareX 14.1 发布，改进中文 OCR 功能

ChromeOS 116 稳定版发布

智源联合南开大学开源 Chinese-LiPS 中文多模态语音识别数据集

2025 年 Rust GUI 库调研

深度操作系统 20.7 正式发布！

🎉OpsPilot 2.2.0：强化 RAG 解析，新增 SaltStack 与 PaddleOCR 服务

eSearch 1.7.3 发布，跨平台识屏搜索软件

DeepSeek 官方详解 V3 模型“小版本”升级，各项能力全面进阶

PowerToys v0.62 发布，新增三个新工具