小红书开源基于 VLM 的文档解析模型 dots.ocr


小红书发布并开源了 dots.ocr,这是一款基于视觉语言模型(VLM)的文档解析模型,支持多语言识别、布局检测与内容识别的一体化处理。

据介绍,dots.ocr 在单一的视觉语言模型中统一了布局检测和内容识别,同时能保持良好的阅读顺序。尽管其基础仅是一个 17 亿参数的” 小模型 “,但依然在多个 benchmark 上获得了匹配超大参数量闭源模型的业界领先(SOTA)性能。

模型亮点

  • 在 OmniDocBench 上,在文本、表格、阅读顺序三项任务中均取得 SOTA 表现
  • 支持中文、英文及多种小语种,填补开源社区在多语言文档解析领域的空白
  • 通过更换 prompt 可灵活切换任务,省去了多模型流水线的复杂设计
  • 检测能力可媲美 YOLO 类模型
  • 基于 1.7B 参数构建,推理速度优于多种更大规模的 VLM 方案

目前 dots.ocr 已在 GitHub 和 Hugging Face 正式开源。

GitHub:https://github.com/rednote-hilab/dots.ocr
Hugging Face:https://huggingface.co/rednote-hilab/dots.ocr

Demo:https://dotsocr.xiaohongshu.com/


相關推薦

2025-06-13

题深入开展第一阶段专项行动。 上海市委网信办指导小红书、哔哩哔哩、拼多多等15家重点网站平台,集中清理“一键脱衣”、未经授权的人脸或人声克隆编辑、未备案等违规AI产品、商品及相关营销、炒作、推广、教程信息

2022-11-30

级奖项的云原生解决方案。 目前,Crane并已经被腾讯、小红书、网易、思必驰、酷家乐、明源云、数数科技等公司部署在生产系统,其主要贡献者来自腾讯、小红书、谷歌、eBay、微软、特斯拉等知名公司。

2024-08-22

/Uniapp/Flutter、 社交渠道:微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、 电商渠道:淘宝/天猫/京东/千牛/抖店 海外渠道:Facebook/Instagram//Whatsapp/Line 多种路由策略、 详细考核指标 坐席工作台、 工

2024-07-06

/Uniapp/Flutter、 社交渠道:微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、 电商渠道:淘宝/天猫/京东/千牛/抖店 海外渠道:Facebook/Instagram//Whatsapp/Line 多种路由策略、 详细考核指标 坐席工作台、 工

2024-07-13

p/Flutter、 社交渠道:微信公众号 / 小程序 / 企业微信 / 小红书 / 抖音 / 快手 / 百度 / 微博 / 知乎、 电商渠道:淘宝 / 天猫 / 京东 / 千牛 / 抖店 海外渠道:Facebook/Instagram//Whatsapp/Line 多种路由策略、 详细考核指标 坐席

2024-08-07

/Uniapp/Flutter、 社交渠道:微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、 电商渠道:淘宝/天猫/京东/千牛/抖店 海外渠道:Facebook/Instagram//Whatsapp/Line 多种路由策略、 详细考核指标 坐席工作台、 工

2023-08-05

”的栏目,主打内容创作。根据指引,员工可以让AI生成小红书种草文案、短视频脚本、社群营销文案以及朋友圈文案等;还支持不同风格的“绘画”模式,比如赛博朋克风、像素插画风、马赛克风格等。 除此以外,作为通用

2023-08-10

标是完善每个角色的动作池和技能池,并添加新角色,如小红书博主、电商卖家和数据分析师。 评估: 在评估方面,MetaGPT 计划支持游戏数据集的评估,并复制论文来实现单个游戏角色的全技能获取。它还将支持数学数据集的

2025-06-06

总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。 据介绍,该模型的开发基于几个关键发现: 图像-文本对不足以达到最佳效果,交错的图像-文本数据至关重要; 在交错图像-文本预训练期间解冻

2024-10-01

/Uniapp/Flutter、 社交渠道:微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、 电商渠道:淘宝/天猫/京东/千牛/抖店 海外渠道:Facebook/Instagram//Whatsapp/Line 多种路由策略、 详细考核指标 坐席工作台、 工

2024-10-09

/Uniapp/Flutter、 社交渠道:微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、 电商渠道:淘宝/天猫/京东/千牛/抖店 海外渠道:Facebook/Instagram//Whatsapp/Line 多种路由策略、 详细考核指标 坐席工作台、 工

2024-10-15

/Uniapp/Flutter、 社交渠道:微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、 电商渠道:淘宝/天猫/京东/千牛/抖店 海外渠道:Facebook/Instagram//Whatsapp/Line 多种路由策略、 详细考核指标 坐席工作台、 工

2025-06-24

据隐式标识落地落实。 在防范重点领域安全风险方面,小红书在模型后置训练阶段输入专业领域数据,提升模型对医疗、金融、未成年人等重点领域问题的理解能力。 据悉,下一步,中央网信办将聚焦AI造谣、低俗内容等7类

2023-11-29

同程旅行、开心消消乐、美团、去哪儿、钉钉、飞常准、小红书、B站。 哔哩哔哩方面表示,鸿蒙原生版本的哔哩哔哩将充分利用HarmonyOS独特的全场景分布式体验、原生智能、纯净安全、大模型AI交互等能力,提供更多创新体验