小红书开源基于 VLM 的文档解析模型 dots.ocr

2025-08-06 發表於开源资讯

小红书发布并开源了 dots.ocr，这是一款基于视觉语言模型（VLM）的文档解析模型，支持多语言识别、布局检测与内容识别的一体化处理。

据介绍，dots.ocr 在单一的视觉语言模型中统一了布局检测和内容识别，同时能保持良好的阅读顺序。尽管其基础仅是一个 17 亿参数的” 小模型 “，但依然在多个 benchmark 上获得了匹配超大参数量闭源模型的业界领先（SOTA）性能。

模型亮点

在 OmniDocBench 上，在文本、表格、阅读顺序三项任务中均取得 SOTA 表现
支持中文、英文及多种小语种，填补开源社区在多语言文档解析领域的空白
通过更换 prompt 可灵活切换任务，省去了多模型流水线的复杂设计
检测能力可媲美 YOLO 类模型
基于 1.7B 参数构建，推理速度优于多种更大规模的 VLM 方案

目前 dots.ocr 已在 GitHub 和 Hugging Face 正式开源。

GitHub：https://github.com/rednote-hilab/dots.ocr
Hugging Face：https://huggingface.co/rednote-hilab/dots.ocr 
Demo：https://dotsocr.xiaohongshu.com/

相關推薦

小红书开源多模态大模型 dots.vlm1

2025-08-08

小红书 Hi Lab 开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器和 DeepSeek V3大语言模型，从零开始完全训练，其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型，

小红书、B 站等平台清理违规 AI 产品营销信息

2025-06-13

题深入开展第一阶段专项行动。上海市委网信办指导小红书、哔哩哔哩、拼多多等15家重点网站平台，集中清理“一键脱衣”、未经授权的人脸或人声克隆编辑、未备案等违规AI产品、商品及相关营销、炒作、推广、教程信息

Crane 成 FinOps 首个认证降本增效开源方案

2022-11-30

级奖项的云原生解决方案。目前，Crane并已经被腾讯、小红书、网易、思必驰、酷家乐、明源云、数数科技等公司部署在生产系统，其主要贡献者来自腾讯、小红书、谷歌、eBay、微软、特斯拉等知名公司。

微语 0.3.6 发布 - 基于大模型 LLM && RAG 的智能客服

2024-08-22

/Uniapp/Flutter、社交渠道：微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、电商渠道：淘宝/天猫/京东/千牛/抖店海外渠道：Facebook/Instagram//Whatsapp/Line 多种路由策略、详细考核指标坐席工作台、工

微语 0.3.0 发布，基于大模型 LLM && RAG 的智能客服

2024-07-06

/Uniapp/Flutter、社交渠道：微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、电商渠道：淘宝/天猫/京东/千牛/抖店海外渠道：Facebook/Instagram//Whatsapp/Line 多种路由策略、详细考核指标坐席工作台、工

微语 0.3.1 发布 - 基于大模型 LLM && RAG 的智能客服

2024-07-13

p/Flutter、社交渠道：微信公众号 / 小程序 / 企业微信 / 小红书 / 抖音 / 快手 / 百度 / 微博 / 知乎、电商渠道：淘宝 / 天猫 / 京东 / 千牛 / 抖店海外渠道：Facebook/Instagram//Whatsapp/Line 多种路由策略、详细考核指标坐席

微语 0.3.5 发布 - 基于大模型 LLM && RAG 的智能客服

2024-08-07

/Uniapp/Flutter、社交渠道：微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、电商渠道：淘宝/天猫/京东/千牛/抖店海外渠道：Facebook/Instagram//Whatsapp/Line 多种路由策略、详细考核指标坐席工作台、工

从 0 到 16.7k Stars：MetaGPT 的开源旅程与其 2.3k 社区成员的支持

2023-08-10

标是完善每个角色的动作池和技能池，并添加新角色，如小红书博主、电商卖家和数据分析师。评估：在评估方面，MetaGPT 计划支持游戏数据集的评估，并复制论文来实现单个游戏角色的全技能获取。它还将支持数学数据集的

腾讯混元大模型开始应用内测

2023-08-05

”的栏目，主打内容创作。根据指引，员工可以让AI生成小红书种草文案、短视频脚本、社群营销文案以及朋友圈文案等；还支持不同风格的“绘画”模式，比如赛博朋克风、像素插画风、马赛克风格等。除此以外，作为通用

微语 0.4.3 发布，开源版企业IM

2024-10-01

/Uniapp/Flutter、社交渠道：微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、电商渠道：淘宝/天猫/京东/千牛/抖店海外渠道：Facebook/Instagram//Whatsapp/Line 多种路由策略、详细考核指标坐席工作台、工

微语 0.4.4 发布，不仅仅是企业 IM

2024-10-09

/Uniapp/Flutter、社交渠道：微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、电商渠道：淘宝/天猫/京东/千牛/抖店海外渠道：Facebook/Instagram//Whatsapp/Line 多种路由策略、详细考核指标坐席工作台、工

微语 0.4.5 发布，不仅仅是企业 IM

2024-10-15

/Uniapp/Flutter、社交渠道：微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、电商渠道：淘宝/天猫/京东/千牛/抖店海外渠道：Facebook/Instagram//Whatsapp/Line 多种路由策略、详细考核指标坐席工作台、工

英伟达发布 Llama-3.1-Nemotron-Nano-VL-8B-V1 视觉语言模型

2025-06-06

总结来自物理世界或虚拟世界的图像和视频内容。该模型基于 Llama 3.1 构建。据介绍，该模型的开发基于几个关键发现：图像-文本对不足以达到最佳效果，交错的图像-文本数据至关重要；在交错图像-文本预训练期间解冻

网信办整治 AI 滥用，3500 余款违规 AI 产品被处置

2025-06-24

据隐式标识落地落实。在防范重点领域安全风险方面，小红书在模型后置训练阶段输入专业领域数据，提升模型对医疗、金融、未成年人等重点领域问题的理解能力。据悉，下一步，中央网信办将聚焦AI造谣、低俗内容等7类

熱門推薦