小红书开源多模态大模型 dots.vlm1


小红书 Hi Lab 开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器 和 DeepSeek V3大语言模型,从零开始完全训练,其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型,如 Gemini2.5Pro 和 Seed-VL1.5,标志着开源多模态模型的性能达到了新的高度。

dots.vlm1的核心亮点在于其原生自研的 NaViT 视觉编码器。与传统基于成熟模型微调的方式不同,NaViT 从零训练,并支持动态分辨率,能够更好地适应多样化的真实图像场景。该模型还通过结合纯视觉与文本视觉的双重监督,极大提升了其泛化能力,尤其是在处理表格、图表、公式、文档等非典型结构化图片时表现出色。

在数据方面,Hi Lab 团队构建了规模庞大且清洗精细的训练集。他们通过自主重写网页数据和自研 dots.ocr 工具处理 PDF 文档,显著提升了图文对齐的质量,为模型的跨模态理解能力打下了坚实基础。

评测结果表明,dots.vlm1 在 MMMUMathVision 和 OCR Reasoning 等多项基准测试中,达到了与 Gemini2.5Pro 和 Seed-VL1.5相当的水平。在复杂的图表推理、STEM 数学推理以及长尾细分场景识别等应用中,dots.vlm1展现出卓越的逻辑推理和分析能力,完全胜任奥数等高难度任务。

尽管在文本推理的极复杂任务上与 SOTA 闭源模型仍有差距,但其通用数学推理和代码能力已与主流大语言模型持平。

Hi Lab 团队表示,未来将继续优化模型。他们计划扩大跨模态数据规模,并引入强化学习等前沿算法,进一步提升推理泛化能力。通过开源 dots.vlm1,小红书致力于为多模态大模型生态系统带来新的动力,推动行业发展。


相關推薦

2025-08-06

小红书发布并开源了 dots.ocr,这是一款基于视觉语言模型(VLM)的文档解析模型,支持多语言识别、布局检测与内容识别的一体化处理。 据介绍,dots.ocr 在单一的视觉语言模型中统一了布局检测和内容识别,同时能保持良

2025-06-13

题深入开展第一阶段专项行动。 上海市委网信办指导小红书、哔哩哔哩、拼多多等15家重点网站平台,集中清理“一键脱衣”、未经授权的人脸或人声克隆编辑、未备案等违规AI产品、商品及相关营销、炒作、推广、教程信息

2023-08-05

”的栏目,主打内容创作。根据指引,员工可以让AI生成小红书种草文案、短视频脚本、社群营销文案以及朋友圈文案等;还支持不同风格的“绘画”模式,比如赛博朋克风、像素插画风、马赛克风格等。 除此以外,作为通用

2025-04-18

上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。 根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面

2022-11-30

级奖项的云原生解决方案。 目前,Crane并已经被腾讯、小红书、网易、思必驰、酷家乐、明源云、数数科技等公司部署在生产系统,其主要贡献者来自腾讯、小红书、谷歌、eBay、微软、特斯拉等知名公司。

2023-11-29

同程旅行、开心消消乐、美团、去哪儿、钉钉、飞常准、小红书、B站。 哔哩哔哩方面表示,鸿蒙原生版本的哔哩哔哩将充分利用HarmonyOS独特的全场景分布式体验、原生智能、纯净安全、大模型AI交互等能力,提供更多创新体验

2023-08-16

上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联

2023-06-22

alGLM-6B 由清华大学知识工程和数据挖掘小组发布,是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模

2024-08-22

/Uniapp/Flutter、 社交渠道:微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、 电商渠道:淘宝/天猫/京东/千牛/抖店 海外渠道:Facebook/Instagram//Whatsapp/Line 多种路由策略、 详细考核指标 坐席工作台、 工

2024-07-06

/Uniapp/Flutter、 社交渠道:微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、 电商渠道:淘宝/天猫/京东/千牛/抖店 海外渠道:Facebook/Instagram//Whatsapp/Line 多种路由策略、 详细考核指标 坐席工作台、 工

2024-07-13

p/Flutter、 社交渠道:微信公众号 / 小程序 / 企业微信 / 小红书 / 抖音 / 快手 / 百度 / 微博 / 知乎、 电商渠道:淘宝 / 天猫 / 京东 / 千牛 / 抖店 海外渠道:Facebook/Instagram//Whatsapp/Line 多种路由策略、 详细考核指标 坐席

2024-08-07

/Uniapp/Flutter、 社交渠道:微信公众号/小程序/企业微信/小红书/抖音/快手/百度/微博/知乎、 电商渠道:淘宝/天猫/京东/千牛/抖店 海外渠道:Facebook/Instagram//Whatsapp/Line 多种路由策略、 详细考核指标 坐席工作台、 工

2023-08-26

>>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary 模型体验:https://modelscope.c

2025-06-28

快手宣布并开源其最新自研的多模态大语言模型 Kwai Keye-VL。 根据介绍,Kwai Keye-VL 以 Qwen3-8B 语言模型为基础,引入了基于开源 SigLIP 初始化的 VisionEncoder,能够深度融合并处理文本、图像、视频等多模态信息,凭借其创新的自适