商汤发布首个“可控”人物视频生成大模型 Vimi


商汤发布首个“可控”人物视频生成大模型Vimi,该模型主要面向C端用户,支持聊天、唱歌、舞动等多种娱乐互动场景。

商汤方面称,Vimi可生成长达1分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,Vimi基于商汤日日新大模型,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。

与图片表情控制类技术只能控制头部表情动作不同,商汤介绍,Vimi能够实现精准的人物表情控制,还可实现在半身区域内控制照片中人物的自然肢体变化,并自动生成与人物相符的头发、服饰及背景变化。

同时光影变化也能做到合理生成,让人物动作和视觉效果流畅自然,画面和谐唯美。更重要的是,Vimi 具备极强的稳定性,可稳定生成长达1分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,真正满足娱乐互动等需要长时间稳定视频生成需求。

据悉Vimi将完全面向C端用户开放使用。用户只需上传不同角度的高清人物图片,即可自动生成数字分身和不同风格的写真视频。目前,Vimi已在商汤科技官网开放预约。

Vimi 也入选了2024世界人工智能大会的“镇馆之宝”名单。其他入选的还包括阿里云AI编程助手通义灵码、支付宝智能助理、智谱AI基座大模型、特斯拉赛博越野旅行车等。


相關推薦

2024-08-20

昆仑万维发布全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels。集剧本生成、角色定制、分镜、剧情、对白/BGM及影片合成于一体,旨在让创作者“一键成剧”,轻松制作高质量AI视频。 SkyReels平台集成了昆仑万维自研剧

2025-04-23

生树科技旗下的 Vidu AI 发布了业内首个高可控 AI 视频大模型「Q1」。 据介绍,Vidu Q1 在多主体细节可控、音效同步可控、画质增强等方面都取得出色表现。并且 Vidu Q1 在四大核心能力进行了全面升级: 极「质」高清:画质细

2023-09-08

ogle 开发者在线课程 开始学习 8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务

2023-09-29

力行业人工智能创新平台及自主可控电力大模型正式公开发布。 电力行业人工智能创新平台提供模型即服务(MaaS),支持模型快速迭代开发,并支撑电力人工智能资源面向全社会开放共享。百度提供了昆仑芯AI芯片、飞桨框架

2024-09-26

阿里通义实验室发布了一个用于可控角色视频合成的通用模型 MIMO,能够模仿任何人在复杂动作和物体交互的场景中的表现。简单讲,用户只要给定一个图像和视频或者动作序列,它就能把给定图像的人物直接替换成视频里面

2025-06-19

MiniMax 宣布推出视频生成大模型 Hailuo 02,这个模型支持文生视频,图生视频,甚至添加人物照片作为索引来生成人物在其他场景内互动的视频。 MiniMax 放出的视频案例中,展现了喷火、钻火圈、连续后空翻、高空走钢丝等超高

2025-07-29

商汤科技在 WAIC 2025 大模型论坛上正式发布「悟能」具身智能平台。 「悟能」以商汤“开悟”世界模型为核心引擎,依托商汤大装置提供的端侧和云侧算力支持,目标为机器人、智能设备赋予感知、视觉导航及多模态交互能力

2025-07-17

元人民币的区间。 MiniMax成立于2021年,创始团队来自原商汤科技,其中包含前商汤科技副总裁及商汤研究院副院长闫俊杰。公司于今年6月宣布发布一款名为M1的大规模混合架构推理模型,并称其为全球首个开源模型,性能优于De

2025-07-30

中国移动发布了其自主研发的 “九天”基础大模型3.0。根据介绍,“九天众擎语言大模型”实现了架构上的突破性创新,采用可扩展至万亿级的 MoE 架构。通过15T token 的多阶段配比预训练数据与全流程治理体系,其推理能力

2025-06-08

意识正在形成 今日凌晨,OpenAI 模型行为主管 Joanne Jang 发布了长篇博文,分析了 ChatGPT 目前与用户之间的情感关系,并分享了部分 ChatGPT 未来在「意识」上的处理方式。 Joanne 指出,最近越来越多用户反映称,与 ChatGPT 聊天就

2024-09-26

余个业务,用以提升效率和优化产品体验。 此次活动还发布了视频生成模型、音乐模型、同声传译模型。在谭待的展示下,视频生成模型生成的多主体多动作交互镜头,人物表情流露真实,动作流畅自然。对于同一个场景,模

2025-03-21

,支持生成102帧、5秒、540P分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。 公告称,和目前已有开源图生视频模型相比,Step-Video-TI2V 不仅在参数规模上对该领域的研究提供

2024-08-22

不显著;并且市场格局也主要还是由早期投入者如百度、商汤、智谱、百川等公司构成。 进入2024年,头部互联网公司加大对大模型的投入且发起价格战,为早期的大模型初创企业带来一定的竞争压力。预计未来 2-3 年,市场格

2024-01-23

,高级别自动驾驶示范区实现160平方公里连片运行,全国首个数据基础制度先行区启动建设,数字经济增加值占地区生产总值比重达42.9%。 殷勇说,今年,北京将加快发展新质生产力。实施制造业重点产业链高质量发展行动,