生树科技旗下的 Vidu AI 发布了业内首个高可控 AI 视频大模型「Q1」。
据介绍,Vidu Q1 在多主体细节可控、音效同步可控、画质增强等方面都取得出色表现。并且 Vidu Q1 在四大核心能力进行了全面升级:
- 极「质」高清:画质细节全面提升,出片更清晰、更具质感;
- 极「质」镜头:首尾帧衔接更顺滑,镜头语言更具电影感;
- 极「质」音效:一句话生成专属音效,支持时段自定义和音效叠加;
- 极「质」风格:动漫风格再度升级,稳定流畅、更具表现力。
目前,Vidu Q1 已上线 Vidu 官网,支持时长 5 秒、1080p 的视频生成。
根据官方介绍,Vidu Q1 作为业内首个高可控 AI 视频大模型,其在多主体细节可控(特别是动作、布局可控)、音效同步可控、画质增强等方面均取得显著成效。
以多主体细节可控为例,在语义指令的基础上,通过融入参考图的视觉指令,Vidu Q1支持对场景中多主体的位置、大小、运动轨迹等属性进行更进一步的可控,对所有动作行为(出场、退场、坐立姿态、行动路线)进行精准调整。用户能够明显体验到用更低的抽卡率实现更高质量的可控生成。
音效同步可控功能则确保了随着视频环境与画面转场,Vidu Q1 能够输出生成相应音效,并可精准控制每段音效的长短区间,精准设置每段音频出现的时间点,如 0-2s 风声、3-5s 雨声等,节省时间的同时,也大大增强了视频的沉浸感与感染力。
Vidu Q1 模型通过进一步增强画质,则能够为用户带去更加清晰、细腻、逼真的视觉体验。