哔哩哔哩开源动漫视频生成模型 AniSora V3 发布预览版


哔哩哔哩(B站)旗下开源动漫视频生成模型 AniSora 于 7 月 2 日更新到 V3 预览版

https://github.com/bilibili/Index-anisora/tree/main

作为 Index-AniSora 项目的一部分,V3 版本在原有基础上进一步优化了生成质量、动作流畅度和风格多样性,为动漫、漫画及 VTuber 内容创作者提供了更强大的工具。

AniSora 支持一键生成多种动漫风格的视频镜头,包括番剧片段、国创动画、漫画改编、VTuber 内容、动画 PV、鬼畜(MAD)等。

AniSora V3 基于B站此前开源的 CogVideoX-5B 和 Wan2.1-14B 模型,结合强化学习与人类反馈(RLHF)框架,显著提升了生成视频的视觉质量和动作一致性。其支持一键生成多种风格的动漫视频镜头,包括番剧片段、国创动画、漫画视频改编、VTuber 内容等。

核心升级包括:

  • 时空掩码模块(Spatiotemporal Mask Module)优化:V3 版本增强了时空控制能力,支持更复杂的动画任务,如精细的角色表情控制、动态镜头移动和局部图像引导生成。例如,提示“五位女孩在镜头放大时起舞,左手上举至头顶再下放至膝盖”能生成流畅的舞蹈动画,镜头与角色动作同步自然。

  • 数据集扩展:V3 继续依托超过 1000 万高质量动漫视频片段(从 100 万原始视频中提取)进行训练,新增数据清洗流水线,确保生成内容的风格一致性和细节丰富度。

  • 硬件优化:V3 新增对华为 Ascend910B NPU 的原生支持,完全基于国产芯片训练,推理速度提升约 20%,生成 4 秒高清视频仅需 2-3 分钟。

  • 多任务学习:V3 强化了多任务处理能力,支持从单帧图像生成视频、关键帧插值到唇部同步等功能,特别适合漫画改编和 VTuber 内容创作。

在最新基准测试中,AniSora V3 在 VBench 和双盲主观测试中,角色一致性和动作流畅度均达到业界顶尖水平(SOTA),尤其在复杂动作 (如违反物理规律的夸张动漫动作) 上表现突出。

V3 还引入了首个针对动漫视频生成的 RLHF 框架,通过 AnimeReward 和 GAPO 等工具对模型进行微调,确保输出更符合人类审美和动漫风格需求。社区开发者已开始基于 V3 开发定制化插件,例如增强特定动漫风格(如吉卜力风)的生成效果。

AniSora V3 支持多种动漫风格,包括日本动漫、国产原创动画、漫画改编、VTuber 内容及恶搞动画(鬼畜动画),覆盖 90% 的动漫视频应用场景。具体应用包括:

  • 单图转视频:用户上传一张高质量动漫图像,配合文本提示(如“角色在向前行驶的车中挥手,头发随风摆动”),即可生成动态视频,保持角色细节和风格一致。

  • 漫画改编:从漫画帧生成带唇部同步和动作的动画,适合快速制作预告片或短篇动画。

  • VTuber 与游戏:支持实时生成角色动画,助力独立创作者和游戏开发者快速测试角色动作。

  • 高分辨率输出:生成视频支持高达 1080p,确保在社交媒体、流媒体平台上的专业呈现。

测试显示,V3 在生成复杂场景(如多角色交互、动态背景)时,相比 V2 减少了约 15% 的伪影问题,生成时间缩短至平均 2.5 分钟(4 秒视频)

相比 OpenAI 的 Sora 或 Kling 等通用视频生成模型,AniSora V3 专注于动漫领域。与字节跳动的 EX-4D 相比,AniSora V3 更专注于 2D / 2.5D 动漫风格,而非 4D 多视角生成。


相關推薦

2023-08-08

具体情况:图片(视频封面)无法加载、视频无法打开、视频一直在缓冲 距离上次事故已有 5 个月:哔哩哔哩(B 站)刚刚崩了

2023-03-07

update:本文发出时,B 站已逐步恢复正常。 2023 年 3 月 5 日晚 20:20 左右,许多网友表示在使用 B 站时,手机和电脑端都无法访问视频详情页,且手机端无法查看收藏夹与历史记录。 还有网友表示,首页能够正常加载,

2023-11-29

哔哩哔哩(B 站)与华为宣布达成鸿蒙领域全面合作,并正式启动鸿蒙原生应用开发工作。 数据显示,今年上半年,B 站的日活用户同比增长 17% 至超过 9500 万,而月活用户达 3.19 亿;总日均视频播放量同比增长 34% 至 41 亿。截

2025-06-13

展第一阶段专项行动。 上海市委网信办指导小红书、哔哩哔哩、拼多多等15家重点网站平台,集中清理“一键脱衣”、未经授权的人脸或人声克隆编辑、未备案等违规AI产品、商品及相关营销、炒作、推广、教程信息。 小红

2023-10-31

哔哩哔哩 (B 站) 日前在其首届“bilibili 超级科学晚”会上,发布了一个“五大科学焦点榜单”—— AIGC、室温超导、脑机接口、黑洞、可控核聚变入选。 并公布数据称,过去一年有 2.43 亿用户在 B 站进行学习,是中国在校大学

2024-09-28

在2024年中国国际智能传播论坛上,哔哩哔哩(简称B站)董事长兼CEO陈睿宣布,该公司自研的大语言模型“index”已成功上线,并应用于AI字幕功能。 陈睿表示,AI已成为年轻人在B站上最为关注的内容之一,也是增长最快的科

2024-07-03

受影响产品服务已恢复。 大量网友反馈称,B站(哔哩哔哩)平台今日上午出现服务问题,视频评论区和用户(UP 主)主页都无法加载。 访问B站用户主页会显示 -500 错误码,部分版块甚至直接返回 502,视频评论区则

2022-05-08

Kratos 是哔哩哔哩开源的轻量级 Go 微服务框架,包含大量微服务相关框架及工具。目前 Kratos v2..2.2 已发布,带来如下改动: feat: 支持 consul 注册表中的非 kratos 实例 #1892 fix: starter parent ctx   #1895 feat(contrib): 添加 eu

2022-10-21

Kratos 是哔哩哔哩开源的轻量级 Go 微服务框架,包含大量微服务相关框架及工具。目前 Kratos v2.5.2 已发布,带来如下改动: Bug修复 fix(log): toString float32 精度损失和使用 FormatUint 转换 uint ( #2461 ) 修复网络错误(#2460) fix(met

2024-06-04

程的所有课件和例程已经在GitHub网站开源[1],课程视频在哔哩哔哩网站播放超过20万次[2]。课程的上课安排为每星期4课时,其中理论课2课时,实验课2课时。理论课讲授语法知识和编程中的注意事项,实验课通过练习题让学生巩

2025-04-23

属音效,支持时段自定义和音效叠加; 极「质」风格:动漫风格再度升级,稳定流畅、更具表现力。 目前,Vidu Q1 已上线 Vidu 官网,支持时长 5 秒、1080p 的视频生成。 根据官方介绍,Vidu Q1 作为业内首个高可控 AI 视频大

2024-08-20

能生成与自定义调整,满足创作者的个性化需求,并提供动漫、卡通、真人3D等多种视觉风格选择,适应不同创作者的偏好和内容表达需求。 内容一致性与精确性:确保角色与场景在不同分镜中的一致性,同时根据故事描述自

2025-05-17

unyuan Image)2.0 模型生成的图片: 人像摄影风格 动漫风格 真实人物风格 本次模型升级还带来了发布了实时绘画板功能,基于模型的实时生图能力,用户在绘制线稿或调整参数时,预览区同步生成上色效果,突

2025-06-07

、最先进的文本转语音模型Eleven v3的Alpha版本。该模型在生成具有高情感范围和跨多种语言的上下文理解能力的自然、逼真语音方面达到了业界领先水平。 Eleven v3 亮点如下: 地表最强文本转语音模型之一,能“演戏”的 AI