Vidu AI视频生成 - AI导航网官网

Vidu 是生数科技推出的一款视频生成模型，其 1.5 版本成为世界首个支持多主体一致性的多模态模型，具有以下特点和优势：

网站:https://www.vidu.studio/

功能强大
- 多主体一致性控制：通过上传 1 – 3 张参考图，可实现对单主体 100% 精确控制，还能实现多主体交互、主体与场景融合控制，让人物、道具、场景无缝集成。例如能让莱昂纳多身处不同地方做不同事，或让穿着花棉袄的马斯克骑着电动车从游乐场经过等复杂场景完美呈现。
- 单主体 100% 精准控制：上传特定主体不同角度、场景下的图片，Vidu 能精准控制每个细节。无论是复杂角色、物体，还是刁钻视角画面，都能保证单主体一致性，如复古美女、3D 卡通人物、科比、中国建筑等在不同场景和视角下形象高度一致。
- 人物面部特征和动态表情自然一致：在创作细腻、真实角色方面表现出色，能确保面部细节特征、表情自然流畅变化，如刘德华、古风女孩、欧美风女孩等在特写画面中的表现。
技术突破
- 无微调大一统架构：秉承通用性理念，设计哲学与 LLM 一致，将所有问题统一为（视觉输入，视觉输出），用单个网络统一建模变长的输入和输出，从视频数据压缩中获取智能，推动多模态大模型产生智能涌现。
- 三张图终结 LoRA 炼丹：凭借强大通用模型能力，仅用三张图即可实现高可控稳定输出，省去专门数据采集、标注、微调训练环节，解决了 LoRA 微调方案数据构造繁琐、训练时间长、成本高、易过拟合、难以精准把握动态表情和肢体动作等问题，堪称 “LoRA 终结器”。
意义重大
- 视觉模型进入上下文时代：Vidu 能理解多图灵活输入及关联性，生成一致、连贯且有逻辑的输出，从 1.0 迭代到 1.5 后出现智能涌现效应，可通过视觉上下文生成大量新任务下的视频，标志着视觉模型进入 “上下文” 时代。
- 加速 AGI 到来：Vidu 1.5 版本展现出的智能涌现，意味着视觉模型在理解、想象和生成过程中具备记忆管理能力，是视觉模态智能的大跨越，其更强的认知能力使其成为 AGI 的重要拼图。