Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Vidu Q1 – 生数科技推出的高可控视频大模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Vidu Q1 – 生数科技推出的高可控视频大模型
AIGC 资讯

Vidu Q1 – 生数科技推出的高可控视频大模型

站外新闻
最近更新: 2026年6月8日 上午3:57
SHARE

Vidu Q1是什么

Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。支持生成1080p高清视频,画质细腻,细节丰富,能满足5秒视频的生成需求。首尾帧功能升级后,仅需两张图即可生成电影级的自然运镜效果。Vidu Q1具备精准音效控制功能,支持在时间轴上标注音效类型与时长,同步精度可达±0.1秒。模型优化了多主体细节可控能力,用户可以通过上传参考图和文字指令,精准调整视频中主体的位置、大小和运动轨迹。能针对模糊区域进行局部超分重建,4K视频放大8倍仍无马赛克。在海外权威视频生成评测榜单VBench-1.0和VBench-2.0中分别以总分87.41%和60.98%的成绩登顶,超越了Runway、OpenAI Sora等模型。在国内SuperCLUE的图生视频榜单中,Vidu Q1也以动漫风格63.52分、写实风格67.78分拿下双榜第一。

阅读目录
  • Vidu Q1是什么
  • Vidu Q1的主要功能
  • Vidu Q1的技术原理
  • Vidu Q1的项目地址
  • Vidu Q1的评测效果
  • 如何使用Vidu Q1
  • Vidu Q1的应用场景

Vidu Q1

Vidu Q1的主要功能

  • 高清画质与分辨率:支持生成1080p分辨率的高清视频,画质细腻,细节逼真。
  • 首尾帧功能:用户仅需上传两张图,可生成电影级的运镜效果,首尾帧衔接流畅自然,镜头语言更有“电影感”。
  • 音效生成:新增“一句话生成音效”功能,能根据提示词生成背景音乐和音效,支持精细控制每段音频的出现时间点,可分段控制、自由叠加,声音与画面完美贴合。
  • 极“质”风格:动漫风格更稳定流畅,角色动作和情绪表达更到位。
  • 视频质量与语义一致性:在VBench-1.0的视频质量、语义一致性等维度上,Vidu Q1达到SOTA(State of the Art)水平,生成的视频在表面真实性与内在真实性上表现出色。
  • 常识推理与物理理解:在VBench-2.0的常识推理与物理规律理解两大维度上,Vidu Q1也表现出色,展现出领先的理解与生成能力。
  • 精准调整主体属性:用户可通过上传参考图和文字指令,框选视频中的任意角色或物体,精准调整其位置(坐标轴定位)、大小(百分比缩放)、运动轨迹(自定义路径曲线)及动作细节(如“抬手15度”“眨眼频率2秒/次”)。实测显示,同一指令生成10次视频时,角色偏移误差小于5像素,而传统模型通常超过200像素。
  • 多主体一致性:在多主体场景中,Vidu Q1 能保持主体间的一致性,确保视频中多个角色或物体的动作、位置等协调统一,这对于制作复杂的多主体视频内容(如动画、影视短剧等)非常关键。
  • 音效时间轴控制:用户可在时间轴上打点标注音效类型与时长,如0:00-0:03秒设置风声(强度70%),0:04-0:05秒设置玻璃破碎声(左声道优先)。Vidu Q1 的音效同步精度可达±0.1秒,相比传统AI音效随机匹配,大大增强了视频的沉浸感与感染力。
  • 局部超分重建:针对模糊区域进行局部超分重建,4K视频放大8倍仍无马赛克。可手动调节光影强度、材质纹理、景深虚化等,进一步提升视频的视觉质量。

Vidu Q1的技术原理

  • 技术架构:Vidu Q1 基于扩散模型(Diffusion Model)和 U-ViT 架构开发。U-ViT 结合了 Transformer 的可扩展性和长序列建模能力,能处理长达16秒的1080p视频。模型通过视频自编码器减少视频的空间和时间维度,实现高效的训练和推断。
  • 多模态融合:Vidu Q1 融合了文本、图像和视频等多种模态的信息,通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。使 Vidu Q1 能生成具有高度一致性和动态性的视频。
  • 自动生成与标注:为了应对大规模视频训练数据的标注问题,Vidu Q1 使用了高性能的视频标题生成器来自动标注训练视频。在推断过程中,应用了重新标题技术,将用户输入重新表述为更适合模型的形式。
  • 可控视频生成的拓展:Vidu Q1 进行了其他可控视频生成的实验,包括边缘检测到视频生成、视频预测和主体驱动生成等。实验展示了 Vidu Q1 在不同应用场景中的潜力。

Vidu Q1的项目地址

  • API地址:platform.vidu.cn

Vidu Q1的评测效果

  • Vidu Q1在海外权威视频生成评测榜单VBench Leaderboard的VBench-1.0和VBench-2.0榜单中登顶,分别以总分87.41%和60.98%的成绩超越了Runway、Sora、LumaAI等国内外视频生成模型,拿下文生视频赛道榜单双第一。
  • 在VBench-1.0的视频质量、视频语义一致性以及VBench-2.0的常识推理、物理理解等综合维度上达到SOTA(State of the Art,即当前最先进的模型)水平,表现出色。
  • 在VBench 2.0的评测中,Vidu Q1在常识推理与物理规律理解两大维度摘得第一,展现出领先的理解与生成能力。
  • Vidu Q1在国内权威通用大模型综合性测评基准SuperCLUE发布的图生视频专项榜单中,以动漫风格63.52、写实风格67.78的成绩拿下双榜单第一,展现了其在专项应用层面强劲而稳定的图生视频能力。

如何使用Vidu Q1

  • 注册与登录:访问 Vidu 的官网,点击注册或登录。
  • 模型选择:左上角选择Vidu Q1模型。
  • 文生视频:输入文字,描述想要生成的内容,进行个性化设置,可选择试用清晰度1080p。
  • 图生视频:上传图片和尾帧参考图片,输入图片描述想要生成的内容。进行个性化设置,支持选择清晰度1080p。
  • 参考生视频:暂不支持Vidu Q1模型,可切换使用2.0模型。
  • 创作视频:设置完成后,点击创作,获取生成的视频,进行调整。

Vidu Q1

Vidu Q1的应用场景

  • 影视制作:Vidu Q1 可快速生成高质量的视频内容,大大缩短制作周期并降低成本。多镜头生成能力和对时空一致性的把控,为特效制作、场景剪辑等提供了便利。
  • 广告宣传:Vidu Q1 能快速生成多种风格和主题的视频广告,满足不同客户的需求。可根据用户的兴趣和行为数据,实现精准投放和个性化推荐,提高广告的转化率和效果。
  • 动画制作:Vidu Q1 的多主体一致性控制能力在动画制作中具有重要价值,能确保角色在不同视角下的细节一致性,减轻动画师的工作负担。
极佳视界GigaWorld-1开源具身世界模型登顶全球第一:详解架构、性能与应用场景
重磅开源|Wall-OSS-0.5:国产具身大模型破解零样本部署难题,无需微调直驱真实机器人
科大讯飞AI眼镜重磅发布:4299元内置龙虾助手GlassClaw,122种语言实时翻译重塑生产力
智谱GLM-5.1高速版发布:400 tokens/s刷新全球API速度极限,破解AI效率与智能不可兼得难题
阶跃星辰StepAudio 2.5 Realtime重磅发布:端到端实时语音大模型,实现真人级对话、千万人设自定义与行业评测全面领先
分享
Email 复制链接 打印
Share
上一篇 The AI Scientist-v2 – 通用端到端 AI 系统,自动探索科学假设生成论文
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

The AI Scientist-v2 – 通用端到端 AI 系统,自动探索科学假设生成论文
AIGC 资讯
龙猫LongCat – 美团自主研发的生成式AI大模型
AIGC 资讯
Rowboat – 开源AI编程工具,快速构建多智能体助手
AIGC 资讯
BAGEL – 字节跳动开源的多模态基础模型
AIGC 资讯

相关推荐

AIGC 资讯

可灵2.0 – 快手推出的新一代AI视频生成模型

站外新闻
全息流体渐变通用占位特色图
AIGC 资讯

估值一年翻倍!AI网关巨头OpenRouter获谷歌1.13亿美元投资,揭示多模型调度万亿市场

站外新闻
AI网关 OpenRouter 企业AI
AI 工具AIGC 资讯

乐鑫 ESP-Claw 开源:用自然语言对话定义物联网设备行为的 AI Agent 框架

站外新闻
AI Agent ESP32 物联网 自然语言处理 边缘计算
AI 工具AIGC 资讯

Qwen3.6-Max-Preview深度评测:六大编程基准登顶,Agent编程能力超越Claude 4.5 Opus

站外新闻
AIGC Qwen3.6 大模型 智能体编程 阿里通义千问
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.