Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Vidu Q1 – 生数科技推出的高可控视频大模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Vidu Q1 – 生数科技推出的高可控视频大模型
AIGC 资讯

Vidu Q1 – 生数科技推出的高可控视频大模型

站外新闻
最近更新: 2026年6月8日 上午3:57
SHARE

Vidu Q1是什么

Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。支持生成1080p高清视频,画质细腻,细节丰富,能满足5秒视频的生成需求。首尾帧功能升级后,仅需两张图即可生成电影级的自然运镜效果。Vidu Q1具备精准音效控制功能,支持在时间轴上标注音效类型与时长,同步精度可达±0.1秒。模型优化了多主体细节可控能力,用户可以通过上传参考图和文字指令,精准调整视频中主体的位置、大小和运动轨迹。能针对模糊区域进行局部超分重建,4K视频放大8倍仍无马赛克。在海外权威视频生成评测榜单VBench-1.0和VBench-2.0中分别以总分87.41%和60.98%的成绩登顶,超越了Runway、OpenAI Sora等模型。在国内SuperCLUE的图生视频榜单中,Vidu Q1也以动漫风格63.52分、写实风格67.78分拿下双榜第一。

阅读目录
  • Vidu Q1是什么
  • Vidu Q1的主要功能
  • Vidu Q1的技术原理
  • Vidu Q1的项目地址
  • Vidu Q1的评测效果
  • 如何使用Vidu Q1
  • Vidu Q1的应用场景

Vidu Q1

Vidu Q1的主要功能

  • 高清画质与分辨率:支持生成1080p分辨率的高清视频,画质细腻,细节逼真。
  • 首尾帧功能:用户仅需上传两张图,可生成电影级的运镜效果,首尾帧衔接流畅自然,镜头语言更有“电影感”。
  • 音效生成:新增“一句话生成音效”功能,能根据提示词生成背景音乐和音效,支持精细控制每段音频的出现时间点,可分段控制、自由叠加,声音与画面完美贴合。
  • 极“质”风格:动漫风格更稳定流畅,角色动作和情绪表达更到位。
  • 视频质量与语义一致性:在VBench-1.0的视频质量、语义一致性等维度上,Vidu Q1达到SOTA(State of the Art)水平,生成的视频在表面真实性与内在真实性上表现出色。
  • 常识推理与物理理解:在VBench-2.0的常识推理与物理规律理解两大维度上,Vidu Q1也表现出色,展现出领先的理解与生成能力。
  • 精准调整主体属性:用户可通过上传参考图和文字指令,框选视频中的任意角色或物体,精准调整其位置(坐标轴定位)、大小(百分比缩放)、运动轨迹(自定义路径曲线)及动作细节(如“抬手15度”“眨眼频率2秒/次”)。实测显示,同一指令生成10次视频时,角色偏移误差小于5像素,而传统模型通常超过200像素。
  • 多主体一致性:在多主体场景中,Vidu Q1 能保持主体间的一致性,确保视频中多个角色或物体的动作、位置等协调统一,这对于制作复杂的多主体视频内容(如动画、影视短剧等)非常关键。
  • 音效时间轴控制:用户可在时间轴上打点标注音效类型与时长,如0:00-0:03秒设置风声(强度70%),0:04-0:05秒设置玻璃破碎声(左声道优先)。Vidu Q1 的音效同步精度可达±0.1秒,相比传统AI音效随机匹配,大大增强了视频的沉浸感与感染力。
  • 局部超分重建:针对模糊区域进行局部超分重建,4K视频放大8倍仍无马赛克。可手动调节光影强度、材质纹理、景深虚化等,进一步提升视频的视觉质量。

Vidu Q1的技术原理

  • 技术架构:Vidu Q1 基于扩散模型(Diffusion Model)和 U-ViT 架构开发。U-ViT 结合了 Transformer 的可扩展性和长序列建模能力,能处理长达16秒的1080p视频。模型通过视频自编码器减少视频的空间和时间维度,实现高效的训练和推断。
  • 多模态融合:Vidu Q1 融合了文本、图像和视频等多种模态的信息,通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。使 Vidu Q1 能生成具有高度一致性和动态性的视频。
  • 自动生成与标注:为了应对大规模视频训练数据的标注问题,Vidu Q1 使用了高性能的视频标题生成器来自动标注训练视频。在推断过程中,应用了重新标题技术,将用户输入重新表述为更适合模型的形式。
  • 可控视频生成的拓展:Vidu Q1 进行了其他可控视频生成的实验,包括边缘检测到视频生成、视频预测和主体驱动生成等。实验展示了 Vidu Q1 在不同应用场景中的潜力。

Vidu Q1的项目地址

  • API地址:platform.vidu.cn

Vidu Q1的评测效果

  • Vidu Q1在海外权威视频生成评测榜单VBench Leaderboard的VBench-1.0和VBench-2.0榜单中登顶,分别以总分87.41%和60.98%的成绩超越了Runway、Sora、LumaAI等国内外视频生成模型,拿下文生视频赛道榜单双第一。
  • 在VBench-1.0的视频质量、视频语义一致性以及VBench-2.0的常识推理、物理理解等综合维度上达到SOTA(State of the Art,即当前最先进的模型)水平,表现出色。
  • 在VBench 2.0的评测中,Vidu Q1在常识推理与物理规律理解两大维度摘得第一,展现出领先的理解与生成能力。
  • Vidu Q1在国内权威通用大模型综合性测评基准SuperCLUE发布的图生视频专项榜单中,以动漫风格63.52、写实风格67.78的成绩拿下双榜单第一,展现了其在专项应用层面强劲而稳定的图生视频能力。

如何使用Vidu Q1

  • 注册与登录:访问 Vidu 的官网,点击注册或登录。
  • 模型选择:左上角选择Vidu Q1模型。
  • 文生视频:输入文字,描述想要生成的内容,进行个性化设置,可选择试用清晰度1080p。
  • 图生视频:上传图片和尾帧参考图片,输入图片描述想要生成的内容。进行个性化设置,支持选择清晰度1080p。
  • 参考生视频:暂不支持Vidu Q1模型,可切换使用2.0模型。
  • 创作视频:设置完成后,点击创作,获取生成的视频,进行调整。

Vidu Q1

Vidu Q1的应用场景

  • 影视制作:Vidu Q1 可快速生成高质量的视频内容,大大缩短制作周期并降低成本。多镜头生成能力和对时空一致性的把控,为特效制作、场景剪辑等提供了便利。
  • 广告宣传:Vidu Q1 能快速生成多种风格和主题的视频广告,满足不同客户的需求。可根据用户的兴趣和行为数据,实现精准投放和个性化推荐,提高广告的转化率和效果。
  • 动画制作:Vidu Q1 的多主体一致性控制能力在动画制作中具有重要价值,能确保角色在不同视角下的细节一致性,减轻动画师的工作负担。
ChildMandarin – 智源联合南开开源的低幼儿童中文语音数据集
腾讯CL-bench震撼发布:AI学习能力基准测试,GPT-5.1解决率仅23.7%暴露行业瓶颈
AgiBot Digital World – 智元机器人推出的机器人仿真框架
腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
Second Me – 心识宇宙开源的 AI 身份模型
分享
Email 复制链接 打印
Share
上一篇 The AI Scientist-v2 – 通用端到端 AI 系统,自动探索科学假设生成论文
下一篇 KuaiMod – 快手推出的自动化短视频质量判别框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯
华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

BILIVE – 开源AI录播工具,一站式自动直播录制与处理

站外新闻
AIGC 资讯

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

站外新闻
AIGC 资讯

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

站外新闻
AIGC 资讯

GEN3C – NVIDIA 联合多伦多大学等推出的生成式视频模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.