Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Goku – 港大和字节联合推出的最新视频生成模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Goku – 港大和字节联合推出的最新视频生成模型
AIGC 资讯

Goku – 港大和字节联合推出的最新视频生成模型

站外新闻
最近更新: 2026年6月8日 下午10:59
SHARE

Goku是什么

Goku是香港大学和字节跳动联合发布的最新视频生成模型,专为图像和视频的联合生成设计。基于先进的rectified flow Transformer框架,支持文生视频、图生视频及文生图等多种模式。Goku的核心优势包括高质量的视频生成能力、极低的广告视频制作成本(比传统方法低100倍)。Goku基于大规模高质量的数据集和高效的训练设施。研究人员构建了包含约3600万视频和1.6亿图像的数据集,采用多模态大语言模型生成语境一致的框架。Goku采用了先进的并行策略和容错机制,确保训练过程的高效性和稳定性。

阅读目录
  • Goku是什么
  • Goku的主要功能
  • Goku的技术原理
  • Goku的项目地址
  • Goku的应用场景

Goku+是基于Goku模型推出的扩展版本,专注于广告视频创作,能快速生成高质量的广告视频,支持20秒以上的视频生成,具备稳定的手部动作和丰富的面部及身体表情。Goku+可将产品图片转化为吸引人的视频,支持虚拟数字人与产品互动,增强广告吸引力。适用于电商、品牌宣传、短视频广告和产品展示等多种场景,能显著降低广告制作成本,提升创作效率。

Goku

Goku的主要功能

  • 文本到图像(Text-to-Image):根据文本描述生成高质量图像,能生成细节丰富且与文本描述高度一致的图像。
  • 文本到视频(Text-to-Video):根据文本描述生成连贯的视频,生成的视频具有流畅的动作和高质量的画面。
  • 图像到视频(Image-to-Video):以图像为基础生成视频,保持图像的视觉风格和语义一致性,能从静态图像生成动态视频,适用于动画和视频内容创作。
  • 广告视频生成(Goku+):生成高质量的广告视频,支持人物与产品的自然互动。可以将广告视频的制作成本降低100倍,生成的视频具有稳定的手部动作和丰富的面部表情。
  • 虚拟数字人视频生成:生成虚拟数字人的视频,具有高度的逼真感和自然的动作,适用于虚拟主播、虚拟客服等场景。
  • 多模态生成:支持多种模态的生成任务,包括图像、视频和文本的联合生成。通过共享潜在空间和全注意力机制,Goku能无缝处理图像和视频的复杂时空依赖关系。

Goku的技术原理

  • 图像-视频联合VAE:Goku采用3D联合图像-视频变分自编码器(VAE),将图像和视频输入压缩到共享的潜在空间。使模型能处理多种媒体格式,包括图像和视频,在统一框架内进行表示。
  • Transformer架构:Goku模型家族包含2B和8B参数的Transformer架构。架构基于全注意力机制,能有效处理图像和视频的复杂时空依赖关系,实现高质量、连贯的输出。
  • 校正流公式:基于Rectified Flow(RF)算法,Goku通过线性插值在先验分布和目标数据分布之间进行训练。相比传统的扩散模型,展现出更快的收敛速度和更强的理论性质。
  • 多阶段训练策略:Goku采用多阶段训练策略,包括图文语义对齐预训练、图像-视频联合训练,以及针对不同模态的微调。逐步提升模型的生成能力,确保在大规模数据集上的高效训练。
  • 大规模高质量数据集:研究人员构建了约3600万视频和1.6亿图像的大规模数据集,采用多种数据过滤和增强技术来提高数据质量。数据集为模型训练提供了丰富的素材。
  • 高效的训练基础设施:Goku的训练基础设施包括并行策略、细粒度激活检查点技术、容错机制以及ByteCheckpoint技术。显著提升了训练效率和稳定性。

Goku的项目地址

  • 项目官网:https://saiyan-world.github.io/goku/
  • Github仓库:https://github.com/Saiyan-World/goku
  • HuggingFace模型库:https://huggingface.co/datasets/saiyan-world/Goku
  • arXiv技术论文:https://arxiv.org/pdf/2502.04896

Goku的应用场景

  • 广告视频制作:Goku+能根据文本描述生成高质量的广告视频,支持从文本直接生成视频、从产品图片生成人物互动视频,以及生成产品展示视频。
  • 虚拟数字人视频生成:Goku+可以将文本转换为超现实的人类视频,生成超过20秒的视频,具有稳定的手部动作和极具表现力的面部及身体动作。
  • 内容创作:Goku能生成包括动画、自然风光、动物行为等多种场景的视频。可以生成一位时尚女性在东京街头漫步的视频,或者数只巨型猛犸象在雪地上行走的场景。为艺术创作者提供了丰富的灵感和创作素材。
  • 教育与培训:Goku可以用于制作教育视频和培训课程,通过生成生动的视频内容,提高教育培训的效果和趣味性。
  • 娱乐产业:在电影、电视剧、动画等娱乐产业中,Goku可用于内容制作和特效生成。能生成高质量的视频内容,为创作者提供更多可能性。
K2-Think开源推理模型:数学代码双冠王,320亿参数重塑AI推理效率
TxGemma – 谷歌推出的通用医学治疗大模型
NovaSR:仅52KB的开源音频超分模型,一键将电话音质提升至录音室级别
FutureX:字节复旦斯坦福联手打造,LLM动态实时预测基准,破解AI评估数据污染难题
DeepSeek-R1 – DeepSeek推出的高性能AI推理模型,性能对标OpenAI o1正式版
分享
Email 复制链接 打印
Share
上一篇 RuoYi AI – 全栈式 AI 开发平台,快速搭建个性化 AI 应用
下一篇 Mercury Coder – Inception Labs 推出的商业级扩散大型语言模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

GPT‑5.3 Instant正式发布:OpenAI免费轻量级模型,幻觉率降低27%|AI聊天革命

站外新闻
AIGC GPT-5.3 Instant openai 对话模型
AI 工具AIGC 资讯

Hugging Face重磅开源FineVision视觉语言数据集:1700万图像+8900万轮对话,AI模型性能飙升20%

站外新闻
AIGC Hugging Face 多模态数据集 开源AI 视觉语言模型
全息流体渐变通用占位特色图
AIGC 资讯

马斯克千亿资本腾挪:SpaceX低息贷款置换高息债,年省10亿美元利息

站外新闻
SpaceX 企业集团化 债务重组 资本运作 马斯克
AIGC 资讯

SkyReels-A2 – 昆仑万维推出的可控视频生成框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.