Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Open-Sora 2.0 – 潞晨科技开源的AI视频生成模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Open-Sora 2.0 – 潞晨科技开源的AI视频生成模型
AIGC 资讯

Open-Sora 2.0 – 潞晨科技开源的AI视频生成模型

站外新闻
最近更新: 2026年6月8日 上午10:48
SHARE

Open-Sora 2.0是什么

Open-Sora 2.0 是潞晨科技推出的全新开源SOTA(State-of-the-Art)视频生成模型。Open-Sora 2.0 用 20 万美元(224 张 GPU)成功训练出 11B 参数的商业级模型,相比传统高性能视频生成模型大幅降低了训练成本。模型在 VBench 和用户偏好测试中表现卓越,性能媲美甚至超越 HunyuanVideo 和 30B 参数的 Step-Video 等主流闭源模型。Open-Sora 2.0 基于 3D 自编码器、3D 全注意力机制和 MMDiT 架构,结合高效的并行训练方案和高压缩比自编码器,显著提升训练效率和推理速度。

阅读目录
  • Open-Sora 2.0是什么
  • Open-Sora 2.0的主要功能
  • Open-Sora 2.0的技术原理
  • Open-Sora 2.0的性能表现
  • Open-Sora 2.0的项目地址
  • Open-Sora 2.0的生成效果
  • 如何使用Open-Sora 2.0
  • Open-Sora 2.0的应用场景

Open-Sora 2.0

Open-Sora 2.0的主要功能

  • 高质量视频生成:生成 720p 分辨率、24 FPS 的流畅视频,支持多种场景和风格,从自然风光到复杂动态场景都能表现出色。
  • 动作幅度可控:根据用户需求调整视频中人物或物体的动作幅度,实现更细腻、精准的动态表现。
  • 文本到视频(T2V)生成:支持用文本描述直接生成对应的视频内容,满足创意视频制作和内容生成的需求。
  • 图像到视频(I2V)生成:结合开源图像模型,基于图像生成视频,进一步提升生成效果和多样性。

Open-Sora 2.0的技术原理

  • 模型架构:基于三维自编码器高效处理视频数据,捕捉时间维度上的动态信息。引入全注意力机制,提升视频生成的时空一致性。结合多模态扩散(MMDiT)架构,更精准地捕捉文本与视频内容的关联。
  • 高压缩比自编码器:基于 4×32×32 的高压缩比自编码器,显著降低推理成本。
  • 高效训练方法:基于多阶段、多层次的数据筛选机制,确保高质量数据输入,提升训练效率。优先在低分辨率下训练,学习关键动态特征,逐步提升分辨率,大幅降低计算开销。优先训练图生视频任务,用图像特征引导视频生成,加速模型收敛。
  • 并行训练与优化:结合 ColossalAI 和系统级优化,提升计算资源利用率。关键技术优化包括序列并行、ZeroDP、细粒度 Gradient Checkpointing、自动恢复机制、高效数据加载与内存管理等,确保训练效率最大化。
  • 模型初始化与蒸馏:借助开源图生视频模型 FLUX 进行初始化,降低训练成本。基于蒸馏的优化策略提升自编码器特征空间的表达能力,减少训练所需数据量和时间。

Open-Sora 2.0的性能表现

  • 媲美 HunyuanVideo 和 30B Step-Video:Open-Sora 2.0 凭借仅 11B 参数规模,在 VBench 和人工偏好测试中达到与高成本开发的主流闭源大模型(如 HunyuanVideo 和 30B 参数的 Step-Video)相媲美的水平。
  • 用户偏好评测:在视觉表现、文本一致性和动作表现三大关键维度中,Open-Sora 2.0 至少在两个指标上超越开源 SOTA 模型 HunyuanVideo 和商业模型 Runway Gen-3 Alpha,用更少的资源实现更优的性能表现。
  • VBench 指标表现强势:根据视频生成权威榜单 VBench 的评测结果,Open-Sora 2.0 的性能表现极为出色。从Open-Sora 1.2升级到2.0版本后,与行业领先的 OpenAI Sora 闭源模型之间的性能差距从 4.52% 缩减至仅 0.69%,几乎实现完全的性能对齐。Open-Sora 2.0 的评测分数已超越腾讯的 HunyuanVideo,用更低的训练成本达成了更高的性能水平,为开源视频生成领域树立新的里程碑。

Open-Sora 2.0

Open-Sora 2.0的项目地址

  • GitHub仓库:https://github.com/hpcaitech/Open-Sora
  • 技术论文:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2

Open-Sora 2.0的生成效果

  • 提示词:A tomato surfing on a piece of lettuce down a waterfall of ranch dressing, with exaggerated surfing moves and creamy wave effects to highlight the 3D animated fun.(一颗番茄在一片生菜上冲浪,顺着牧场酱汁的瀑布而下,夸张的冲浪动作和柔滑的波浪效果凸显了 3D 动画的乐趣。)

Open-Sora 2.0

  • 提示词:A drone camera circles a historic church on a rocky outcrop along the Amalfi Coast, highlighting its stunning architecture, tiered patios, and the dramatic coastal views with waves crashing below and people enjoying the scene in the warm afternoon light.(一架无人机摄像机围绕着阿马尔菲海岸岩石露头上的一座历史悠久的教堂飞行,突显了其令人惊叹的建筑、分层的庭院和壮观的海岸景色,海浪拍打在教堂下方,人们在温暖的午后阳光下欣赏着这美丽的景色。)

Open-Sora 2.0

  • 提示词:A scene from disaster movie.(灾难片中的场景。)

Open-Sora 2.0

  • 提示词:Chinese ancient style, realism. A young woman, dressed in an embroidered red qipao, walks along the ancient streets of a bustling Chinese town. The red lanterns hanging above her sway gently in the evening breeze, and her calm, confident stride contrasts with the lively atmosphere of merchants and performers around her.(中国古风写实。一位身着绣花红旗袍的年轻女子走在繁华的中国小镇的古老街道上。头顶上悬挂的红灯笼在晚风中轻轻摇曳,她从容自信的步伐与周围商贩和艺人的热闹氛围形成鲜明对比。)

Open-Sora 2.0

如何使用Open-Sora 2.0

  • 从源代码安装:
    • 创建虚拟环境(推荐使用 Conda):
conda create -n opensora python=3.9
conda activate opensora
    • 克隆仓库:
git clone https://github.com/hpcaitech/Open-Sora
cd Open-Sora
    • 安装依赖:
      • 根据你的 CUDA 版本(例如 CUDA 12.1),安装基础依赖:
pip install -r requirements/requirements-cu121.txt
      • 安装项目:
pip install -v .  # 或使用开发模式:pip install -v -e .
      • 安装加速相关的依赖(可选,但推荐):
pip install git+https://github.com/hpcaitech/TensorNVMe.git
pip install git+https://github.com/hpcaitech/ColossalAI.git
pip install packaging ninja
pip install flash-attn --no-build-isolation
pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" git+https://github.com/NVIDIA/apex.git
  • 使用 Docker 安装:
    • 构建 Docker 镜像:
docker build -t opensora .
    • 运行 Docker 容器(确保挂载 GPU 和工作目录):
docker run -ti --gpus all -v .:/workspace/Open-Sora opensora

Open-Sora 2.0的应用场景

  • 频制作:快速生成广告、动画等创意视频,降低制作成本。
  • 影视后期:辅助生成特效镜头和虚拟场景,提升制作效率。
  • 教育领域:生成教育视频,增强教学的趣味性和效果。
  • 游戏开发:用在生成游戏动画和虚拟场景,丰富游戏内容。
  • VR/AR 应用:构建沉浸式虚拟场景,提升用户体验。
育碧《孤岛惊魂7》秘密测试生成式AI遭曝光!曝料人称效果“烂透了”,押注NPC智能交互能否翻盘?
腾讯AI Lab发布SongBloom:全长度AI歌曲生成模型,10秒样本生成2分半高质量音乐
清华×腾讯混元夺MLSys2026 MoE推理挑战赛冠军,NPU推理提速4.1倍突破万亿参数瓶颈
Text to Bark – ElevenLabs 推出的 AI“狗语”文本转语音模型
Step1X-Edit – 阶跃星辰开源的通用图像编辑框架
分享
Email 复制链接 打印
Share
上一篇 Umi-OCR – 免费 OCR 文字识别工具,支持截图、批量图片排版解析
下一篇 X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

腾讯AI Lab重磅开源SongGeneration:AI音乐生成大模型,多轨合成、风格克隆,媲美商业模型
AI 工具 AIGC 资讯
快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯
华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

美团LongCat开源:音频驱动数字人视频生成模型,超逼真口型同步、长视频稳定生成

站外新闻
AIGC 数字人 美团 视频生成 音频驱动
AIGC 资讯

Gemini 2.5 Pro (I/O 版) – 谷歌推出的升级版多模态AI模型

站外新闻
AIGC 资讯

FoxBrain – 鸿海研究院推出的推理大语言模型

站外新闻
AIGC 资讯

MinMo – 阿里通义实验室推出的多模态语音交互大模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.