Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Step-Video-TI2V – 阶跃星辰开源的图生视频模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Step-Video-TI2V – 阶跃星辰开源的图生视频模型
AIGC 资讯

Step-Video-TI2V – 阶跃星辰开源的图生视频模型

站外新闻
最近更新: 2026年6月8日 上午8:17
SHARE

Step-Video-TI2V是什么

Step-Video-TI2V 是阶跃星辰(StepFun)推出的开源图生视频(Image-to-Video)生成模型,拥有 300 亿参数,能根据文本描述和图像输入生成最长 102 帧的视频。模型基于深度压缩的变分自编码器(Video-VAE),实现了 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。用户可以通过设置运动分数(motion score)来平衡视频的动态性和稳定性。支持推、拉、摇、移、旋转、跟随等多种镜头运动方式。

阅读目录
  • Step-Video-TI2V是什么
  • Step-Video-TI2V的主要功能
  • Step-Video-TI2V的技术原理
  • Step-Video-TI2V的项目地址
  • 如何使用Step-Video-TI2V
  • Step-Video-TI2V的应用场景

Step-Video-TI2V

Step-Video-TI2V的主要功能

  • 图生视频生成:用户可以提供一张图片和相关的文本描述,模型会根据这些输入生成一段连贯的视频。
  • 高质量视频输出:支持生成最多 102 帧、5 秒、540P 分辨率的视频,能满足多种创作需求。
  • 动态性调节:用户可以通过设置运动分数(motion score)来控制视频的动态性。例如,运动分数为 2 时,视频更稳定但动态性较差;运动分数为 10 或 20 时,视频的动态性更强。
  • 平衡动态与稳定:通过运动分数的调节,用户可以在动态效果和稳定性之间找到最佳平衡。
  • 镜头运动控制:支持多种运镜方式,包括固定镜头、上下左右移动、上下左右摇、放大缩小、推进拉远、旋转、环绕以及焦点转移等。
  • 电影级运镜效果:能生成类似电影级别的复杂运镜效果,满足专业创作需求。
  • 动漫效果优化:在动漫风格视频生成方面表现出色,能生成具有虚化背景、动态动作等特效的视频。适合用于动画创作、短视频制作等应用场景。
  • 灵活的视频尺寸:支持多种尺寸的视频生成,包括横屏、竖屏和方屏,用户可以根据不同的创作需求和平台特性选择合适的视频尺寸。
  • 多语言支持:配备双语文本编码器,支持中英文提示输入,方便不同语言背景的用户使用。
  • 特效生成能力:初步具备特效生成能力,未来将通过技术优化进一步提升特效生成效果。

Step-Video-TI2V的技术原理

  • 深度压缩的变分自编码器(Video-VAE):Step-Video-TI2V 使用了深度压缩的变分自编码器(Video-VAE),实现了 16×16 的空间压缩和 8× 的时间压缩。显著降低了视频生成任务的计算复杂度,同时保持了优异的视频重建质量。Video-VAE 采用了双路径架构,能有效分离高低频信息,进一步优化视频生成的效果。
  • 基于扩散的 Transformer(DiT)架构:模型基于扩散的 Transformer(DiT)架构,包含 3D 全注意力机制。通过 Flow Matching 训练方法,将输入噪声逐步去噪为潜在帧,将文本嵌入和时间步作为条件因子。这种架构在生成具有强烈运动动态和高美学质量的视频方面表现出色。
  • 双语文本编码器:Step-Video-TI2V 配备了双语文本编码器,能处理中英文提示。使模型可以直接理解中文或英文输入,生成与文本描述相符的视频。
  • 直接偏好优化(DPO):为了进一步提升生成视频的质量,Step-Video-TI2V 引入了视频直接偏好优化(Video-DPO)方法。DPO 通过人类偏好数据对模型进行微调,减少伪影并增强视觉效果,使生成的视频更加平滑和真实。
  • 级联训练策略:模型采用了级联训练流程,包括文本到图像(T2I)预训练、文本到视频/图像(T2VI)预训练、文本到视频(T2V)微调和直接偏好优化(DPO)训练。加速了模型的收敛,充分利用了不同质量的视频数据。
  • 系统优化:Step-Video-TI2V 在系统层面进行了优化,包括张量并行、序列并行和 Zero1 优化,实现高效的分布式训练。引入了高性能通信框架 StepRPC 和双层监控系统 StepTelemetry,优化数据传输效率和识别性能瓶颈。

Step-Video-TI2V的项目地址

  • Github仓库:https://github.com/stepfun-ai/Step-Video-TI2V
  • HuggingFace模型库:https://huggingface.co/stepfun-ai/stepvideo-ti2v
  • arXiv技术论文:https://arxiv.org/pdf/2503.11251

如何使用Step-Video-TI2V

  • 访问跃问视频:访问跃问视频的官方网站或App端。
  • 操作步骤:点击上传图片,输入文本描述。调整参数(如运动分数等)。点击生成按钮,下载或分享视频。

Step-Video-TI2V的应用场景

  • 动画制作:Step-Video-TI2V 特别擅长生成动漫风格的视频,能根据输入的图片和文本描述生成流畅的动画。
  • 短视频制作:模型支持多种运镜方式,如推拉摇移、旋转、环绕等,能生成具有电影级效果的短视频。
  • 动作教学:Step-Video-TI2V 可以生成复杂动态场景,如体育动作教学、舞蹈教学等。
  • 特效制作:模型能生成具有美感和真实感的视频,适用于电影、电视剧和游戏中的特效制作。
  • 产品展示:Step-Video-TI2V 可以生成吸引人的广告视频,展示产品特点或品牌故事。
Decart AI开源Lucy Edit Dev:一句话指令即可编辑视频,保留原生运动与构图的革命性AI模型
Mureka V9全球第一!昆仑万维AI音乐模型全面超越Suno V5,音乐性与可控性登顶
大模型概念股港股狂飙!智谱单日暴涨超17%,MINIMAX跟涨,AI商业化拐点真的来了?
Step-Audio – 阶跃星辰开源的语音交互模型
阿里千问重磅发布Qwen3.7-Max:全栈AI智能体赋能编程、办公与长周期任务
分享
Email 复制链接 打印
Share
上一篇 Ev-DeblurVSR – 中科大等机构推出的视频画面增强模型
下一篇 Chat2SVG – 文本描述实现高质量矢量图形的生成框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯
华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Video-T1 – 清华联合腾讯推出的视频生成技术

站外新闻
AI 工具AIGC 资讯

Meta ARE: Meta发布AI Agent动态环境评估平台 Gaia2基准测试引领行业新标准

站外新闻
AI Agent Gaia2基准测试 meta 动态环境评估 多步骤推理
量子芯片科技感占位特色图
AI 工具AIGC 资讯

谷歌AI翻车!竟把’Google’拼错,大模型‘不识字’的硬伤藏不住了

站外新闻
AI摘要 Transformer 大语言模型 词元 谷歌
AI 工具AIGC 资讯

复旦重磅发布LifeSim:全球首个长程用户生活模拟框架,革新AI助手评测与训练

站外新闻
AI助手评测 BDI认知模型 LifeSim 个性化AI 长程模拟
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.