近日,字节跳动(ByteDance Research)正式开源了其原生统一多模态大模型——Lance

当业界还在盲目堆叠千亿乃至万亿参数,或是热衷于用‘搭积木’的方式拼凑大模型时,Lance 的横空出世犹如一记惊雷。它凭借仅30亿参数的极致轻量设计,就实现了功能的全面覆盖,更一举打破了长久以来横亘在理解模型(VLM)与生成模型(DiT/Diffusion)之间的技术壁垒。

image.png

核心看点:

  • 原生统一: 拒绝“拼接”,从零训练起就将图像/视频的理解、生成与跨模态编辑塞进同一个模型体系。

  • 全能贯通:单个模型即可完美闭环 $X \rightarrow T$(文本/视觉理解)、$X \rightarrow I$(图像生成与编辑)、$X \rightarrow V$(视频生成与编辑)这三大核心任务输出。

  • 开源白嫖: 采用极其友好的 Apache2.0协议,权重已全面上线 Hugging Face,平民级128张 A100算力预算即可跑通全程。

技术解密:它是如何让相反的需求“同频共振”的?

在传统AI架构里,大模型的‘理解’与‘生成’能力仿佛一对难以调和的矛盾:理解任务需过滤噪声、提取高层语义;而生成任务则相反,必须专注于纹理、几何结构及时序动态等底层连续表征。

为了攻克这一业界公认的难题,Lance 引入了极其精妙的“共享上下文 + 能力解耦并行”设计:

1. 统一交错序列与双流专家架构

所有输入的文本、图像和视频,在进入模型前都会被转换为统一的‘交错序列’。该序列随即被送入双流专家架构(Dual-Stream MoE),由专门处理‘理解’与‘生成’的专家路由分别负责,从而巧妙化解了两者间的能力冲突。

  • 理解侧: 文本标记与视觉输入分别依赖 Qwen2.5-VL 的嵌入层与 ViT 编码器,精准提取高能语义视觉标记(Tokens)。

  • 在生成端,视觉输入由Wan2.2强大的3D因果VAE进行压缩编码,实现空间分辨率的16倍下采样和时间维度的4倍下采样,从而保留最为细腻的动态连续细节。

2. MaPE(模态感知旋转位置编码)

当同一条长序列里同时混合了图、文、视多种视觉标记时,极易产生“边界混淆”的幻觉。Lance 独创了 MaPE 机制,通过为不同模态组添加固定的时间偏移量。这一精妙设计在不破坏图像和视频内部空间结构与时间顺序的前提下,让模型拥有了极强的空间和时间边界辨识力。

[统一交错序列] ───► [MaPE 模态边界隔离] ───► [双流专家架构 (MoE)]

4阶段极限炼丹:128张显卡打完的“精益战役”

相较于大厂动辄使用上万张GPU、不计成本的‘暴力美学’,Lance的训练过程体现了出色的‘成本控制艺术’。其整个训练周期被严格限定在最多128张GPU的预算内,并通过四个环环相扣的阶段精细推进:

  • 阶段1:预训练(1.5T Tokens) —— 狂啃1B 图文对和140M 视频文本对,打牢多模态底座。

  • 阶段2:持续训练(300B Tokens)——引入图像编辑、主体驱动生成及多模态理解等数据,以激活多任务间的协同效应。

  • 阶段3:监督微调 SFT(72B Tokens) —— 疯狂注入人类指令,死磕指令遵循和视觉身份(ID)一致性。

  • 阶段4:强化学习(RL,采用GRPO算法)——通过组相对策略优化,并创新性地使用PaddleOCR作为奖励模型,精准针对AI在图片中‘文字渲染不准’及‘图文不对齐’这两大顽疾进行优化。

战绩彪炳:3B 战神跨界狂虐7B 巨兽

得益于跨任务的数据协同效应(模型在学生成的过程中加深了理解,在学理解的同时反哺了生成的空间感),3B 体积的 Lance 在各项硬核基准测试(Benchmarks)中斩获了惊人的越级表现:

  • 在视频生成(VBench)评测中,Lance取得了85.11分!不仅击败了同类全能模型TUNA(84.06分),甚至超越了HunyuanVideo(83.33分)和Wan2.1-T2V(83.69分)等专业视频生成大模型。

  • 图像生成(GenEval): 总分跑出 0.90,强势杀入全球开源梯队最前列。

  • 在视频理解(MVBench)任务上,Lance获得62.0分,将体量是其两倍的专用理解模型Show-o2(7B参数,55.7分)远远甩在了身后。

行业震荡:多模态应用部署成本将迎断崖式下跌

Lance 的开源,对于整个生成式 AI、尤其是当前火爆的 AI 短剧、智能体(Agent)协作、互动媒体等赛道而言,是一场大象荡秋千般的产业降维打击。

过去,要开发一个既能理解剧本、生成分镜,又能根据反馈实时修改画面并保持角色一致性的AI工具,开发者不得不在后台同时部署、调度并串联多个模型(例如一个负责VLM语义分析,一个负责Diffusion图像生成,另一个处理时序视频)。这不仅导致系统运行缓慢,单是多个模型间的管道对齐与同步就足以让人焦头烂额。

现在,Lance3B 用一个大脑实现了“左眼看、右眼编、双手创”。其极低的参数量意味着企业端侧与服务器端的部署成本、推理延迟和算力消耗将迎来断崖式下跌。目前,该模型的公测环境要求为 Python3.10+、CUDA12.4+,以及最低40GB 显存(单张消费级显卡或轻量服务器即可轻松驱动)。字节跳动这一波“开源科技春风”,无疑让2026下半场的 AIGC 工业化量产跑得更稳、更快。