5月24日,字节跳动Seed团队联合香港科技大学发布了一项针对多模态大语言模型(LMM)长文档训练的最新研究成果。研究人员基于阿里巴巴开源的Qwen2.5-VL构建了名为 MMProLong 的新模型,并在长文档处理效率上取得突破性进展。该研究不仅打破了多模态模型长文本训练的传统路径,更揭示了数据组织形式对模型长上下文能力的关键影响。

本项研究揭示了一个关键突破点:在多模态长文档的模型训练中,采用针对特定任务设计的问答对(QA)进行训练,其效果远胜于传统的光学字符识别(OCR)转录方式。研究数据显示,单纯依靠文本转录作为训练任务,不仅无助于增强模型在长文本中的信息定位能力,反而可能造成性能退化。相反,借助独立模型(例如字节跳动的Seed2.0)所生成的、包含长上下文的问答数据进行训练,能够有效指导模型在复杂冗长的干扰信息中,准确锁定并提取出目标段落。

基于这一优化策略,MMProLong 在仅 128,000个Token 的有限训练预算下,展现出极强的长文本稳定性,在输入长度达到 256,000乃至512,000个Token 时依然没有出现性能崩溃,并在 MMLongBench 和 MM-NIAH(大海捞针)基准测试中大幅超越 InternVL3-38B 和Gemma3-27B等体量更大的开源模型。此外,MMProLong 的多模态能力还成功迁移至未经专门训练的长视频理解任务中,并在Qwen3-VL-8B模型上同样验证了该策略 water-proof 的有效性。

这项研究为大模型行业的发展指出了另一条路径,它不同于DeepSeek所采取的通过视觉信息高度压缩与重排来升级架构的思路。研究证实,通过优化训练数据的结构与组织方式,而非对底层模型架构进行大刀阔斧的修改,同样能够实现模型在长上下文理解能力上的重大飞跃。这一发现为未来开发支持更长文本模态、具备多步骤推理能力的智能体,开辟了一条更为经济且高效的技术实现途径。