字节港科大重磅突破：MMProLong以QA训练取代OCR，长文档LMM效率飙升、成本骤降

💡 站外导读：多模态大模型（LMM）的“长文档”处理能力，是通往真正智能体的核心瓶颈。当前行业主流依赖OCR文本转录进行训练，但这真的有效吗？字节跳动Seed团队与香港科技大学的最新研究MMProLong，直接戳破了这一传统迷思。研究发现，在长上下文训练中，针对特定目标的问答对（QA）训练，其效果远超简单的OCR转录，甚至后者可能有害。这一发现，重新定义了大模型长文本能力的构建范式。

5月24日，字节跳动Seed团队联合香港科技大学发布了一项针对多模态大语言模型（LMM）长文档训练的最新研究成果。研究人员基于阿里巴巴开源的Qwen2.5-VL构建了名为 MMProLong 的新模型，并在长文档处理效率上取得突破性进展。该研究不仅打破了多模态模型长文本训练的传统路径，更揭示了数据组织形式对模型长上下文能力的关键影响。

本项研究揭示了一个关键突破点：在多模态长文档的模型训练中，采用针对特定任务设计的问答对（QA）进行训练，其效果远胜于传统的光学字符识别（OCR）转录方式。研究数据显示，单纯依靠文本转录作为训练任务，不仅无助于增强模型在长文本中的信息定位能力，反而可能造成性能退化。相反，借助独立模型（例如字节跳动的Seed2.0）所生成的、包含长上下文的问答数据进行训练，能够有效指导模型在复杂冗长的干扰信息中，准确锁定并提取出目标段落。

基于这一优化策略，MMProLong 在仅 128，000个Token 的有限训练预算下，展现出极强的长文本稳定性，在输入长度达到 256，000乃至512，000个Token 时依然没有出现性能崩溃，并在 MMLongBench 和 MM-NIAH（大海捞针）基准测试中大幅超越 InternVL3-38B 和Gemma3-27B等体量更大的开源模型。此外，MMProLong 的多模态能力还成功迁移至未经专门训练的长视频理解任务中，并在Qwen3-VL-8B模型上同样验证了该策略 water-proof 的有效性。

这项研究为大模型行业的发展指出了另一条路径，它不同于DeepSeek所采取的通过视觉信息高度压缩与重排来升级架构的思路。研究证实，通过优化训练数据的结构与组织方式，而非对底层模型架构进行大刀阔斧的修改，同样能够实现模型在长上下文理解能力上的重大飞跃。这一发现为未来开发支持更长文本模态、具备多步骤推理能力的智能体，开辟了一条更为经济且高效的技术实现途径。

📝 站长洞察 (Editor’s Insight)

主编点评：这篇研究的价值，远不止一个新模型。它揭示了一个行业级的范式转移：长上下文能力的核心，可能不在于无限堆砌token或疯狂改造架构，而在于我们‘喂给’模型的数据是什么形态。字节和港科大用QA对取代OCR，本质上是从‘模仿文本表面’转向‘学习推理与检索’，这直指大模型智能的本质。这与DeepSeek压缩视觉信息的架构路径形成绝佳对照，证明了‘数据炼金术’与‘架构革命’同样重要。对于从业者而言，这意味着：在追求更大更长的模型之前，先审视你的训练数据构建方法。MMProLong在更低训练预算下达成的性能飞跃，预示着一种更经济、更普适的长上下文能力提升路线，尤其对多模态智能体、超长文档分析等场景具有直接指导意义。这是务实而前瞻的一步。

字节港科大重磅突破：MMProLong以QA训练取代OCR，长文档LMM效率飙升、成本骤降

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

[AI生图咒语] 严肃职业肖像摄影提示词 (LinkedIn/商务高管头像)

Cosmos 3 Edge – 英伟达开源的 4B 参数世界模型

BigMac – 小红书开源的多模态大模型流水并行训练框架

Kimi K3 攻防考卷翻车：漏洞利用只到美国前沿模型四成，蒸馏疑云被安全机构摆上台

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复