阿里达摩院「灵枢」大模型：12种医学影像秒级分析，性能碾压GPT-4.1，开源引爆医疗AI新浪潮

💡 站外导读：在医疗AI领域，模型的精准度与可靠性是生命线。然而，现有通用大模型在处理专业、多样的医学影像（如X光、CT、MRI）时，常因缺乏领域深度知识而“水土不服”，难以生成可靠的临床洞察。行业亟需一个既精通多种影像模态，又具备深度医学推理能力的专用大模型，以破解诊断效率与报告质量的双重难题。在此背景下，阿里巴巴达摩院推出的“灵枢”模型，正试图成为这个关键的答案。

Lingshu是什么

Lingshu（灵枢）是阿里巴巴达摩院推出的专注于医学领域的多模态大型语言模型。模型支持超过12种医学成像模态，包括X光、CT扫描、MRI等，在多模态问答、文本问答及医学报告生成等任务上展现出卓越的性能。Lingshu基于多阶段训练，逐步嵌入医学专业知识，显著提升在医学领域的推理和问题解决能力。推出7B、32B两个参数版本，其中32B版本在多个医学多模态问答任务中超越GPT-4.1等专有模型。Lingshu项目推出MedEvalKit评估框架，整合主流的医学基准测试，推动医学AI模型的标准化评估和发展。

阅读目录

Lingshu是什么
Lingshu的主要功能
Lingshu的技术原理
Lingshu的项目地址
Lingshu的应用场景

📝 站长洞察 (Editor’s Insight)

Lingshu

Lingshu的主要功能

多模态医学问答：支持处理多种医学成像模态（如X光、CT、MRI等）的视觉问答任务。根据输入的医学图像和相关问题，生成准确的答案。
医学报告生成：Lingshu能生成高质量的医学报告，如放射学报告，根据输入的医学图像，生成详细的“发现”和“印象”部分，为临床医生提供有价值的参考。
医学知识问答：Lingshu能回答纯文本的医学问题，涵盖广泛的医学知识，为医学学生、临床医生和研究人员提供准确的信息。
医学推理与诊断支持：Lingshu具备强大的医学推理能力，根据输入的医学图像和文本信息，进行复杂的推理和诊断支持。
医学图像理解与标注：Lingshu能理解和标注医学图像中的关键特征，如病变位置、类型和严重程度，支持生成详细的图像描述，帮助医生更好地理解图像内容。

Lingshu的技术原理

数据整理：
- 数据收集：从多种来源收集医学成像数据、医学文本数据和通用领域数据。
- 数据清洗：基于图像过滤、去重和文本清理，确保数据的质量和相关性。
- 数据合成：生成高质量的医学标题、视觉问答（VQA）样本和推理轨迹，丰富训练数据。
模型架构：Lingshu基于Qwen2.5-VL模型架构，包含三个关键组件，大型语言模型（LLM）处理文本输入和生成文本输出，视觉编码器提取医学图像的视觉特征，投影器将视觉特征映射到语言模型的表示空间。
多阶段训练：
- 医学浅层对齐：用少量医学图像文本对进行微调，让模型准确编码医学图像生成相应的描述。
- 医学深层对齐：引入更大规模、更高质量和语义更丰富的医学图像文本对数据集，进一步整合医学知识。
- 医学指令调整：基于大规模的医学指令数据优化模型，提高执行特定任务指令的能力。
- 医学导向的强化学习：用强化学习与可验证奖励（RLVR）范式，增强模型的医学推理能力。
评估框架：推出MedEvalKit评估框架，整合多个多模态和文本医学基准测试，支持多种问题格式，包括多项选择题、封闭式问题、开放式问题和医学报告生成。框架提供标准化的数据预处理格式和后处理协议，及一致的模型部署和推理接口，支持快速集成和一键评估。

Lingshu的项目地址

项目官网：https://alibaba-damo-academy.github.io/lingshu/
HuggingFace模型库：https://huggingface.co/collections/lingshu-medical-mllm/lingshu-mllms-6847974ca5b5df750f017dad
arXiv技术论文：https://arxiv.org/pdf/2506.07044

Lingshu的应用场景

医学图像诊断：处理多种医学成像模态的视觉问答任务，分析图像中的异常并提供诊断建议，生成详细的图像描述和标注关键特征，辅助医生进行准确诊断。
医学报告生成：依据医学图像生成高质量的放射学报告和病理报告，涵盖“发现”与“印象”部分，为临床医生提供重要参考，提高报告编写效率与质量。
医学知识问答：提供准确的医学知识，帮助医学学生、专业人士以及临床医生获取所需信息，做出更明智的决策。
医学研究：在医学研究中，协助整理和分析医学图像与文本数据。
公共卫生：Lingshu能处理公共卫生数据，支持流行病学研究，计算归因风险等。

📝 站长洞察 (Editor’s Insight)

「灵枢」的发布，标志着医疗AI竞争进入了“专用模型深度攻坚”的新阶段。它超越了简单的“看图说话”，通过多阶段训练将医学知识层层嵌入模型骨髓，并创新性地引入强化学习（RLVR）来锻造其“医学思维”，这是从“工具”到“专家”的关键一跃。开源7B和32B版本，并配套标准化评估框架MedEvalKit，这不仅是技术展示，更是生态卡位——通过降低使用门槛与建立评测标准，阿里旨在引领行业范式，将自身塑造为医疗AI基础设施的核心提供者。其在多项任务上超越GPT-4.1，再次证明在垂直领域，经过精心“烹饪”的专用模型，其潜力远未见顶。这不仅是技术突破，更是对整个医疗AI研发、评测与落地体系的系统性重定义。

阿里达摩院「灵枢」大模型：12种医学影像秒级分析，性能碾压GPT-4.1，开源引爆医疗AI新浪潮

Lingshu是什么

Lingshu的主要功能

Lingshu的技术原理

Lingshu的项目地址

Lingshu的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

SynthID – DeepMind推出能嵌入数字水印和检测AI生成内容的工具

Whispo – AI语音转录工具，一键录音与转写

AutoGLM-Web – AI浏览器助手，模拟用户进行网页浏览与交互

OmniGen – 统一图像生成的扩散模型，支持多模态输入

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Lingshu是什么

Lingshu的主要功能

Lingshu的技术原理

Lingshu的项目地址

Lingshu的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复