谷歌发布MedGemma 27B、轻量级编码器MedSigLIP,附技术报告

编辑丨coisini

人工智能(AI)在医疗健康领域具有巨大应用潜力,但由于医疗数据多样、医疗任务复杂、隐私保护要求高,模型的训练与部署面临挑战。

基于这些问题,谷歌面向健康医疗研究及应用构建了 HAI-DEF—— 一个包含一系列轻量级开源模型的集合。今年 5 月,谷歌基于 Gemma 3 架构又开发了生成式模型 MedGemma,进一步扩展了 HAI-DEF。

现在,谷歌发布 MedGemma 技术报告,并推出两款新模型:多模态模型 MedGemma 27B、轻量级图文编码器 MedSigLIP。

技术报告:https://www.alphaxiv.org/abs/2507.05201

模型地址:https://deepmind.google/models/gemma/medgemma/

MedGemma:面向健康领域的多模态生成模型

MedGemma 系列包含 4B 和 27B 两种规模的模型变体,现均已支持图像与文本的多模态输入,并生成文本输出。

MedGemma 4B 在 MedQA 医学问答基准测试中取得 64.4% 的准确率,位列超小型开源模型(<80 亿参数)第一梯队。

在一项非盲实验中,美国执业放射科医师评估认为:MedGemma 4B 生成的胸部 X 光报告中,81% 在诊断准确性上达到与原始放射科报告相近的临床处理建议水平。

此外,MedGemma 4B 在医学影像分类任务中的表现可媲美顶尖专用模型。

MedGemma 27B 纯文本版在 MedQA 基准上取得了 87.7% 的准确率,与 DeepSeek R1 仅差 3 个百分点,而推理成本仅为其十分之一。

而 MedGemma 27B 多模态版,通过新增对复杂多模态数据及纵向电子健康记录(EHR)解析的支持,与 4B 多模态版和 27B 纯文本版形成功能互补。

MedGemma 基于 Gemma 3 架构,采用医学数据进行训练。在开发过程中,研究团队注重保留 Gemma 模型的通用能力,这使得 MedGemma 能够:

MedGemma 的一个关键特性是其出色的适应能力,开发者能直接提升目标应用的性能表现。这凸显了 MedGemma 作为医疗 AI 开发起点的价值。

MedSigLIP:专为医疗打造的图像编码器

MedSigLIP 是一个仅含 4 亿参数的轻量级图像编码器,采用基于 Sigmoid 损失的视觉语言预训练架构(SigLIP)。

研究团队通过对胸部 X 光片、组织病理切片、皮肤病图像及眼底影像等多样化医学影像数据进行调优,使 MedSigLIP 能捕捉不同模态特有的细微特征。

MedSigLIP 特别适用于:

MedSigLIP 作为一个组件,为 MedGemma 提供了视觉理解能力,其编码性能媲美或超越专业医学图像编码器。

总的来说,谷歌 MedGemma 系列为医学图文处理提供了基础平台,有望显著加速医学研究及下游应用开发。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

参考内容:https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/

展开阅读全文

更新时间:2025-07-11

标签:科技   编码器   报告   技术   模型   图像   医学   医疗   数据   医学影像   文本   放射科

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top