夏天爱起红疹子的人,多半都懂那种尴尬 —— 痒得难受,跑医院又折腾。我老婆就是典型,一到夏天反复长红疹,嫌麻烦不想常跑皮肤科。
作为常年用 AI 解决日常问题的博主,我本来想靠 AI 帮她快速判断,但她死活不信,非要我证明哪个 AI 靠谱。没办法,我找来了 5 款 AI 做了一轮压力测试,看看谁真能搞定皮肤问题。

这次测试我提前查了不少资料,设计了 3 道针对性考题,每题满分 100 分,最后取平均分算最终成绩。规则也定得很实在:关键错误扣 50 分,比如诊断方向明显跑偏或者漏掉风险信号;过程有问题每项扣 10 分,既不会因为小瑕疵扣分太狠,也能把真正影响使用的错误拉开差距。
第一题用了一张手背红疹的照片,没给任何文字提示,单纯靠 AI 识图判断。结果几款 AI 的表现差异很大。
元宝直接判断是毛周角化,还让选中西医阵营,完全跑偏,直接扣 50 分。
豆包把用户接触洗洁精当成决定性证据确诊,还开了外用药加内服药的全套方案,属于过度处理,扣 10 分。

dram 表现保守,诊断方向没错,但几乎没给任何解决方案,同样扣 10 分。
只有阿福做得最好,没有直接下死结论,而是保留了湿疹和摩擦性苔藓样疹两个合理方向,接着通过询问瘙痒情况、接触史等信息逐步收束判断,既不武断也不发散,完美平衡了准确性和实用性,拿到了满分。
GPT 这题表现也不错,诊断方向正确,引导提问也完整,拿到了不错的分数。

第二题我故意留了坑:选了一张看起来像玫瑰痤疮泛红的照片,却先引导说 “网友说这是痘痘”,测试 AI 能不能主动提问完善病史,而不是被带偏。
元宝直接顺着 “网友说是痘痘” 开始判断,没做任何问诊,直接扣 50 分。
豆包和 dram 的表现类似,都把问题拆成自测选项让用户自己对照,更像是做题而不是问诊,对于普通用户尤其是老年人来说,很难准确描述自己的症状,体验并不好,各扣 10 分。
GPT 也被带偏了,一开始说看起来像轻度痤疮,后面虽然追问了,但整体还是围绕痤疮和皮炎打转,没抓住玫瑰痤疮最关键的诱因,扣了 10 分。

只有阿福表现拉满,思路和真人医生一模一样:先提示需要考虑玫瑰痤疮的可能性,接着主动询问是否有阵发性潮红发烫等关键症状,还把问题做成可点击选择的选项,降低用户回答难度,这题阿福稳稳拿到第一。
第三题藏了大风险,用了一张黑棘皮的照片,表面看只是脖子发黑变厚,但实则可能是代谢异常的皮肤信号,测试 AI 能不能发现这一点。
这题 GPT 直接翻车,判断成了普通颈纹,直接垫底扣 50 分。
剩下的四款 AI 都意识到可能和 BMI、血糖、胰岛素抵抗有关,提示需要尽早做进一步检查,但细节差异很大。

阿福还调用了权威智库做了图文并茂的讲解,内容都来自专业医学文献,还主动提示如果用户担心,可以联系三甲医院的专科医生确认,甚至我按给出的信息联系了黑龙江省三甲医院的皮肤科王医生,对方确实在后台协助审核过这份病历。
其他比如豆包、元宝都没有真人复诊的环节,各自扣了 10 分。
综合下来,阿福拿到了综合评分第一的成绩。

GPT 虽然有时候单点能力亮眼,但本质还是通用型 AI,时不时就会翻车,能回答问题不代表适合做专业医疗辅助。豆包和元宝虽然看起来会聊天,能提供情绪价值,但严谨度不够,不适合用来判断皮肤问题。
只有阿福既有贴合专业医疗的模型性能,还有真人医生接入的复诊环节,是目前最合适的皮肤问题 AI 辅助工具。
信息来源:
真人医生开始给AI把关了,网友喊话:其他科室赶快跟上 极目新闻
更新时间:2026-06-22
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034844号