欢迎观看本期【巷语记】,在阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持。
文 |无言

2026年的AI圈现在有点热闹得过了头,AGI这词儿快被各家公司说烂了。
今天这家宣布"AGI近在咫尺",明天那家号称"已突破通用智能",但真要问他们AGI到底是个啥,多数时候都含糊其辞。

更要命的是,现在评估AI能力的那些测试,越来越像应试教育的考场去年Llama4刚闹出刷榜丑闻,说是在代码测试里拿了高分,结果实际部署时连个简单的系统漏洞都查不出来。
就在这时候,吴恩达突然扔出个重磅消息,他要搞个"图灵-AGI测试",说是要给现在虚火旺盛的AGI赛道降降温。

现在AI圈对AGI的定义简直乱成一锅粥。
硅谷那些公司把AGI当成季度KPI来喊,今天说"三年内实现",明天又改成"已完成50%",但问他们具体衡量标准,要么拿不出,要么就是自家定的"内部标准"。

斯坦福HAI研究院去年出过份报告,说全球差不多三分之一的AI企业,把"AGI"当营销话术用,实际技术水平离真正的通用智能还差着十万八千里。
老祖宗艾伦·图灵1950年搞的那个测试也有点跟不上趟了。
那个测试就看AI能不能模仿人类对话,但会聊天不代表能干活啊。

2024年OpenAI用GPT-4通过了简化版的图灵测试,可真让它搞医疗诊断,误诊率比实习医生还高,让它写段复杂代码,跑起来全是bug。
这就好比拿英语六级成绩去招聘程序员,方向从根上就偏了。
更头疼的是那些所谓的"基准测试",现在成了刷榜重灾区。

就说GPQA、AIME这些测试吧,数据集都是公开的,AI团队只要针对这些题猛练,成绩肯定好看。
MIT技术评论去年做过调查,78%的AI模型在测试集上的表现,比真实场景里高出三成还多。
这跟学生熬夜背题库应付考试有啥区别?考分再高,真到工作岗位上还是抓瞎。

既然老办法不行,那吴恩达这次提出的新测试又是咋回事呢?简单说,就是让AI去"上班"。
测试的时候会给AI配个工作环境,有互联网,有浏览器,还能开Zoom会议,然后让它完成人类裁判设计的真实任务可能是给新员工做客服培训。

也可能是跟进一个完整的项目管理流程,一搞就是好几天,最后看它能不能达到人类员工的熟练程度,这才是判断标准。
本来想这测试可能跟以前一样搞些选择题,后来发现完全不是。
跟传统测试比,它有三个明显的突破,任务没范围,今天让你写报告,明天可能让你做PPT,环境跟真上班一样。

还得跟人协作,评估维度也多,不光看结果,还得看效率、错误率,甚至有没有创新想法。
吴恩达在自己博客里说得挺实在,"AGI的价值最终得看它能不能创造经济效用,总不能老停留在聊天吹牛的阶段。"
这测试的真正目的,怕是想给行业降降温。

就算现在没有AI能通过,至少能让那些天天喊"AGI来了"的公司消停点,把精力放在真正有用的技术上。
有AI伦理学者就说,这玩意儿可能会成为AGI领域的"退烧药",让大家从概念炒作回到实际应用。
说起来,这测试也不是没争议。

有专家担心,人类裁判的主观判断可能影响结果,毕竟每个人对"熟练程度"的理解不一样。
有人建议得搞个多维度评分表,效率占多少,错误率占多少,创新能力占多少,还得找不同机构的人来监督,这样才公平。
吴恩达这步棋走得挺有意思,短期看,能让那些靠AGI概念骗融资的项目现原形。

Gartner预测说,如果这测试真能推广开,AI行业里"AGI概念融资"占比能从现在的45%掉到20%,反倒是那些解决具体问题的实用型项目能多拿30%的投资。
长期来看,要是真有AI能通过这测试,那才是实打实的技术突破,比现在空喊口号有意义多了。
想想吴恩达以前干的事,从Coursera上的AI课程到推动深度学习普及,他好像总喜欢在行业跑偏的时候拉一把。

这次的图灵-AGI测试,说不定真能成为AGI发展的指南针,让技术往真正有用的方向走。
当然,这事儿还得行业、学术界和监管机构一起使劲,把测试规则打磨得更科学。
毕竟技术发展快不是坏事,但得走得稳,走得对,才能真的帮到人。

支持作者,写作不易!如果您喜欢我的文章,可以点个“关注”,成为铁粉后能第一时间收到文章推送。
更新时间:2026-01-16
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034844号