从对话到工作，吴恩达重构图灵测试，AGI标准迎终极答案？

欢迎观看本期【巷语记】，在阅读此文之前，麻烦您点击一下“关注”，既方便您进行讨论和分享，又能给您带来不一样的参与感，感谢您的支持。

文 |无言

2026年的AI圈现在有点热闹得过了头，AGI这词儿快被各家公司说烂了。

今天这家宣布"AGI近在咫尺"，明天那家号称"已突破通用智能"，但真要问他们AGI到底是个啥，多数时候都含糊其辞。

更要命的是，现在评估AI能力的那些测试，越来越像应试教育的考场去年Llama4刚闹出刷榜丑闻，说是在代码测试里拿了高分，结果实际部署时连个简单的系统漏洞都查不出来。

就在这时候，吴恩达突然扔出个重磅消息，他要搞个"图灵-AGI测试"，说是要给现在虚火旺盛的AGI赛道降降温。

传统测试为啥失灵了？

现在AI圈对AGI的定义简直乱成一锅粥。

硅谷那些公司把AGI当成季度KPI来喊，今天说"三年内实现"，明天又改成"已完成50%"，但问他们具体衡量标准，要么拿不出，要么就是自家定的"内部标准"。

斯坦福HAI研究院去年出过份报告，说全球差不多三分之一的AI企业，把"AGI"当营销话术用，实际技术水平离真正的通用智能还差着十万八千里。

老祖宗艾伦·图灵1950年搞的那个测试也有点跟不上趟了。

那个测试就看AI能不能模仿人类对话，但会聊天不代表能干活啊。

2024年OpenAI用GPT-4通过了简化版的图灵测试，可真让它搞医疗诊断，误诊率比实习医生还高，让它写段复杂代码，跑起来全是bug。

这就好比拿英语六级成绩去招聘程序员，方向从根上就偏了。

更头疼的是那些所谓的"基准测试"，现在成了刷榜重灾区。

就说GPQA、AIME这些测试吧，数据集都是公开的，AI团队只要针对这些题猛练，成绩肯定好看。

MIT技术评论去年做过调查，78%的AI模型在测试集上的表现，比真实场景里高出三成还多。

这跟学生熬夜背题库应付考试有啥区别？考分再高，真到工作岗位上还是抓瞎。

新测试到底想解决啥问题？

既然老办法不行，那吴恩达这次提出的新测试又是咋回事呢？简单说，就是让AI去"上班"。

测试的时候会给AI配个工作环境，有互联网，有浏览器，还能开Zoom会议，然后让它完成人类裁判设计的真实任务可能是给新员工做客服培训。

也可能是跟进一个完整的项目管理流程，一搞就是好几天，最后看它能不能达到人类员工的熟练程度，这才是判断标准。

本来想这测试可能跟以前一样搞些选择题，后来发现完全不是。

跟传统测试比，它有三个明显的突破，任务没范围，今天让你写报告，明天可能让你做PPT，环境跟真上班一样。

还得跟人协作，评估维度也多，不光看结果，还得看效率、错误率，甚至有没有创新想法。

吴恩达在自己博客里说得挺实在，"AGI的价值最终得看它能不能创造经济效用，总不能老停留在聊天吹牛的阶段。"

这测试的真正目的，怕是想给行业降降温。

就算现在没有AI能通过，至少能让那些天天喊"AGI来了"的公司消停点，把精力放在真正有用的技术上。

有AI伦理学者就说，这玩意儿可能会成为AGI领域的"退烧药"，让大家从概念炒作回到实际应用。

说起来，这测试也不是没争议。

有专家担心，人类裁判的主观判断可能影响结果，毕竟每个人对"熟练程度"的理解不一样。

有人建议得搞个多维度评分表，效率占多少，错误率占多少，创新能力占多少，还得找不同机构的人来监督，这样才公平。

吴恩达这步棋走得挺有意思，短期看，能让那些靠AGI概念骗融资的项目现原形。

Gartner预测说，如果这测试真能推广开，AI行业里"AGI概念融资"占比能从现在的45%掉到20%，反倒是那些解决具体问题的实用型项目能多拿30%的投资。

长期来看，要是真有AI能通过这测试，那才是实打实的技术突破，比现在空喊口号有意义多了。

想想吴恩达以前干的事，从Coursera上的AI课程到推动深度学习普及，他好像总喜欢在行业跑偏的时候拉一把。

这次的图灵-AGI测试，说不定真能成为AGI发展的指南针，让技术往真正有用的方向走。

当然，这事儿还得行业、学术界和监管机构一起使劲，把测试规则打磨得更科学。

毕竟技术发展快不是坏事，但得走得稳，走得对，才能真的帮到人。

支持作者，写作不易！如果您喜欢我的文章，可以点个“关注”，成为铁粉后能第一时间收到文章推送。

展开阅读全文

更新时间：2026-01-16

标签：科技答案测试标准工作错误率人类行业去年概念明天斯坦福多维

1 2 3 4 5

百余名外国留学生走进铅山实地探访跨境电商产业发展

1月13日，来自上饶师范学院的百余名外国留学生走进铅山县，开展了一场深度跨境电商产业考察。亲身感受“铅山制造”如何借力数字贸易走向全球。在启动服饰与美创服饰的生产车间，

75亿重大项目严重偷工减料！极端工况下可发生1000m³塌方！

此前有媒体反映福建永安抽水蓄能电站项目存在水库大坝施工偷工减料等问题记者发现用于加固坝肩边坡岩土体的数百根锚筋桩存在严重质量缺陷：实际施工长度大幅缩水，部分桩长

realme真我Neo8性能配置公布

IT之家 1 月 15 日消息，realme 今日继续预热真我 Neo8 手机，带来了“Neo 史上最豪华性能配置”，新机将于 1 月 22 日 19:00 发布。IT之家整理如下：第五代骁龙 8 x 极客性能面板：3

中国稀土地位不保？撬走中方人才，攻克提炼技术，但西方笑得太早

在阅读此文之前，辛苦您点击一下“关注”，既方便您进行讨论和分享，又能给您带来不一样的参与感，感谢您的支持！编辑：W 澳大利亚莱纳斯公司以为自己找到了一条捷径，他们绕过了几十年的

OPPO A6c手机开售：骁龙685 + 6G + 128G售799元

IT之家 1 月 15 日消息，OPPO A6c 手机现已在京东开售，该机搭载骁龙 685 处理器，拥有 6GB RAM 和 128GB 存储空间，首发价 799 元。该机可选幽紫兰与橄榄绿两款颜色，厚度 8.61mm，重

iQOO 15 Ultra手机入网

1 月 15 日消息，维沃移动通信有限公司旗下一款新机目前已正式入网，博主 @数码闲聊站发文，透露该机实为 iQOO 15 Ultra。该博主同时透露，该机搭载一块 6.85 英寸 2K 三星大直屏，

大年初一看荔枝春晚！AI科技加持，千问APP携众星贺岁

备受期待的年度荧屏盛宴正式定档。2月17日（农历大年初一）晚19:30，《幸福合家欢·2026江苏卫视ai荔枝春节联欢晚会》将在江苏卫视与ai荔枝平台同步直播。本次晚会由国内领先的智

损失大了：印度火箭太空翻滚，把16颗卫星送入印度洋，咋做到的？

文编|凌洋印度航天控制中心的大屏幕上，代表火箭飞行轨迹的曲线突然开始不规则地扭动，原本有条不紊的倒计时播报声戛然而止，取而代之的是一片沉重的寂静。1月12日上午10时18分，印

1月15日A股猛料：昨夜三大重磅利好集中落地！跨年大主线来了！

　　聚焦A股市场每日重磅消息！在阅读正文前，你必须知道一点：没有几个主力资金会笨到在利好一出炉就将股价直线拉升到涨停，所以请股民朋友们耐心一点，让利好飞一会，也许你会发现不

终于等到你！巨亏16亿的“老大难”，一夜变身机器人核心龙头？

南京化纤的3.6万名股东，这几天可能反复点开账户确认——自己手里拿着的，还是那支被套了多年、几乎不抱希望的“烂票”吗？就在不久前，上交所一纸批文，给这家连续七年扣非净利润亏

【财经早餐】2026.01.15星期四

► 发改委等三部门：坚决抵制无序“价格战”，推动构建优质优价、公平竞争的市场秩序。将加强成本调查和价格监测，加大监管和执法力度，强化产品生产一致性监督检查，对违规企业依法

成交量近4万亿！A股冲高回落，这类ETF却涨超6%

A股成交额逼近4万亿元，历史新高背景下，软件ETF却逆势上涨超6%。资金正在市场的新变化中寻找机会。今天A股市场再次刷新纪录，成交额接近4万亿元大关，达到3.99万亿元。这个数字意

0114基金实盘日记。

【持仓金额】13W。【持仓数量】9支。【当日盈亏】+700.31【本年收益】+5096.87收益率4.08%战胜66.49%基民。【基本数据】沪指4126.09,-12.67,-0.31%。三市成交额3.99万亿，较

凌晨早评：1月15日期货分析

周三期指进入宽幅洗盘，日内观察反弹修复表现。工业品：有色板块以锡镍运行最为强势；贵金属，黄金延续震荡反弹，白银延续高波动上涨走势；黑色板块，螺纹、热卷进入反复震荡走势，铁矿观察

封关后的海南，卖爆了！

20余天近40亿元！封关后平均每天有2.4万人在海南免税购物海关总署1月14日发布数据显示，海南自贸港自2025年12月18日封关以来，截至2026年1月10日，海关监管离岛免税购物人数58.5万

上滑加载更多 ↓

从对话到工作，吴恩达重构图灵测试，AGI标准迎终极答案？

传统测试为啥失灵了？

新测试到底想解决啥问题？

百余名外国留学生走进铅山实地探访跨境电商产业发展

75亿重大项目严重偷工减料！极端工况下可发生1000m³塌方！

realme真我Neo8性能配置公布

中国稀土地位不保？撬走中方人才，攻克提炼技术，但西方笑得太早

OPPO A6c手机开售：骁龙685 + 6G + 128G售799元

iQOO 15 Ultra手机入网

大年初一看荔枝春晚！AI科技加持，千问APP携众星贺岁

损失大了：印度火箭太空翻滚，把16颗卫星送入印度洋，咋做到的？

1月15日A股猛料：昨夜三大重磅利好集中落地！跨年大主线来了！

终于等到你！巨亏16亿的“老大难”，一夜变身机器人核心龙头？

【财经早餐】2026.01.15星期四

成交量近4万亿！A股冲高回落，这类ETF却涨超6%

0114基金实盘日记。

凌晨早评：1月15日期货分析

封关后的海南，卖爆了！

大年初一看荔枝春晚！AI科技加持，千问APP携众星贺岁

A股热度不减，我在港股科技等机会

智迪科技：聚焦计算机外设领域，稳步推进产品品类横向延伸

Apple 发布 macOS Tahoe 26.3 第二个公开测试版

工作室：成毅收到人身威胁邮件

田栩宁出席线下活动，脸又肿又僵痘印明显，工作时嚼口香糖

明天上午8点，七坊集市首开！这场赶集盛会邀您来赴约~

魅族发布AI小方块取消22Air手机暴露行业困境

摊牌了！李连杰回应“变年轻”的真相，答案早已不言而喻

Valve确认：Steam Machine验证标准将比Steam Deck更宽松