Sonnet 4.6 vs Opus 4.6

模型发布速度如此之快，以至于很难区分什么是真正的进步与仅仅是增量收益。

随着 Sonnet 4.6 的发布，我决定进行一些正面测试，将其与 Opus 4.6 进行比较。

AI 实验室发布的基准测试正变得越来越不可靠，所以我运行了一些简单的测试提示，在 Converge 中。

1、测试

我的第一个提示是构建塔防游戏。这主要是迫使模型同时处理状态、UI、渲染和游戏逻辑的前端类型任务。

这是我使用的提示：

构建一个完整的塔防游戏，具有固定路径，敌人在波次中生成，每次击杀赚钱，敌人在到达终点时失去生命。包括至少 3 种塔类型（不同范围/伤害/攻击速度）和升级，以及简单的 UI 来放置/销售/升级塔并开始下一波；保持代码整洁和模块化，并交付一个可玩的、平衡的 MVP。包括基本打磨：暂停/重新开始 + 屏幕统计（波/生命/金钱）。

2、评分标准

我将提示分解为检查清单，使其不仅仅是"氛围"：

立即运行（没有缺失部分，一次性完成）
固定路径 + 敌人在波次中生成
每次击杀金钱 + 泄漏生命减少
3 种塔类型（范围/伤害/速度）
升级工作
UI：放置/销售/升级塔
开始下一波控制
基本打磨：暂停/重新开始 + 屏幕统计（波/生命/金钱）
感觉像可交付的 MVP（而不是损坏的演示）

3、结果

Opus 4.6

总体而言，Opus 4.6 做得相当不错。

Opus 的塔防 UI

突出的地方：

坚实的基线 UI（不华丽，但功能正常）
核心循环工作：波、塔、击杀 → 金钱
升级 + 基本 UX 触点都在那里（甚至还有一些热键）

评分卡

立即运行（没有缺失部分，一次性完成） — ✅
固定路径 + 敌人在波次中生成 — ✅
每次击杀金钱 + 泄漏生命减少 — ✅
3 种塔类型（范围/伤害/速度） — ✅
升级工作 — ✅
UI：放置/销售/升级塔 — ✅
开始下一波控制 — ✅
基本打磨：暂停/重新开始 + 屏幕统计（波/生命/金钱） — ✅
感觉像可交付的 MVP — ✅

评分：9/9

Sonnet 4.5

我决定也测试 Sonnet 4.5 作为额外的基线，以更好地展示 Sonnet 家族从 4.5->4.6 的进步。我对生成质量的糟糕程度感到震惊。Sonnet 4.5 显然落后了。

我看到的：

UI 太基本了
动画和整体"打磨"滞后
塔和敌人即使在你可以看到敌人计数在减少时也不总是显示在 UI 上

评分卡

立即运行（没有缺失部分，一次性完成） — ❌
固定路径 + 敌人在波次中生成 — ✅
每次击杀金钱 + 泄漏生命减少 — ✅
3 种塔类型（范围/伤害/速度） — ✅
升级工作 — ✅
UI：放置/销售/升级塔 — ❌
开始下一波控制 — ✅
基本打磨：暂停/重新开始 + 屏幕统计（波/生命/金钱） — ✅
感觉像可交付的 MVP — ✅

评分：6/9

Sonnet 4.6

Sonnet 4.6 是事情变得有趣的地方！我最喜欢的生成，但不是大幅度领先。

UI 感觉更好，更接近典型的游戏
游戏玩法和运动感觉更流畅、更连贯
总体上它干净地达到了检查清单

在表现更好的同时，Sonnet 的价格也比 Opus 便宜近 50%。

评分卡

立即运行（没有缺失部分，一次性完成） — ✅
固定路径 + 敌人在波次中生成 — ✅
每次击杀金钱 + 泄漏生命减少 — ✅
3 种塔类型（范围/伤害/速度） — ✅
升级工作 — ✅
UI：放置/销售/升级塔 — ✅
开始下一波控制 — ✅
基本打磨：暂停/重新开始 + 屏幕统计（波/生命/金钱） — ✅
感觉像可交付的 MVP — ✅

评分：9/9

4、附加测试：构建 ChatGPT 克隆

由于 Sonnet 4.6 相当容易地处理了塔防游戏，我想通过让它重现 ChatGPT 来进一步推动它。同样，这是在 Converge 中完成的。

这里的提示：

创建一个功能齐全的 AI 聊天应用程序，复制 ChatGPT，具有高级功能，包括：

核心功能：

具有上下文感知和多轮对话的自然语言交流

支持带有丰富格式（粗体、斜体、代码块）的文本输入和输出

实时输入指示器和消息传递状态

用户身份验证和个人资料管理

带有搜索和导出选项的对话历史

可定制的用户设置（主题、字体大小、通知偏好）

高级功能：

处理多媒体输入（图像、音频）并生成描述性回复

允许用户引用过去对话的上下文记忆

基于用户交互自适应学习的个性化响应

用户界面设计：

干净、现代和极简主义布局，使用令人愉悦的调色板（例如，深海军蓝 #1A1F36、柔和蓝绿色 #4FB6AC、浅灰色 #F5F7FA 和白色）

具有清晰层次结构和充足留白的可读无衬线排版

为桌面、平板和移动设备优化的响应式设计

为消息转换和交互元素的流畅动画

具有键盘导航、屏幕阅读器支持和足够对比度的无障碍设计

交互和反馈：

为用户操作（发送、接收、错误）提供清晰的视觉反馈

为增强通信流程的输入指示器和已读回执

用于更快交互的快速回复建议和自动完成

确保应用程序提供直观、可靠且吸引人的对话 AI 体验，可在设备之间扩展并适应多样化的用户需求。

第一代中有很多东西起作用，缺少一些功能部分。

一件非常令人印象深刻的事情是它完美地处理了跨线程搜索。下面你会看到我提到我是湖人队的粉丝。

然后我开始了一个新的聊天，问它我喜欢哪个队，它记住了！在幕后，这一切都由 Converge 中的代理组件提供支持

将提示转换为检查清单：

多轮内存（每线程 + 跨线程上下文） — ✅
身份验证 + 用户账户（OAuth / SSO 就绪） — ✅
持久对话历史（搜索 + 导出） — ✅
流式响应与交付状态 — ✅
跨线程搜索 — ❌
富文本 + 代码渲染 — ❌（有点）
多模态输入（图像 + 音频上传） — ✅
图像理解 — ✅
个性化层（自适应记忆）* 文件上传处理 — ✅
响应式、无障碍 UI（桌面 → 移动） — ✅
用户设置（主题、通知、偏好） — ❌

5、结束语

Sonnet 4.6 是一个很棒的模型。我整周都在测试它，它和 Opus 4.6 一样好，甚至可能更好，同时也更便宜。

AI 世界的变化速度是无情的！

原文链接：Sonnet 4.6 vs Opus 4.6 - 汇智网

展开阅读全文

更新时间：2026-02-25

标签：游戏金钱生命用户敌人测试评分屏幕提示速度类型

KPL年后首战：“西安WE再次零封济南RW，挑杯亚军菜到令人陌生”

今年是春节后的第一个工作日，也是26春季赛节后的第一个比赛日，虽然很多观众都还沉浸在春节的喜庆中，但对部分KPL战队的选手而言，“残酷”的积分争夺战已经开始了。今日首战，西安W

作为机制之“奇”：《中国奇谭2》为何难以复刻第一季的辉煌

作者：赵倪聪“续作不奇了？”——这或许是《中国奇谭2》开播以来，观众们最大的疑问。与第一季引发的高强度讨论相比，第二季的开局数据确实不尽如人意：豆瓣评分从8.7变为8.0，B站评分

这种运动完全不累，还能哐哐减内脏脂肪！

来源：科普中国

吃遍年味不长膘的秘诀丨健康过大年

来源：【大河健康报】不用刻意节食、不用费力运动，靠几个吃饭时顺手就能做的小习惯，就能避免春节体重过度上涨的问题。这6个技巧，是医生和研究者亲测管用的“瘦子习惯”，看完直接

为啥老人身上总有一股味？50岁后远离4个习惯，或许能改善

在夏日闷热的公交车上，宋阿姨下班回家，悄然注意到身旁的年轻女孩微微侧过脸，不自觉捏了捏鼻子。宋阿姨有些不好意思地低头，回想起女儿几天前的吐槽：“妈，你怎么身上总有点怪味？”过

过年，千万别这样喝酒！

春节是阖家团圆的时刻，亲友相聚，免不了饮酒畅谈、熬夜守岁。你以为酒精只是伤胃？错。医生警告：酒精的伤害，远比你想的更可怕。肝脏、心脏、大脑、血管……一杯酒下去，全身都在替你

追剧党护眼指南来了

追剧护眼革命：在光影世界中守护视觉健康当《繁花》的收视率突破2.5%时，全国有超过3000万人正沉浸在连续数小时的观剧时光中。然而，复旦大学附属眼耳鼻喉科医院的数据显示，疫情期

63岁男子心梗猝死，每天坚持喝茶，医生叹息实话：6个坏毛病要命

在一个寒冷的冬日清晨，63岁的李先生突然心脏骤停，虽经过紧急抢救，但最终未能挽回生命。让人更加惊讶的是，李先生平时非常注重保养，几乎每天都喝茶，认为这对健康特别有益。可是医生

浙大研究：每天多吃一个蛋，心脏病和癌症死亡风险会增加？靠谱吗

“你少吃点鸡蛋吧，我在群里看到，说浙大研究发现：每天多吃一个蛋，心脏病和癌症死亡风险都会升高！”晚饭后，65岁的王大爷正在厨房剥鸡蛋，准备再来一个“加餐”。一旁的老伴却把手机往

破五饺子怎么吃？这6个“饺子配方”，胃不好、血糖高的人都能安心吃

饺子，可以说是春节餐桌上必不可少的“灵魂”，但对不少人而言，也是一道“难题”。饺子端上来，筷子悬半空——怕升糖、怕胀气、怕长肉、怕嘌呤高……今年春节前夕，国家中医药管理局

晨起第一杯水，不少人没喝对！先刷牙还是先喝水？看看医生怎么说

清早六点多，老周一骨碌从床上爬起来，迷迷糊糊抓起床头那杯凉白开，“咕咚咕咚”一大杯下肚，才慢悠悠去刷牙。这套流程，他坚持了十几年，自我感觉很“养生”：空腹喝水能排毒、通便、保

一定要多做复利的事情

我们总是渴望一夜暴富，期待那个改变命运的“风口”突然降临。但现实往往是，那些靠运气赚来的钱，最后都会凭实力亏光。真正能让你跨越阶层、实现人生跃迁的，从来不是投机取巧，而是

医生研究发现：常晒太阳的脑梗患者，用不了多久，身体或有6改变

脑梗患者的生活需要特别注意，近期有研究发现，常晒太阳的脑梗患者身体会出现一些规律性的变化，这些变化不仅影响日常生活，也与康复速度和长期健康密切相关。总的来说，阳光的作用不

假期聚会一口闷二两半白酒，30岁小伙呕血晕厥，医生提醒：预防胃出血尽量别喝酒！

极目新闻记者郑晶晶通讯员崔毅周绮书杨玉玲春节假期，30岁的市民赵先生（化姓）因同学聚会时被劝酒，一口喝下二两半白酒后突发呕血、晕厥，被紧急送医后，确诊为急性胃黏膜损伤引发

肠道菌群：健康的“隐形室友”，失衡了怎么救？

#2月·每日幸运签##上头条聊热点##冬日生活打卡季##分享我的头条荣誉#你的肠道里住着一群“隐形室友”——肠道菌群，它们可不是无关紧要的过客，而是掌管健康的 “隐形主宰”

上滑加载更多 ↓

友情链接：

更多：

本站资料均由网友自行发布提供，仅用于学习交流。如有版权问题，请与我联系，QQ：4156828

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
 闽公网安备35020302034844号

Top