
模型发布速度如此之快,以至于很难区分什么是真正的进步与仅仅是增量收益。
随着 Sonnet 4.6 的发布,我决定进行一些正面测试,将其与 Opus 4.6 进行比较。
AI 实验室发布的基准测试正变得越来越不可靠,所以我运行了一些简单的测试提示,在 Converge 中。
我的第一个提示是构建塔防游戏。这主要是迫使模型同时处理状态、UI、渲染和游戏逻辑的前端类型任务。
这是我使用的提示:
构建一个完整的塔防游戏,具有固定路径,敌人在波次中生成,每次击杀赚钱,敌人在到达终点时失去生命。包括至少 3 种塔类型(不同范围/伤害/攻击速度)和升级,以及简单的 UI 来放置/销售/升级塔并开始下一波;保持代码整洁和模块化,并交付一个可玩的、平衡的 MVP。包括基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱)。
我将提示分解为检查清单,使其不仅仅是"氛围":
总体而言,Opus 4.6 做得相当不错。

Opus 的塔防 UI
突出的地方:
评分:9/9
我决定也测试 Sonnet 4.5 作为额外的基线,以更好地展示 Sonnet 家族从 4.5->4.6 的进步。我对生成质量的糟糕程度感到震惊。Sonnet 4.5 显然落后了。

我看到的:
评分:6/9
Sonnet 4.6 是事情变得有趣的地方!我最喜欢的生成,但不是大幅度领先。

在表现更好的同时,Sonnet 的价格也比 Opus 便宜近 50%。
评分:9/9
由于 Sonnet 4.6 相当容易地处理了塔防游戏,我想通过让它重现 ChatGPT 来进一步推动它。同样,这是在 Converge 中完成的。
这里的提示:
创建一个功能齐全的 AI 聊天应用程序,复制 ChatGPT,具有高级功能,包括:
核心功能:
具有上下文感知和多轮对话的自然语言交流
支持带有丰富格式(粗体、斜体、代码块)的文本输入和输出
实时输入指示器和消息传递状态
用户身份验证和个人资料管理
带有搜索和导出选项的对话历史
可定制的用户设置(主题、字体大小、通知偏好)
高级功能:
处理多媒体输入(图像、音频)并生成描述性回复
允许用户引用过去对话的上下文记忆
基于用户交互自适应学习的个性化响应
用户界面设计:
干净、现代和极简主义布局,使用令人愉悦的调色板(例如,深海军蓝 #1A1F36、柔和蓝绿色 #4FB6AC、浅灰色 #F5F7FA 和白色)
具有清晰层次结构和充足留白的可读无衬线排版
为桌面、平板和移动设备优化的响应式设计
为消息转换和交互元素的流畅动画
具有键盘导航、屏幕阅读器支持和足够对比度的无障碍设计
交互和反馈:
为用户操作(发送、接收、错误)提供清晰的视觉反馈
为增强通信流程的输入指示器和已读回执
用于更快交互的快速回复建议和自动完成
确保应用程序提供直观、可靠且吸引人的对话 AI 体验,可在设备之间扩展并适应多样化的用户需求。
第一代中有很多东西起作用,缺少一些功能部分。

一件非常令人印象深刻的事情是它完美地处理了跨线程搜索。下面你会看到我提到我是湖人队的粉丝。

然后我开始了一个新的聊天,问它我喜欢哪个队,它记住了!在幕后,这一切都由 Converge 中的代理组件 提供支持

将提示转换为检查清单:
Sonnet 4.6 是一个很棒的模型。我整周都在测试它,它和 Opus 4.6 一样好,甚至可能更好,同时也更便宜。
AI 世界的变化速度是无情的!
原文链接:Sonnet 4.6 vs Opus 4.6 - 汇智网
更新时间:2026-02-25
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号