Sonnet 4.6 vs Opus 4.6



模型发布速度如此之快,以至于很难区分什么是真正的进步与仅仅是增量收益。

随着 Sonnet 4.6 的发布,我决定进行一些正面测试,将其与 Opus 4.6 进行比较。

AI 实验室发布的基准测试正变得越来越不可靠,所以我运行了一些简单的测试提示,在 Converge 中。

1、测试

我的第一个提示是构建塔防游戏。这主要是迫使模型同时处理状态、UI、渲染和游戏逻辑的前端类型任务。

这是我使用的提示:

构建一个完整的塔防游戏,具有固定路径,敌人在波次中生成,每次击杀赚钱,敌人在到达终点时失去生命。包括至少 3 种塔类型(不同范围/伤害/攻击速度)和升级,以及简单的 UI 来放置/销售/升级塔并开始下一波;保持代码整洁和模块化,并交付一个可玩的、平衡的 MVP。包括基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱)。

2、评分标准

我将提示分解为检查清单,使其不仅仅是"氛围":

3、结果

Opus 4.6

总体而言,Opus 4.6 做得相当不错。

Opus 的塔防 UI

突出的地方:

评分卡

评分:9/9

Sonnet 4.5

我决定也测试 Sonnet 4.5 作为额外的基线,以更好地展示 Sonnet 家族从 4.5->4.6 的进步。我对生成质量的糟糕程度感到震惊。Sonnet 4.5 显然落后了。

我看到的:

评分卡

评分:6/9

Sonnet 4.6

Sonnet 4.6 是事情变得有趣的地方!我最喜欢的生成,但不是大幅度领先。

在表现更好的同时,Sonnet 的价格也比 Opus 便宜近 50%。

评分卡

评分:9/9

4、附加测试:构建 ChatGPT 克隆

由于 Sonnet 4.6 相当容易地处理了塔防游戏,我想通过让它重现 ChatGPT 来进一步推动它。同样,这是在 Converge 中完成的。

这里的提示:

创建一个功能齐全的 AI 聊天应用程序,复制 ChatGPT,具有高级功能,包括:

核心功能:

具有上下文感知和多轮对话的自然语言交流

支持带有丰富格式(粗体、斜体、代码块)的文本输入和输出

实时输入指示器和消息传递状态

用户身份验证和个人资料管理

带有搜索和导出选项的对话历史

可定制的用户设置(主题、字体大小、通知偏好)

高级功能:

处理多媒体输入(图像、音频)并生成描述性回复

允许用户引用过去对话的上下文记忆

基于用户交互自适应学习的个性化响应

用户界面设计:

干净、现代和极简主义布局,使用令人愉悦的调色板(例如,深海军蓝 #1A1F36、柔和蓝绿色 #4FB6AC、浅灰色 #F5F7FA 和白色)

具有清晰层次结构和充足留白的可读无衬线排版

为桌面、平板和移动设备优化的响应式设计

为消息转换和交互元素的流畅动画

具有键盘导航、屏幕阅读器支持和足够对比度的无障碍设计

交互和反馈:

为用户操作(发送、接收、错误)提供清晰的视觉反馈

为增强通信流程的输入指示器和已读回执

用于更快交互的快速回复建议和自动完成

确保应用程序提供直观、可靠且吸引人的对话 AI 体验,可在设备之间扩展并适应多样化的用户需求。

第一代中有很多东西起作用,缺少一些功能部分。

一件非常令人印象深刻的事情是它完美地处理了跨线程搜索。下面你会看到我提到我是湖人队的粉丝。

然后我开始了一个新的聊天,问它我喜欢哪个队,它记住了!在幕后,这一切都由 Converge 中的代理组件 提供支持

将提示转换为检查清单:

5、结束语

Sonnet 4.6 是一个很棒的模型。我整周都在测试它,它和 Opus 4.6 一样好,甚至可能更好,同时也更便宜。

AI 世界的变化速度是无情的!



原文链接:Sonnet 4.6 vs Opus 4.6 - 汇智网

展开阅读全文

更新时间:2026-02-25

标签:游戏   金钱   生命   用户   敌人   测试   评分   屏幕   提示   速度   类型

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号

Top