当 AI 开始“像设计师一样思考”：一次关于 Gemini、Opus 与 GPT 的真实对比

最近我做了一次比较有意思、也比较“务实”的尝试：
让不同的大模型，用最接近日常工作的方式，帮我重新设计一个博客网站。

这不是评测模型跑分，也不是展示 Prompt 技巧，而是一个非常朴素的问题：

一个博客页面不好看，用户体验一般，SEO 也不理想，
能不能让 AI 帮我整体优化一下？

我更关心的是：
这些已经被称为“新一代模型”的 AI，在面对真实、模糊、带目标但不带方案的需求时，谁更像一个靠谱的同事，而不仅仅是一个工具。

一、测试思路：像对同事一样提需求

在实际工作中，我们很少会用非常精确的技术语言去描述设计问题。

更多时候，我们说的是：

“这个页面有点乱”
“结构不太清晰”
“看起来不太高级”
“对搜索引擎不太友好”

所以这次测试，我刻意避免复杂 Prompt，只用了三行非常自然的描述，要求模型从三个方面进行重设计：

用户体验（UX）
视觉效果（Visual）
搜索引擎优化（SEO）

不指定框架、不指定风格、不拆任务，
看模型能不能自己判断该做什么、先做什么。

二、参与对比的模型

参与对比的模型有三个：

Gemini 3（Google）
Claude Opus 4.5（Anthropic）
GPT-5.1 Codex（OpenAI）

测试条件完全一致：

同一个初始页面
同一段描述
不做任何针对模型的 Prompt 微调

三、结果：设计能力出现了明显分层

从最终结果来看，结论其实非常清楚：

如果只看“综合设计能力”，表现最好的，是 Claude Opus 4.5。

这里的“设计”并不只是“好不好看”，而是一个更完整的概念，包括：

页面结构是否合理
信息层级是否清晰
用户路径是否顺畅
是否主动考虑技术 SEO
是否补齐了我没有明确提出，但实际很重要的设计点

在这些方面，Opus 4.5 明显做得更完整。

四、关键差异：不在生成能力，而在规划深度

这次对比让我一个很直观的感受是：

模型之间真正的差距，已经不在“能不能生成”，而在“有没有先想清楚再生成”。

Gemini 3：偏向快速给结果

Gemini 3 的输出并不算“错误”，但整体感觉是：

更偏向直接给方案
缺少明确的整体结构推演
设计决策比较分散

更像是“边做边想”，而不是“先设计再实现”。

GPT-5.1 Codex：工程执行能力很强

GPT-5.1 Codex 的表现相对稳健：

技术路径清晰
实现逻辑可靠
非常适合把一个方案落地成代码

但在这次测试中，它更像是一个执行能力很强的前端工程师，
而不是一个主导设计方向的角色。

Opus 4.5：先规划，再展开

Opus 4.5 最大的不同在于：

会先给出完整的设计思路
明确 UX、内容结构和 SEO 之间的关系
再逐步展开到具体实现层面

而且，它会主动去做一些我并没有明确要求，但在真实设计中一定需要考虑的事情。

这一点，决定了最终结果的质量上限。

五、真正让我印象深刻的，是工作方式的变化

如果只看输出质量，这已经算是一次成功的测试；
但真正让我印象深刻的，其实是整个工作流的变化。

不到 20 分钟
同一个网站
三套完整、可落地的设计与优化方案
我只需要做一件事：选择我最认可的一套

在传统流程中，你很难让一个同事在这么短时间内：

给出多套完整方案
同时覆盖设计、结构和 SEO
还不需要反复来回沟通

六、这次对比带来的一个现实启示

这次测试让我更加确信一件事：

AI 正在从“工具”，转向“具备角色属性的协作者”。

但前提是：

你给它的是“角色级任务”
而不是“指令级命令”

在实际使用中，我现在更倾向于这样分工：

需要构思、规划、设计方向 → 用 Opus
需要工程实现、代码落地 → 用 Codex
需要快速验证想法 → 用 Gemini

而不是纠结哪一个模型“全面领先”。

七、结语

这次博客重设计，我已经直接选择其中一套方案上线。
不是因为它完美，而是因为：

成本极低
效率极高
思路清晰
并且足够专业

如果说过去 AI 更多是在“帮你干活”，
那现在，它开始参与判断、参与设计决策本身。

这，可能才是新一代模型真正值得关注的地方。