当 AI 开始“像设计师一样思考”:一次关于 Gemini、Opus 与 GPT 的真实对比

技术专业 · 昨天

最近我做了一次比较有意思、也比较“务实”的尝试:
让不同的大模型,用最接近日常工作的方式,帮我重新设计一个博客网站。

这不是评测模型跑分,也不是展示 Prompt 技巧,而是一个非常朴素的问题:

一个博客页面不好看,用户体验一般,SEO 也不理想,
能不能让 AI 帮我整体优化一下?

我更关心的是:
这些已经被称为“新一代模型”的 AI,在面对真实、模糊、带目标但不带方案的需求时,谁更像一个靠谱的同事,而不仅仅是一个工具。


一、测试思路:像对同事一样提需求

在实际工作中,我们很少会用非常精确的技术语言去描述设计问题。

更多时候,我们说的是:

  • “这个页面有点乱”
  • “结构不太清晰”
  • “看起来不太高级”
  • “对搜索引擎不太友好”

所以这次测试,我刻意避免复杂 Prompt,只用了三行非常自然的描述,要求模型从三个方面进行重设计:

  • 用户体验(UX)
  • 视觉效果(Visual)
  • 搜索引擎优化(SEO)

不指定框架、不指定风格、不拆任务,
看模型能不能自己判断该做什么、先做什么


二、参与对比的模型

参与对比的模型有三个:

  • Gemini 3(Google)
  • Claude Opus 4.5(Anthropic)
  • GPT-5.1 Codex(OpenAI)

测试条件完全一致:

  • 同一个初始页面
  • 同一段描述
  • 不做任何针对模型的 Prompt 微调

三、结果:设计能力出现了明显分层

从最终结果来看,结论其实非常清楚:

如果只看“综合设计能力”,表现最好的,是 Claude Opus 4.5。

这里的“设计”并不只是“好不好看”,而是一个更完整的概念,包括:

  • 页面结构是否合理
  • 信息层级是否清晰
  • 用户路径是否顺畅
  • 是否主动考虑技术 SEO
  • 是否补齐了我没有明确提出,但实际很重要的设计点

在这些方面,Opus 4.5 明显做得更完整。


四、关键差异:不在生成能力,而在规划深度

这次对比让我一个很直观的感受是:

模型之间真正的差距,已经不在“能不能生成”,而在“有没有先想清楚再生成”。

Gemini 3:偏向快速给结果

Gemini 3 的输出并不算“错误”,但整体感觉是:

  • 更偏向直接给方案
  • 缺少明确的整体结构推演
  • 设计决策比较分散

更像是“边做边想”,而不是“先设计再实现”。

GPT-5.1 Codex:工程执行能力很强

GPT-5.1 Codex 的表现相对稳健:

  • 技术路径清晰
  • 实现逻辑可靠
  • 非常适合把一个方案落地成代码

但在这次测试中,它更像是一个执行能力很强的前端工程师
而不是一个主导设计方向的角色。

Opus 4.5:先规划,再展开

Opus 4.5 最大的不同在于:

  • 会先给出完整的设计思路
  • 明确 UX、内容结构和 SEO 之间的关系
  • 再逐步展开到具体实现层面

而且,它会主动去做一些我并没有明确要求,但在真实设计中一定需要考虑的事情

这一点,决定了最终结果的质量上限。


五、真正让我印象深刻的,是工作方式的变化

如果只看输出质量,这已经算是一次成功的测试;
但真正让我印象深刻的,其实是整个工作流的变化

  • 不到 20 分钟
  • 同一个网站
  • 三套完整、可落地的设计与优化方案
  • 我只需要做一件事:选择我最认可的一套

在传统流程中,你很难让一个同事在这么短时间内:

  • 给出多套完整方案
  • 同时覆盖设计、结构和 SEO
  • 还不需要反复来回沟通

六、这次对比带来的一个现实启示

这次测试让我更加确信一件事:

AI 正在从“工具”,转向“具备角色属性的协作者”。

但前提是:

  • 你给它的是“角色级任务”
  • 而不是“指令级命令”

在实际使用中,我现在更倾向于这样分工:

  • 需要构思、规划、设计方向 → 用 Opus
  • 需要工程实现、代码落地 → 用 Codex
  • 需要快速验证想法 → 用 Gemini

而不是纠结哪一个模型“全面领先”。


七、结语

这次博客重设计,我已经直接选择其中一套方案上线。
不是因为它完美,而是因为:

  • 成本极低
  • 效率极高
  • 思路清晰
  • 并且足够专业

如果说过去 AI 更多是在“帮你干活”,
那现在,它开始参与判断、参与设计决策本身

这,可能才是新一代模型真正值得关注的地方。

Theme Jasmine by Kent Liao