
最近我做了一次比较有意思、也比较“务实”的尝试:
让不同的大模型,用最接近日常工作的方式,帮我重新设计一个博客网站。
这不是评测模型跑分,也不是展示 Prompt 技巧,而是一个非常朴素的问题:
一个博客页面不好看,用户体验一般,SEO 也不理想,
能不能让 AI 帮我整体优化一下?
我更关心的是:
这些已经被称为“新一代模型”的 AI,在面对真实、模糊、带目标但不带方案的需求时,谁更像一个靠谱的同事,而不仅仅是一个工具。
一、测试思路:像对同事一样提需求
在实际工作中,我们很少会用非常精确的技术语言去描述设计问题。
更多时候,我们说的是:
- “这个页面有点乱”
- “结构不太清晰”
- “看起来不太高级”
- “对搜索引擎不太友好”
所以这次测试,我刻意避免复杂 Prompt,只用了三行非常自然的描述,要求模型从三个方面进行重设计:
- 用户体验(UX)
- 视觉效果(Visual)
- 搜索引擎优化(SEO)
不指定框架、不指定风格、不拆任务,
看模型能不能自己判断该做什么、先做什么。
二、参与对比的模型
参与对比的模型有三个:
- Gemini 3(Google)
- Claude Opus 4.5(Anthropic)
- GPT-5.1 Codex(OpenAI)
测试条件完全一致:
- 同一个初始页面
- 同一段描述
- 不做任何针对模型的 Prompt 微调
三、结果:设计能力出现了明显分层
从最终结果来看,结论其实非常清楚:
如果只看“综合设计能力”,表现最好的,是 Claude Opus 4.5。
这里的“设计”并不只是“好不好看”,而是一个更完整的概念,包括:
- 页面结构是否合理
- 信息层级是否清晰
- 用户路径是否顺畅
- 是否主动考虑技术 SEO
- 是否补齐了我没有明确提出,但实际很重要的设计点
在这些方面,Opus 4.5 明显做得更完整。
四、关键差异:不在生成能力,而在规划深度
这次对比让我一个很直观的感受是:
模型之间真正的差距,已经不在“能不能生成”,而在“有没有先想清楚再生成”。
Gemini 3:偏向快速给结果
Gemini 3 的输出并不算“错误”,但整体感觉是:
- 更偏向直接给方案
- 缺少明确的整体结构推演
- 设计决策比较分散
更像是“边做边想”,而不是“先设计再实现”。
GPT-5.1 Codex:工程执行能力很强
GPT-5.1 Codex 的表现相对稳健:
- 技术路径清晰
- 实现逻辑可靠
- 非常适合把一个方案落地成代码
但在这次测试中,它更像是一个执行能力很强的前端工程师,
而不是一个主导设计方向的角色。
Opus 4.5:先规划,再展开
Opus 4.5 最大的不同在于:
- 会先给出完整的设计思路
- 明确 UX、内容结构和 SEO 之间的关系
- 再逐步展开到具体实现层面
而且,它会主动去做一些我并没有明确要求,但在真实设计中一定需要考虑的事情。
这一点,决定了最终结果的质量上限。
五、真正让我印象深刻的,是工作方式的变化
如果只看输出质量,这已经算是一次成功的测试;
但真正让我印象深刻的,其实是整个工作流的变化。
- 不到 20 分钟
- 同一个网站
- 三套完整、可落地的设计与优化方案
- 我只需要做一件事:选择我最认可的一套
在传统流程中,你很难让一个同事在这么短时间内:
- 给出多套完整方案
- 同时覆盖设计、结构和 SEO
- 还不需要反复来回沟通
六、这次对比带来的一个现实启示
这次测试让我更加确信一件事:
AI 正在从“工具”,转向“具备角色属性的协作者”。
但前提是:
- 你给它的是“角色级任务”
- 而不是“指令级命令”
在实际使用中,我现在更倾向于这样分工:
- 需要构思、规划、设计方向 → 用 Opus
- 需要工程实现、代码落地 → 用 Codex
- 需要快速验证想法 → 用 Gemini
而不是纠结哪一个模型“全面领先”。
七、结语
这次博客重设计,我已经直接选择其中一套方案上线。
不是因为它完美,而是因为:
- 成本极低
- 效率极高
- 思路清晰
- 并且足够专业
如果说过去 AI 更多是在“帮你干活”,
那现在,它开始参与判断、参与设计决策本身。
这,可能才是新一代模型真正值得关注的地方。