在真实的使用场景测试模型效果 - 自由翱翔：十年学习成长之路

写在前面:最近需要一个在葡萄牙语方面比较强的模型。我们在选择一个模型的时候优先选择的是模型的参数，是否参数决定结果？最好是将参数圈定范围内的模型使用真实的应用场景去测试验证，用实际效果来说话。
这篇记录的是我用真实考试场景题目做盲测,对比两个候选模型的过程和结论。一开始我倾向于其中一个,但实际测下来结果打了脸。

背景:为什么这两个模型?

在 12G 显存的预算下,能跑 pt-PT 的本地模型其实不多。经过前期筛选,有两个都能用 ollama pull 一行命令搞定的候选:

候选 A: aya-expanse:8b

Cohere Labs 出品,支持 23 种语言的多语言旗舰模型。背后有完整的论文、公开评测、DPO 偏好训练、模型合并等一整套方法论。Arena-Hard-Auto 多语言评测里在同级别打败了 Gemma 2、Qwen 2.5、Llama 3.1。透明度高、社区口碑好、工业级制作。

候选 B: jobautomation/OpenEuroLLM-Portuguese

Ollama 社区一位用户(jobautomation)基于 Gemma 3 在葡萄牙语语料上微调的个人项目。没有基准测试,没有技术报告,只有一个 README。名字借用了欧盟 OpenEuroLLM 项目,但和那个官方项目没关系。

坦白说,在开测之前我更看好 aya-expanse——有据可查、有名有姓、有评测数据。OpenEuroLLM-Portuguese 对我来说就是个黑盒,赌的成分大。

为什么不看基准测试就好?

多语言 LLM 的基准分数有个共同问题:它们几乎都用 pt-BR 为主的数据评测。"葡萄牙语"在互联网上的绝大部分内容是巴西葡语,所以一个模型在 PORTUGUESE benchmark 上跑 90 分,可能 90% 是 pt-BR 能力,10% 是 pt-PT 能力。

而我关心的恰恰是那 10%——写 "ônibus" 而不是 "autocarro" 会被扣分,用 "estou estudando" 而不是 "estou a estudar" 也会被扣分。pt-PT 和 pt-BR 在词汇、语法结构、动词变位、代词位置、介词搭配上的差异,是任何通用评测都测不出来的。

所以我决定用 CIPLE 实际会考的东西来测。

测试设计:10 道 A2 实战题

我设计了 10 道覆盖 CIPLE A2 主要考察维度的题目,两个模型用完全相同的系统提示(都要求使用 pt-PT)、相同温度参数(0.5)、相同的 max tokens(500),只换模型名字。

#	维度	考察点
1	核心词汇翻译	pt-PT vs pt-BR 高频词对立(autocarro/ônibus 等)
2	动词 tu 形式变位	pt-PT 日常标配,pt-BR 几乎不用
3	第二人称称呼差异	tu/você/o senhor 在葡萄牙的使用场景
4	面包店对话情景	A2 常考场景,测地道表达
5	自我介绍写作	直接对标 CIPLE 写作题
6	将来时表达倾向	ir+inf vs futuro simples 哪个更日常
7	介词搭配	欧葡介词用法(ir a casa vs ir para casa)
8	地道口语	fixe/giro/está-se bem 的语义解释
9	语法纠错	把一段 pt-BR 改成 pt-PT
10	听力理解	模拟 CIPLE 车站广播题

全部都是有明确标准答案的题——不是主观评价模型"写得好不好",而是看它对 pt-PT 的硬核知识掌握得怎么样。

跑完结果后的震惊

先说结论:OpenEuroLLM-Portuguese 以 48/50 完胜 aya-expanse 的 35/50。更震惊的是,aya-expanse 失分的地方不是细枝末节,而是系统性的 pt-BR 污染。

下面挑几个最有代表性的题目看看。

Q5 自我介绍:一个代词位置就看出来了

让两个模型写一段 A2 学生的自我介绍。

aya-expanse 的输出(节选):

...estou a estudar para me tornar um tradutor e interprete, e actualmente me preparo para o exame CIPLE...

OpenEuroLLM 的输出(节选):

...Estou a preparar-me para o CIPLE para melhorar o meu português!

这里有个关键的 pt-PT 语法点:代词位置(clitic placement)。

在 pt-PT 中,没有触发前置代词(proclisis)的上下文里,代词必须放在动词后面(enclisis)——也就是 "preparo-me"。而 "me preparo" 这种把代词放前面的写法,是典型的 pt-BR 语法。

aya 写出了 "me preparo",这在 CIPLE 写作题上就是要扣分的错误。OpenEuroLLM 不但写对了代词位置,还自然地用了 pt-PT 特有的 "estou a + infinitivo" 进行体结构(pt-BR 会说 "estou me preparando")。

这是最硬的 pt-PT 指标之一,OpenEuroLLM 稳稳通过。

Q6 将来时:aya 把事实说反了

问两个模型:"I am going to travel to Porto next week" 用 pt-PT 怎么说,ir + infinitivo 和 futuro simples 哪个在葡萄牙日常更常用?

aya-expanse 回答:

在日常葡萄牙,futuro simples("Viajarei...")更频繁和自然,ir + infinitivo 较少使用。

OpenEuroLLM 回答:

在葡萄牙的日常会话中,"Vou viajar..."(ir + infinitivo)更自然常用。futuro simples 更正式,口语中很少用。

事实上 OpenEuroLLM 是对的。无论葡萄牙还是巴西,口语中都偏爱 ir + infinitivo,简单将来时(Viajarei)带书面正式感。aya 把这个完全说反了——这不是语言偏好的争议,是纯粹的语言学事实错误。

更糟的是 aya 的例句用了 "semana que vem",这是巴葡搭配;葡萄牙人更常说 "na próxima semana" 或 "para a semana"。

Q3 "você" 的微妙地位:一个文化陷阱

问两个模型:在 pt-PT 中 tu/você/o senhor 分别什么时候用。

aya-expanse 说:"Você" 是正式、中性的形式,适用于职业交流、陌生人或想表达礼貌的场合。

OpenEuroLLM 说:"Você" 在葡萄牙不太常用,可能听起来有点正式或疏远,用于想保持距离但不需要极度正式的场合。

这题是给我刺激最大的一题。

aya 说的完全是巴西的使用场景。在葡萄牙,对陌生人说 "você" 不但不礼貌,还可能被视为居高临下或疏远。正式场合葡萄牙人要么用 "o senhor/a senhora",要么干脆省略主语(动词变位已经包含人称信息了)。这是葡萄牙文化中一个非常敏感的点,外国学生踩雷很常见。

OpenEuroLLM 抓到了这个细微差别——"um pouco formal ou distante"(有点正式或疏远),这才是葡萄牙人真实的语感。

如果一个学生照着 aya 的建议在葡萄牙街头用 "você" 和陌生人搭话,可能会收获一个尴尬的眼神。

Q7 介词"vou para casa" vs "vou a casa"

这是 pt-PT 的经典难点:a 和 para 都能翻译成"去",但含义不同。

Vou a casa 暗示短暂逗留("去一下家就回来")
Vou para casa 暗示回归和较长停留("回家了")

我填入 "Vou _ casa" 不加任何语境,默认场景应该是下班后回家。

aya 填 a,OpenEuroLLM 填 para。如果你问葡萄牙人下班要去哪,他们九成会说 "vou para casa",而不是 "vou a casa"。

为什么 aya-expanse 会在这些地方翻车?

我事后想了想,这其实是可以解释的。

aya-expanse 的训练数据虽然量大,但在 23 种语言之间共享,葡萄牙语部分多半以 pt-BR 为主(互联网上葡语内容的现实分布)。它对"葡萄牙语"的理解在统计意义上被 pt-BR 主导。当你明确要求 pt-PT 时,它能切换词汇(autocarro、ginásio、telemóvel 这种高频词没问题),但深层的语法结构和语感没法通过系统提示临时注入——代词位置、时态偏好、文化敏感词这些是烙进模型里的,提示词救不回来。

OpenEuroLLM-Portuguese 的优势就在这里了。它是一个专门用 pt-PT 语料微调的小众模型,虽然没有论文没有评测,但作者大概率是懂 pt-PT 的葡萄牙人——从它对 você 微妙语感的把握、对 "Queria" 而非 "Quero" 在店里点餐时的礼貌用法、对 para a semana 这种葡萄牙特色搭配的自然使用,都能看出来。

专注的小模型在狭窄领域打败通用的大模型,这不是第一次发生。

一个关于"透明度"的反思

开测之前我对 OpenEuroLLM-Portuguese 的主要顾虑是黑盒——没论文、没评测、作者匿名、训练细节不公开。相比之下 aya-expanse 简直是学术透明典范。

但实测结果让我意识到:透明度和适用性是两回事。

对工业应用、对需要可复现性的研究、对商业落地来说,透明度当然重要。但对我这种把模型当工具的最终用户来说,真正重要的是:它在我的具体场景里好不好用?

aya-expanse 的所有基准分数在 pt-PT 这个细分场景上全都没意义——因为那些基准根本没测 pt-PT 的独有特征。而 OpenEuroLLM-Portuguese 虽然没有任何公开分数,但在我这 10 道实战题上表现稳定、精准、符合 CIPLE 标准。

一个跑 10 道真实场景题的测试,比看 10 份基准报告都有用。前提是这 10 道题真的覆盖你关心的维度。

最终的工作流调整

测完之后我改了我的配置:

cat > Modelfile.ciple <<EOF
FROM jobautomation/OpenEuroLLM-Portuguese:latest
SYSTEM """És um tutor de português europeu especializado em preparar estudantes para o exame CIPLE A2. Responde sempre em pt-PT rigoroso. Corrige erros típicos de quem aprendeu pt-BR. Sê conciso."""
PARAMETER temperature 0.6
EOF

ollama create ciple-tutor -f Modelfile.ciple

aya-expanse 没删,但用途改了:

场景	用哪个
pt-PT 精准校对、葡语写作	OpenEuroLLM-Portuguese
多语言快速切换(英/中/葡三语翻译)	aya-expanse
核实葡萄牙文化表达、地道用法	OpenEuroLLM-Portuguese
长文本综合能力需求	aya-expanse

OpenEuroLLM 速度比 aya 慢一倍左右(10 题总耗时 172 秒 vs 87 秒),但对备考来说准确性远比速度重要。

一些遗留问题

OpenEuroLLM-Portuguese 的作者是谁? README 没说。从输出质量看大概率是懂 pt-PT 的葡萄牙人,但具体背景未知。
它的训练数据有多干净? 没有公开信息。可能混入了一些 pt-BR 内容(我在测试里偶尔看到一两处可疑表达),但整体比 aya 干净得多。
等正版 AMALIA、Gervásio 的 GGUF 出来以后再测一轮? 这两个是葡萄牙学术机构官方出品的 pt-PT 专用模型,理论上应该比社区微调更专业。但截至目前它们还没有现成的 GGUF 或 Ollama 版本,需要手动转换,对我来说投入产出比不太划算。等社区有人打包之后再补一轮测试。