
写在前面:最近需要一个在葡萄牙语方面比较强的模型。我们在选择一个模型的时候优先选择的是模型的参数,是否参数决定结果?最好是将参数圈定范围内的模型使用真实的应用场景去测试验证,用实际效果来说话。
这篇记录的是我用真实考试场景题目做盲测,对比两个候选模型的过程和结论。一开始我倾向于其中一个,但实际测下来结果打了脸。
背景:为什么这两个模型?
在 12G 显存的预算下,能跑 pt-PT 的本地模型其实不多。经过前期筛选,有两个都能用 ollama pull 一行命令搞定的候选:
候选 A: aya-expanse:8b
Cohere Labs 出品,支持 23 种语言的多语言旗舰模型。背后有完整的论文、公开评测、DPO 偏好训练、模型合并等一整套方法论。Arena-Hard-Auto 多语言评测里在同级别打败了 Gemma 2、Qwen 2.5、Llama 3.1。透明度高、社区口碑好、工业级制作。
候选 B: jobautomation/OpenEuroLLM-Portuguese
Ollama 社区一位用户(jobautomation)基于 Gemma 3 在葡萄牙语语料上微调的个人项目。没有基准测试,没有技术报告,只有一个 README。名字借用了欧盟 OpenEuroLLM 项目,但和那个官方项目没关系。
坦白说,在开测之前我更看好 aya-expanse——有据可查、有名有姓、有评测数据。OpenEuroLLM-Portuguese 对我来说就是个黑盒,赌的成分大。
为什么不看基准测试就好?
多语言 LLM 的基准分数有个共同问题:它们几乎都用 pt-BR 为主的数据评测。"葡萄牙语"在互联网上的绝大部分内容是巴西葡语,所以一个模型在 PORTUGUESE benchmark 上跑 90 分,可能 90% 是 pt-BR 能力,10% 是 pt-PT 能力。
而我关心的恰恰是那 10%——写 "ônibus" 而不是 "autocarro" 会被扣分,用 "estou estudando" 而不是 "estou a estudar" 也会被扣分。pt-PT 和 pt-BR 在词汇、语法结构、动词变位、代词位置、介词搭配上的差异,是任何通用评测都测不出来的。
所以我决定用 CIPLE 实际会考的东西来测。
测试设计:10 道 A2 实战题
我设计了 10 道覆盖 CIPLE A2 主要考察维度的题目,两个模型用完全相同的系统提示(都要求使用 pt-PT)、相同温度参数(0.5)、相同的 max tokens(500),只换模型名字。
| # | 维度 | 考察点 |
|---|---|---|
| 1 | 核心词汇翻译 | pt-PT vs pt-BR 高频词对立(autocarro/ônibus 等) |
| 2 | 动词 tu 形式变位 | pt-PT 日常标配,pt-BR 几乎不用 |
| 3 | 第二人称称呼差异 | tu/você/o senhor 在葡萄牙的使用场景 |
| 4 | 面包店对话情景 | A2 常考场景,测地道表达 |
| 5 | 自我介绍写作 | 直接对标 CIPLE 写作题 |
| 6 | 将来时表达倾向 | ir+inf vs futuro simples 哪个更日常 |
| 7 | 介词搭配 | 欧葡介词用法(ir a casa vs ir para casa) |
| 8 | 地道口语 | fixe/giro/está-se bem 的语义解释 |
| 9 | 语法纠错 | 把一段 pt-BR 改成 pt-PT |
| 10 | 听力理解 | 模拟 CIPLE 车站广播题 |
全部都是有明确标准答案的题——不是主观评价模型"写得好不好",而是看它对 pt-PT 的硬核知识掌握得怎么样。
跑完结果后的震惊
先说结论:OpenEuroLLM-Portuguese 以 48/50 完胜 aya-expanse 的 35/50。更震惊的是,aya-expanse 失分的地方不是细枝末节,而是系统性的 pt-BR 污染。
下面挑几个最有代表性的题目看看。
Q5 自我介绍:一个代词位置就看出来了
让两个模型写一段 A2 学生的自我介绍。
aya-expanse 的输出(节选):
...estou a estudar para me tornar um tradutor e interprete, e actualmente me preparo para o exame CIPLE...
OpenEuroLLM 的输出(节选):
...Estou a preparar-me para o CIPLE para melhorar o meu português!
这里有个关键的 pt-PT 语法点:代词位置(clitic placement)。
在 pt-PT 中,没有触发前置代词(proclisis)的上下文里,代词必须放在动词后面(enclisis)——也就是 "preparo-me"。而 "me preparo" 这种把代词放前面的写法,是典型的 pt-BR 语法。
aya 写出了 "me preparo",这在 CIPLE 写作题上就是要扣分的错误。OpenEuroLLM 不但写对了代词位置,还自然地用了 pt-PT 特有的 "estou a + infinitivo" 进行体结构(pt-BR 会说 "estou me preparando")。
这是最硬的 pt-PT 指标之一,OpenEuroLLM 稳稳通过。
Q6 将来时:aya 把事实说反了
问两个模型:"I am going to travel to Porto next week" 用 pt-PT 怎么说,ir + infinitivo 和 futuro simples 哪个在葡萄牙日常更常用?
aya-expanse 回答:
在日常葡萄牙,futuro simples("Viajarei...")更频繁和自然,ir + infinitivo 较少使用。
OpenEuroLLM 回答:
在葡萄牙的日常会话中,"Vou viajar..."(ir + infinitivo)更自然常用。futuro simples 更正式,口语中很少用。
事实上 OpenEuroLLM 是对的。无论葡萄牙还是巴西,口语中都偏爱 ir + infinitivo,简单将来时(Viajarei)带书面正式感。aya 把这个完全说反了——这不是语言偏好的争议,是纯粹的语言学事实错误。
更糟的是 aya 的例句用了 "semana que vem",这是巴葡搭配;葡萄牙人更常说 "na próxima semana" 或 "para a semana"。
Q3 "você" 的微妙地位:一个文化陷阱
问两个模型:在 pt-PT 中 tu/você/o senhor 分别什么时候用。
aya-expanse 说:"Você" 是正式、中性的形式,适用于职业交流、陌生人或想表达礼貌的场合。
OpenEuroLLM 说:"Você" 在葡萄牙不太常用,可能听起来有点正式或疏远,用于想保持距离但不需要极度正式的场合。
这题是给我刺激最大的一题。
aya 说的完全是巴西的使用场景。在葡萄牙,对陌生人说 "você" 不但不礼貌,还可能被视为居高临下或疏远。正式场合葡萄牙人要么用 "o senhor/a senhora",要么干脆省略主语(动词变位已经包含人称信息了)。这是葡萄牙文化中一个非常敏感的点,外国学生踩雷很常见。
OpenEuroLLM 抓到了这个细微差别——"um pouco formal ou distante"(有点正式或疏远),这才是葡萄牙人真实的语感。
如果一个学生照着 aya 的建议在葡萄牙街头用 "você" 和陌生人搭话,可能会收获一个尴尬的眼神。
Q7 介词"vou para casa" vs "vou a casa"
这是 pt-PT 的经典难点:a 和 para 都能翻译成"去",但含义不同。
Vou a casa暗示短暂逗留("去一下家就回来")Vou para casa暗示回归和较长停留("回家了")
我填入 "Vou _ casa" 不加任何语境,默认场景应该是下班后回家。
aya 填 a,OpenEuroLLM 填 para。如果你问葡萄牙人下班要去哪,他们九成会说 "vou para casa",而不是 "vou a casa"。
为什么 aya-expanse 会在这些地方翻车?
我事后想了想,这其实是可以解释的。
aya-expanse 的训练数据虽然量大,但在 23 种语言之间共享,葡萄牙语部分多半以 pt-BR 为主(互联网上葡语内容的现实分布)。它对"葡萄牙语"的理解在统计意义上被 pt-BR 主导。当你明确要求 pt-PT 时,它能切换词汇(autocarro、ginásio、telemóvel 这种高频词没问题),但深层的语法结构和语感没法通过系统提示临时注入——代词位置、时态偏好、文化敏感词这些是烙进模型里的,提示词救不回来。
OpenEuroLLM-Portuguese 的优势就在这里了。它是一个专门用 pt-PT 语料微调的小众模型,虽然没有论文没有评测,但作者大概率是懂 pt-PT 的葡萄牙人——从它对 você 微妙语感的把握、对 "Queria" 而非 "Quero" 在店里点餐时的礼貌用法、对 para a semana 这种葡萄牙特色搭配的自然使用,都能看出来。
专注的小模型在狭窄领域打败通用的大模型,这不是第一次发生。
一个关于"透明度"的反思
开测之前我对 OpenEuroLLM-Portuguese 的主要顾虑是黑盒——没论文、没评测、作者匿名、训练细节不公开。相比之下 aya-expanse 简直是学术透明典范。
但实测结果让我意识到:透明度和适用性是两回事。
对工业应用、对需要可复现性的研究、对商业落地来说,透明度当然重要。但对我这种把模型当工具的最终用户来说,真正重要的是:它在我的具体场景里好不好用?
aya-expanse 的所有基准分数在 pt-PT 这个细分场景上全都没意义——因为那些基准根本没测 pt-PT 的独有特征。而 OpenEuroLLM-Portuguese 虽然没有任何公开分数,但在我这 10 道实战题上表现稳定、精准、符合 CIPLE 标准。
一个跑 10 道真实场景题的测试,比看 10 份基准报告都有用。前提是这 10 道题真的覆盖你关心的维度。
最终的工作流调整
测完之后我改了我的配置:
cat > Modelfile.ciple <<EOF
FROM jobautomation/OpenEuroLLM-Portuguese:latest
SYSTEM """És um tutor de português europeu especializado em preparar estudantes para o exame CIPLE A2. Responde sempre em pt-PT rigoroso. Corrige erros típicos de quem aprendeu pt-BR. Sê conciso."""
PARAMETER temperature 0.6
EOF
ollama create ciple-tutor -f Modelfile.cipleaya-expanse 没删,但用途改了:
| 场景 | 用哪个 |
|---|---|
| pt-PT 精准校对、葡语写作 | OpenEuroLLM-Portuguese |
| 多语言快速切换(英/中/葡三语翻译) | aya-expanse |
| 核实葡萄牙文化表达、地道用法 | OpenEuroLLM-Portuguese |
| 长文本综合能力需求 | aya-expanse |
OpenEuroLLM 速度比 aya 慢一倍左右(10 题总耗时 172 秒 vs 87 秒),但对备考来说准确性远比速度重要。
一些遗留问题
- OpenEuroLLM-Portuguese 的作者是谁? README 没说。从输出质量看大概率是懂 pt-PT 的葡萄牙人,但具体背景未知。
- 它的训练数据有多干净? 没有公开信息。可能混入了一些 pt-BR 内容(我在测试里偶尔看到一两处可疑表达),但整体比 aya 干净得多。
- 等正版 AMALIA、Gervásio 的 GGUF 出来以后再测一轮? 这两个是葡萄牙学术机构官方出品的 pt-PT 专用模型,理论上应该比社区微调更专业。但截至目前它们还没有现成的 GGUF 或 Ollama 版本,需要手动转换,对我来说投入产出比不太划算。等社区有人打包之后再补一轮测试。