AI 快讯葡萄牙砸 550 万欧元造欧洲葡语模型 AMALIA
模型上新

葡萄牙砸 550 万欧元造欧洲葡语模型 AMALIA

2026-07-02T03:04:43.277Z
葡萄牙砸 550 万欧元造欧洲葡语模型 AMALIA

葡萄牙政府 7 月 1 日发布首个欧洲葡语开源大模型 AMALIA,9B 版本已上线,用 4 万亿葡语词汇训练,年内还将推出 22B 的 Agent 版本。

葡萄牙政府 7 月 1 日官宣,首个基于欧洲葡萄牙语(pt-PT)的开源大模型 AMALIA 正式发布。这是一个国家战略级项目——60 多名研究人员、18 个月工期、550 万欧元先期投入,跑在 Deucalion 和 MareNostrum 5 两台超算上,首个交付物是一个 9B 规模的多模态模型,年内还要追加 150 万欧元做 22B 的 Agent 版本。

名字取自葡萄牙国宝级 Fado 歌手 Amália Rodrigues,姿态很清楚:这不是一个技术玩具,是一个文化项目。

AMALIA 模型架构与训练流程示意图

为什么欧洲葡语需要单独一个模型

先说清楚一件事——葡语大模型不是没有,问题在于市面上叫得出名字的葡语模型,几乎全都偏向巴西葡语(pt-BR)。

这两者的差距,比很多人想象的要大。词汇选择、动词变位、代词位置、拼写系统(葡萄牙 2009 年才完全接受新拼写协议)都有明显差异。举个直观的例子:巴西人说"你在做什么"是 "você está fazendo",葡萄牙人说的是 "estás a fazer"——不光单词不同,语法结构都不一样。让一个吃了海量 pt-BR 语料的 Llama 或者 Qwen 去处理里斯本市政府的公文,效果可以想象。

这也是为什么葡萄牙政府愿意为一个 1000 万人口国家的语言掏 550 万欧元。语言主权在生成式 AI 时代是个实打实的议题,冰岛、爱沙尼亚、爱尔兰这两年都在做类似的事——不做,就等着自己的语言在 AI 语料里被大语种同化。

技术路线:不是从头训,而是继续训

这里要泼一点冷水。AMALIA 官方定位是"首个欧洲葡语大模型",但严格来说,它不是从零开始训练的,而是在 EuroLLM 基础上做的持续预训练(continued pretraining)。

EuroLLM 本身是欧盟资助的多语种模型项目,葡萄牙团队本来就是主力贡献者之一。AMALIA 团队做的事,是在 EuroLLM 已有权重上,每一个训练阶段都逐步提高欧洲葡语数据的占比,最终产出一个 pt-PT 特化的版本。

这么做有优缺点:

  • 好处:省算力、省钱、省时间。550 万欧元如果拿去从头训 9B,账根本算不过来;
  • 代价:模型的底层世界知识仍然是英语和多欧洲语混合语料塑造的,pt-PT 的"母语性"更多体现在生成风格和本地化任务上,而不是从推理架构上就是葡语原生。

首阶段训练用了约 4 万亿葡语单词(tokens 数会更多),这个量级放在葡语单一语种里已经算相当大。要知道,整个葡语(含巴西)在 Common Crawl 里的占比也就 4% 左右,纯 pt-PT 的高质量文本更是稀缺资源。

多模态部分,团队后续升级让 9B 版本具备了文本、图像、声音的联合理解能力。声音这一路对葡语尤其关键——欧洲葡语的语音特征(元音弱化、辅音丛聚)跟巴西葡语差别巨大,一个能听懂里斯本口音的 ASR + LLM 组合,对政务、医疗、教育场景的价值不用多说。

评测:本地化 benchmark 才是重点

团队在 ACL 系的 PROPOR 会议上发了论文,评测集设计比模型本身更有看头。他们没有只跑翻译过来的 MMLU、GSM8K 这些标准套餐,而是搭了一整套 pt-PT 原生 benchmark:

  • ALBA:葡语语法题,LLM-Judge 评分
  • PT Exams:葡萄牙高考级别的通识题,含 CoT
  • PT Completions:pt-PT 生成任务
  • P3B3:pt-PT 与 pt-BR 的区分度评测
  • FRMT:翻译任务,用 chrF 指标

再加上标准化的 ARC-C、GSM8K、MMLU、TruthfulQA、PIQA、SIQA、IFEval、BBH,以及三个多语种安全评测(Simple Safety Tests、XSTest、Multilingual AdvBench)。

论文里的结论也很直白:在翻译过来的国际 benchmark 上,AMALIA 与强基线打平;在 pt-PT 原生任务上,显著领先。

这个结果几乎是意料之中的——你专门为一个方言优化,当然会在方言评测里赢。但它同时也说明了一件重要的事:通用评测掩盖了小语种模型的真实价值。 如果没有 P3B3 这种能识别 pt-PT vs pt-BR 的评测集,AMALIA 相对于通用大模型的差异根本显示不出来,投资也就无从证明。

9B 只是开始,22B Agent 版才是野心

葡萄牙政府这次很聪明地把项目分成了两期。

第一期(已交付):9B 多模态基础模型,550 万欧元。这个尺寸在消费级 GPU 上可跑(4bit 量化后 6GB 显存左右),对葡萄牙国内的中小企业、市政机构、学术研究友好。

第二期(年内交付):22B 版本,追加 150 万欧元,重点做 Agent 能力

为什么是 22B?这个尺寸挺讲究:

  • 比 Mistral Small 24B 略小,但比大多数 13B 模型显著更强;
  • 单张 A100 80GB 可以做全量微调;
  • FP8 推理下可以塞进 24GB 显存的消费级卡;
  • 对 Agent 场景来说,22B 是当前推理能力和成本的平衡点。

把 Agent 能力放在第二阶段,而不是塞进 9B,说明团队理解现实:Agent 不是单纯的模型能力,它需要 tool use、planning、reflection、长上下文这一整套能力,9B 硬做也能做,但产品化门槛太高。22B + Agent 组合更适合直接对接葡萄牙政务系统、Unbabel 这类本土 SaaS。

顺带说一句,Unbabel(团队核心成员之一)本身就是欧洲翻译 SaaS 的头部玩家,去年他们的 Tower 模型在多语种翻译评测里横扫过一波开源同尺寸模型。AMALIA 团队里有 Unbabel 的人参与,工程化经验和产品视角是有的,不是纯学术项目。

参与机构:一次"国家队"式的协作

AMALIA 项目的机构构成有点意思:

  • Instituto de Telecomunicações(电信研究所,附属里斯本理工)
  • Unbabel(里斯本理工的 spin-off,翻译 SaaS)
  • NOVA 里斯本大学(尤其是 FCT 学院)
  • 葡萄牙科技基金会(FCT)(负责训练和开发管理)

再加上 Deucalion(葡萄牙国家超算中心的机器)、MareNostrum 5(西班牙巴塞罗那超算,欧洲前十)的算力——这基本上是把葡萄牙 NLP 圈能调动的资源全捆一块儿了。

对比一下欧洲其他小语种项目,这种"国家基金 + 学术界 + 商业 spin-off + 跨国超算"的四方组合还挺少见。法国的 CroissantLLM、芬兰的 Poro、爱沙尼亚的 EstLLM 大多是学术为主,商业化路径比 AMALIA 弱。

一些值得追问的东西

钱花了,模型也开源了,但作为开发者视角,有几个问题值得盯着看:

  1. 权重许可到底多开放? 官方说"fully open source",但 EuroLLM 的许可证并不完全宽松,AMALIA 作为衍生模型能不能商用、能不能微调再分发,需要看具体的 license 文件。

  2. 数据构成透明度:目前公开材料里,pt-PT 语料的具体来源、清洗流程、去重策略披露有限。对于国家项目来说,这个透明度理应更高。

  3. 和 EuroLLM、Sabiá(巴西版葡语模型)的正面对比:论文里给了通用 benchmark 结果,但和其他葡语专用模型的横向评测应该更充分。

  4. 22B 版本的 Agent 框架选型:是自建 tool use 协议,还是兼容 MCP / Anthropic 那套标准?这决定了它能不能快速接入现有生态。

对开发者意味着什么

如果你在做葡语相关业务——尤其是面向葡萄牙、莫桑比克、安哥拉、佛得角这些欧洲葡语区市场——AMALIA 是必须评估的选项。它的价值不在于跟 GPT-5、Claude 拼通用能力,而在于成本可控的本地化部署

  • 政务、法律、医疗这类对本地语言细节敏感的场景;
  • 数据不能出境的合规需求(葡萄牙 GDPR 执行相当严格);
  • 需要理解本地文化、俚语、历史背景的内容生成;
  • ASR/TTS 场景下的欧洲葡语口音适配。

对于不做葡语业务的开发者,这个项目更多是方法论上的参考:如何用 550 万欧元、18 个月,把一个小语种的开源模型从 0 做到能用。这个成本-效率比,比很多国家动辄几亿投入的"国家大模型"项目要健康得多。

模型权重会通过 Hugging Face 的 PORTULAN 组织分发,同期开源的还有 pheb 评测框架。9B 版本现在就能拿到,22B Agent 版按官方规划在 2026 年内交付。

开源模型爆发到这个阶段,语言的"长尾"才真正开始被填补。AMALIA 不会是最后一个。


参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: