阿里开源LOGOS:1B参数干翻微软56倍大的NatureLM
阿里ATH-Token Foundry联合人大高瓴学院开源统一科学大模型LOGOS,用1B参数在六大科学任务上匹配甚至超越微软8×7B的NatureLM,把蛋白质、小分子、材料统一编码成离散Token序列。
阿里开源LOGOS:1B参数干翻微软56倍大的NatureLM,统一科学语法范式来了
6月18日,阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院丢出来一个重磅东西——LOGOS(Language Of Generative Objects in Science),号称是首个基于统一"科学语法"的多领域科学生成基础模型。模型已开源,并且只用了 1B 参数,就在六大代表性科学任务上一致性地匹配或超越了微软那个 8×7B 的 NatureLM。
1/56 的参数量,跨域打赢。这数字写出来挺刺激的,但更值得说的是它背后的思路:把蛋白质、小分子、材料、复合物这堆"鸡同鸭讲"的科学对象,全部塞进同一个 Token 空间里,让一个 decoder-only 的自回归模型去 next-token prediction。听起来朴素,但能跑通这件事本身就有点反直觉。
先把这个对比放清楚
微软的 NatureLM 走的也是序列基础模型路线,去年放出来的时候算是 AI for Science 领域里第一个明牌做"自然语言"的玩家——把小分子、蛋白质、材料、DNA、RNA 都当序列处理。架构走 Mixtral 那一套 MoE,8×7B,激活参数也不算小。
LOGOS 这次直接拿 1B 的 dense 模型上去对线。在阿里给出的评测里,六个任务上要么追平要么反超。这不是说 NatureLM 不行,而是说当语法设计真的统一了之后,参数效率会有一个比较夸张的跃迁。NatureLM 本质上还是把不同领域的 tokenizer 拼在一起,靠超大参数去硬扛跨域差异;LOGOS 则是从词表层面就把这些异构对象"翻译"成同一种语言,模型不用花参数去做隐式的翻译工作。
这种打法在 LLM 圈不陌生——当年 GPT 把所有任务统一成 text-to-text 也是类似的逻辑。但在科学领域里,3D 结构、化学反应图、晶体周期性这些东西要全部 token 化,难度比 NLP 高得多。
44.87B tokens 的预训练语料,怎么拼出来的
LOGOS 的预训练语料构成挺有意思,覆盖了 7 类模态,按层级组织:
- 生物大分子层:蛋白质 28.9B tokens + 抗体 3.0B tokens
- 化学实体与转化层:小分子 2.1B tokens + 化学反应与 MOF 材料 0.47B tokens
- 界面互作层:蛋白质口袋 5.8B tokens + 蛋白口袋-配体复合物 4.6B tokens
你看这个分布,蛋白质占了大头,这跟当前 AI for Science 的数据可得性是一致的——UniProt、PDB 那一堆库放在那里,量管够。小分子和材料的 token 量看起来不多,但化学这边密度本来就高,2B tokens 的 SMILES/SELFIES 已经能覆盖相当大的化学空间了。
真正出彩的设计在"界面互作层"。蛋白质口袋和蛋白-配体复合物加起来 10.4B tokens,几乎占总量的四分之一。这意味着 LOGOS 不只是把单体序列堆在一起预训练,而是明确把"相互作用"作为一种独立模态去喂。
"文字描述法" 怎么干掉 3D 几何网络
这部分是 LOGOS 最有技术含量的地方,也是我觉得最值得抠的地方。
传统做蛋白-配体结合预测,你绕不开 SE(3) 等变神经网络、几何 Transformer、坐标回归那一套。E3NN、EquiformerV2、Uni-Mol,全是这条路。原因很简单:分子和蛋白质在三维空间里的相互作用,原子坐标是核心信息,旋转平移不变性是硬约束。
LOGOS 选了另一条路:把 3D 空间接触模式直接"语法化"为离散 Token。具体怎么做参考资料里没展开,但从描述看,应该是把口袋残基和配体原子之间的接触关系(距离、角度、相互作用类型)离散化成符号序列,然后让模型纯靠序列预测去学这种空间规律。
这件事的好处显而易见:
- 不用输入 3D 坐标,推理时极轻量
- 不用维护等变网络,工程复杂度暴跌
- 能和文本/序列任务无缝混合,模型不用切换 backbone
坏处也容易猜到:信息有损。把连续的空间关系压成离散 Token,肯定丢东西。但 LOGOS 的实验结果说明,只要词表设计得好、训练数据够,序列模型完全可以"脑补"出 3D 互作规律。这跟 LLM 能在没有真正物理引擎的情况下做出像样的物理推理是同一个故事。
说白了,这是用 scale 和 representation 换 inductive bias。深度学习这二十年的路径反复证明,只要数据和算力到位,归纳偏置往往可以让位给更通用的架构。
form-objective alignment:解决科学AI最尴尬的事
搞过 AI for Science 落地的人都知道一个痛点:预训练目标和下游任务严重对不上。
你拿对比学习预训练一个分子编码器,下游要做生成,得再接一个解码器从头训。你拿 masked language model 预训练蛋白质表征,下游做结构预测又得换一套架构。每换一个研究环节,模型、目标、假设全部要重来。AlphaFold2 拿不来做 docking,ESM 拿不来做 retrosynthesis,这是常态。
LOGOS 把这件事掰开揉碎做了两个对齐:
- 形式一致(form alignment):预训练数据的序列形式 = 下游任务的输入输出形式
- 目标一致(objective alignment):预训练的 next-token prediction = 下游的条件生成目标
这就是它说的 form-objective alignment。换言之,预训练完出来的模型,下游任何任务都是"给前缀、续写",不需要复杂适配层、不需要从头微调架构。
这套思路本质上就是把 GPT 范式搬到科学领域。OpenAI 当年靠 GPT-3 证明了"够大的语言模型 + prompt"可以替代一堆专用 NLP 模型;阿里这次想证明的是"够好的科学语法 + 自回归"可以替代一堆专用科学模型。
1B vs 8×7B:为什么差距这么大
参数效率的差距不会凭空出现,我倾向于把原因归到三处:
第一,词表统一带来的参数复用。NatureLM 虽然是统一模型,但不同领域的 token 之间共享得不彻底,模型需要在不同模态之间维护多套"心智模型"。LOGOS 的共享词表让蛋白质 token 和小分子 token 在同一个嵌入空间里被处理,参数复用率高。
第二,互作模态的显式建模。10.4B tokens 的口袋和复合物数据,相当于直接给模型喂了一个"分子怎么和蛋白质对话"的字典。NatureLM 主要靠各领域单体数据 + 一些跨域生成任务隐式学这个,效率差很多。
第三,dense 架构 vs MoE 架构在小规模下的对比。MoE 在大参数量下吞吐和效果都好,但在小规模上路由 overhead 反而是负担。1B dense 在这个量级下,激活参数利用率更高。
当然,1/56 这个数字本身是有点取巧的——NatureLM 8×7B 实际激活参数是 ~13B,不是 56B。但即便按激活算,1B vs 13B 也是 1/13 的差距,依然非常可观。
这事对开发者意味着什么
如果你做药物发现、材料设计、合成路线规划这类任务,LOGOS 至少有三个值得试的点:
- 跨任务复用同一个模型权重。不用为口袋预测、分子生成、retrosynthesis 各自维护一套 checkpoint,推理基建可以大幅简化。
- 1B 量级跑得动。单卡 4090 就能推,部署在本地实验室也现实。
- prompt-based 任务定义。给前缀、续写的范式意味着研究员可以快速试新任务,不用写训练代码。
短板也得提:参考资料没披露完整的 benchmark 细节,所谓"匹配或超越 NatureLM"具体是哪几个 metric、和最新的领域 SOTA(比如 RFdiffusion、Boltz、Chai-1)比起来怎么样,目前看不到。开源模型权重和 evaluation pipeline 出来之后,社区会很快验证。
另一个开放问题是 scaling 行为。LOGOS-1B 是起点,如果科学语法这套设计真的成立,那 LOGOS-7B、LOGOS-70B 应该会显示出比 NatureLM 更陡的 scaling curve。这是接下来半年值得盯的事。
写在最后
AI for Science 这两年的主旋律一直是"大力出奇迹"——AlphaFold 系列、RoseTTAFold、Boltz、各种 diffusion-based docking 模型,大家都在堆参数、堆数据、堆几何先验。LOGOS 给出的是另一个方向:先把表示统一好,再让模型学。这跟 NLP 从 word2vec 到 GPT 的路径很像,从"为每个任务设计特征"走向"让通用模型学习通用表征"。
微软 NatureLM 开了头,阿里 LOGOS 用更小的参数把这条路走得更深。对国内做 AI for Science 的团队来说,能用上一个 1B 量级、覆盖蛋白-小分子-材料的开源基座,门槛降了不止一档。模型权重和代码已经开源,感兴趣的可以直接拉下来跑。
参考来源
- 阿里开源首个统一科学大模型 LOGOS,仅用 1/56 参数超越微软 NatureLM - IT之家:LOGOS 发布的主要中文报道,包含模型架构、预训练语料构成和 form-objective alignment 设计细节。
