阿里ATH-Token Foundry联合人大高瓴学院开源统一科学大模型LOGOS，用1B参数在六大科学任务上匹配甚至超越微软8×7B的NatureLM，把蛋白质、小分子、材料统一编码成离散Token序列。

阿里开源LOGOS：1B参数干翻微软56倍大的NatureLM，统一科学语法范式来了

6月18日，阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院丢出来一个重磅东西——LOGOS（Language Of Generative Objects in Science），号称是首个基于统一"科学语法"的多领域科学生成基础模型。模型已开源，并且只用了 1B 参数，就在六大代表性科学任务上一致性地匹配或超越了微软那个 8×7B 的 NatureLM。

1/56 的参数量，跨域打赢。这数字写出来挺刺激的，但更值得说的是它背后的思路：把蛋白质、小分子、材料、复合物这堆"鸡同鸭讲"的科学对象，全部塞进同一个 Token 空间里，让一个 decoder-only 的自回归模型去 next-token prediction。听起来朴素，但能跑通这件事本身就有点反直觉。

先把这个对比放清楚

微软的 NatureLM 走的也是序列基础模型路线，去年放出来的时候算是 AI for Science 领域里第一个明牌做"自然语言"的玩家——把小分子、蛋白质、材料、DNA、RNA 都当序列处理。架构走 Mixtral 那一套 MoE，8×7B，激活参数也不算小。

LOGOS 这次直接拿 1B 的 dense 模型上去对线。在阿里给出的评测里，六个任务上要么追平要么反超。这不是说 NatureLM 不行，而是说当语法设计真的统一了之后，参数效率会有一个比较夸张的跃迁。NatureLM 本质上还是把不同领域的 tokenizer 拼在一起，靠超大参数去硬扛跨域差异；LOGOS 则是从词表层面就把这些异构对象"翻译"成同一种语言，模型不用花参数去做隐式的翻译工作。

这种打法在 LLM 圈不陌生——当年 GPT 把所有任务统一成 text-to-text 也是类似的逻辑。但在科学领域里，3D 结构、化学反应图、晶体周期性这些东西要全部 token 化，难度比 NLP 高得多。

44.87B tokens 的预训练语料，怎么拼出来的

LOGOS 的预训练语料构成挺有意思，覆盖了 7 类模态，按层级组织：

生物大分子层：蛋白质 28.9B tokens + 抗体 3.0B tokens
化学实体与转化层：小分子 2.1B tokens + 化学反应与 MOF 材料 0.47B tokens
界面互作层：蛋白质口袋 5.8B tokens + 蛋白口袋-配体复合物 4.6B tokens

你看这个分布，蛋白质占了大头，这跟当前 AI for Science 的数据可得性是一致的——UniProt、PDB 那一堆库放在那里，量管够。小分子和材料的 token 量看起来不多，但化学这边密度本来就高，2B tokens 的 SMILES/SELFIES 已经能覆盖相当大的化学空间了。

真正出彩的设计在"界面互作层"。蛋白质口袋和蛋白-配体复合物加起来 10.4B tokens，几乎占总量的四分之一。这意味着 LOGOS 不只是把单体序列堆在一起预训练，而是明确把"相互作用"作为一种独立模态去喂。

"文字描述法" 怎么干掉 3D 几何网络

这部分是 LOGOS 最有技术含量的地方，也是我觉得最值得抠的地方。

传统做蛋白-配体结合预测，你绕不开 SE(3) 等变神经网络、几何 Transformer、坐标回归那一套。E3NN、EquiformerV2、Uni-Mol，全是这条路。原因很简单：分子和蛋白质在三维空间里的相互作用，原子坐标是核心信息，旋转平移不变性是硬约束。

LOGOS 选了另一条路：把 3D 空间接触模式直接"语法化"为离散 Token。具体怎么做参考资料里没展开，但从描述看，应该是把口袋残基和配体原子之间的接触关系（距离、角度、相互作用类型）离散化成符号序列，然后让模型纯靠序列预测去学这种空间规律。

这件事的好处显而易见：

不用输入 3D 坐标，推理时极轻量
不用维护等变网络，工程复杂度暴跌
能和文本/序列任务无缝混合，模型不用切换 backbone

坏处也容易猜到：信息有损。把连续的空间关系压成离散 Token，肯定丢东西。但 LOGOS 的实验结果说明，只要词表设计得好、训练数据够，序列模型完全可以"脑补"出 3D 互作规律。这跟 LLM 能在没有真正物理引擎的情况下做出像样的物理推理是同一个故事。

说白了，这是用 scale 和 representation 换 inductive bias。深度学习这二十年的路径反复证明，只要数据和算力到位，归纳偏置往往可以让位给更通用的架构。

form-objective alignment：解决科学AI最尴尬的事

搞过 AI for Science 落地的人都知道一个痛点：预训练目标和下游任务严重对不上。

你拿对比学习预训练一个分子编码器，下游要做生成，得再接一个解码器从头训。你拿 masked language model 预训练蛋白质表征，下游做结构预测又得换一套架构。每换一个研究环节，模型、目标、假设全部要重来。AlphaFold2 拿不来做 docking，ESM 拿不来做 retrosynthesis，这是常态。

LOGOS 把这件事掰开揉碎做了两个对齐：

形式一致（form alignment）：预训练数据的序列形式 = 下游任务的输入输出形式
目标一致（objective alignment）：预训练的 next-token prediction = 下游的条件生成目标

这就是它说的 form-objective alignment。换言之，预训练完出来的模型，下游任何任务都是"给前缀、续写"，不需要复杂适配层、不需要从头微调架构。

这套思路本质上就是把 GPT 范式搬到科学领域。OpenAI 当年靠 GPT-3 证明了"够大的语言模型 + prompt"可以替代一堆专用 NLP 模型；阿里这次想证明的是"够好的科学语法 + 自回归"可以替代一堆专用科学模型。

1B vs 8×7B：为什么差距这么大

参数效率的差距不会凭空出现，我倾向于把原因归到三处：

第一，词表统一带来的参数复用。NatureLM 虽然是统一模型，但不同领域的 token 之间共享得不彻底，模型需要在不同模态之间维护多套"心智模型"。LOGOS 的共享词表让蛋白质 token 和小分子 token 在同一个嵌入空间里被处理，参数复用率高。

第二，互作模态的显式建模。10.4B tokens 的口袋和复合物数据，相当于直接给模型喂了一个"分子怎么和蛋白质对话"的字典。NatureLM 主要靠各领域单体数据 + 一些跨域生成任务隐式学这个，效率差很多。

第三，dense 架构 vs MoE 架构在小规模下的对比。MoE 在大参数量下吞吐和效果都好，但在小规模上路由 overhead 反而是负担。1B dense 在这个量级下，激活参数利用率更高。

当然，1/56 这个数字本身是有点取巧的——NatureLM 8×7B 实际激活参数是 ~13B，不是 56B。但即便按激活算，1B vs 13B 也是 1/13 的差距，依然非常可观。

这事对开发者意味着什么

如果你做药物发现、材料设计、合成路线规划这类任务，LOGOS 至少有三个值得试的点：

跨任务复用同一个模型权重。不用为口袋预测、分子生成、retrosynthesis 各自维护一套 checkpoint，推理基建可以大幅简化。
1B 量级跑得动。单卡 4090 就能推，部署在本地实验室也现实。
prompt-based 任务定义。给前缀、续写的范式意味着研究员可以快速试新任务，不用写训练代码。

短板也得提：参考资料没披露完整的 benchmark 细节，所谓"匹配或超越 NatureLM"具体是哪几个 metric、和最新的领域 SOTA（比如 RFdiffusion、Boltz、Chai-1）比起来怎么样，目前看不到。开源模型权重和 evaluation pipeline 出来之后，社区会很快验证。

另一个开放问题是 scaling 行为。LOGOS-1B 是起点，如果科学语法这套设计真的成立，那 LOGOS-7B、LOGOS-70B 应该会显示出比 NatureLM 更陡的 scaling curve。这是接下来半年值得盯的事。

写在最后

AI for Science 这两年的主旋律一直是"大力出奇迹"——AlphaFold 系列、RoseTTAFold、Boltz、各种 diffusion-based docking 模型，大家都在堆参数、堆数据、堆几何先验。LOGOS 给出的是另一个方向：先把表示统一好，再让模型学。这跟 NLP 从 word2vec 到 GPT 的路径很像，从"为每个任务设计特征"走向"让通用模型学习通用表征"。

微软 NatureLM 开了头，阿里 LOGOS 用更小的参数把这条路走得更深。对国内做 AI for Science 的团队来说，能用上一个 1B 量级、覆盖蛋白-小分子-材料的开源基座，门槛降了不止一档。模型权重和代码已经开源，感兴趣的可以直接拉下来跑。

参考来源

阿里开源首个统一科学大模型 LOGOS，仅用 1/56 参数超越微软 NatureLM - IT之家：LOGOS 发布的主要中文报道，包含模型架构、预训练语料构成和 form-objective alignment 设计细节。

阿里开源LOGOS：1B参数干翻微软56倍大的NatureLM

阿里开源LOGOS：1B参数干翻微软56倍大的NatureLM，统一科学语法范式来了

先把这个对比放清楚

44.87B tokens 的预训练语料，怎么拼出来的

"文字描述法" 怎么干掉 3D 几何网络

form-objective alignment：解决科学AI最尴尬的事

1B vs 8×7B：为什么差距这么大

这事对开发者意味着什么

写在最后

参考来源

相关推荐

Transformer之父二次出走：Noam Shazeer离开谷歌投奔OpenAI

蔚来世界模型大更新：70万车主同步升级，直出方向盘信号

腾讯给Agent发了张邮箱身份证：Agently Mail上线

联系我们