富士通发布PHOTON架构，在1.2B小模型多查询场景下性能达Transformer的475倍，但代价是「略低的质量」。这是一场针对特定场景的效率革命，还是又一个benchmarketing游戏？

富士通PHOTON架构：475倍性能背后的取舍

富士通昨天发布了PHOTON（Parallel Hierarchical cOmputation from Top-down Network）架构，宣称在1.2B参数模型的多查询场景下，性能可达主流Transformer架构的475倍。这个数字足够吸引眼球，但藏在PPT后面的那句「略低的质量」才是关键——这不是Transformer的替代品，而是一个为特定场景设计的专用方案。

Transformer的老问题：访存墙

富士通瞄准的痛点很实在：Transformer在长上下文和多线程处理时会疯狂访存。每次生成token都要读取完整的KV Cache，上下文越长、并发越高，内存带宽就越成为瓶颈。这不是算力问题，是访存速度跟不上计算速度——GPU的FLOPS在涨，但HBM带宽的增长远远落后。

这在智能体（Agent）系统里尤其明显：一个请求可能触发多条推理路径，每条路径都要维护独立的KV Cache，内存占用和访存开销呈线性增长。Tree-of-Thought、Self-Consistency这类需要生成多个候选答案再做决策的场景，Transformer的架构特性直接成了性能杀手。

PHOTON做了什么：语义分层+并行决策

PHOTON的核心思路是把计算粒度从token级提升到语义级，通过两个设计降低复杂度：

1. 语义层级分割

Transformer按token切分序列，每个token都要与历史所有token做注意力计算，复杂度O(n²)。PHOTON改成按语义单元分层：先识别句子、段落等高层结构，再在层级内部做局部计算。

这类似把文档处理从「逐字符扫描」改成「先解析章节目录，再处理具体段落」。好处是并行性更好——不同语义单元可以独立计算，不需要等前序token全部处理完；坏处是需要额外的语义分割模块，而且分割错了会直接影响理解质量。

2. 多查询的并行决策

传统多查询流程是串行的：生成N个候选答案，再用另一个模型或规则选出最佳。PHOTON把决策融入推理过程，通过「多数投票」或「最优选择」机制在一次前向传播中完成。

这个设计很激进。它假设多个候选答案可以并行生成且相互独立，最后用简单的投票或打分决定输出。在某些场景下（比如分类任务、多项选择）这没问题，但在开放生成任务里，「最佳答案」本身就需要复杂推理，用简单规则替代很可能损失质量。

475倍从哪来：小模型+特定场景

测试结果里有几个细节值得注意：

模型规模：600M、900M、1.2B，都是小模型。没有7B、70B的数据
性能指标：「迭代吞吐量」，不是端到端延迟或总生成时间
质量代价：「略低的质量」，没给具体的benchmark分数
场景限定：多查询场景，不是单轮对话或长文本生成

475倍的对比基准也很关键：是跟原生Transformer比，还是跟Flash Attention、PagedAttention等优化方案比？如果是前者，这个数字的含金量要打折扣——业界部署的Transformer推理系统早就不是vanilla实现了。

KV Cache的优化确实是实打实的优势。PHOTON每次迭代需要的KV Cache更少，意味着可以在相同显存下支持更长上下文或更高并发。对于需要大量并行推理的Agent系统，这能显著降低GPU成本。但前提是你的任务真的需要多查询，而且能接受质量损失。

这不是Transformer杀手

PHOTON的定位很清晰：它不是要取代Transformer，而是在特定场景下提供更高性价比的选择。

适合的场景：

Agent系统的多路径规划
需要Self-Consistency的推理任务（生成多个答案取最一致的）
资源受限环境下的小模型部署
高并发、短上下文的分类或抽取任务

不适合的场景：

需要高质量长文本生成的场景
对准确性要求极高的任务（医疗、法律）
需要细粒度上下文理解的复杂对话
大模型部署（目前只验证了1.2B以下）

从工程角度看，PHOTON更像是一个针对特定workload的优化方案，而不是通用架构升级。类似的思路在Mamba、RWKV等线性注意力架构里也有体现：用架构创新换取推理效率，代价是在某些任务上的表现不如Transformer。

语义分层的老问题

PHOTON的语义分层设计听起来合理，但实际上是个几十年的老问题。早在Transformer之前，NLP领域就有大量基于句法树、依存分析的层级模型，最后都被端到端的深度学习方案替代了。

原因很简单：语义边界很难定义。什么算一个语义单元？句子？从句？还是语义角色？不同任务、不同语言的答案都不一样。如果用规则切分，很难泛化；如果用模型学习，又引入了额外的计算开销和误差传播。

Transformer的成功恰恰在于它绕开了这个问题：不做任何语言学假设，让模型自己从数据里学到最优的表示。PHOTON重新引入语义分层，必然要面对当年那些未解决的挑战。

富士通的论文里没有详细说明语义分割的具体实现，这是个关键遗漏。如果分割模块本身很重，那475倍的性能提升可能大部分被前处理吃掉了；如果分割质量不高，后续计算再快也是garbage in, garbage out。

小模型的春天？

PHOTON目前只在1.2B以下的小模型上验证，这可能不是巧合。小模型的推理本身就更快，多查询场景下的瓶颈更明显地集中在访存和并发调度上——正好是PHOTON优化的方向。

这也暗示了一个可能性：PHOTON或许不是为了挑战GPT-4、Claude 3.5这些大模型，而是为小模型找新的应用场景。在端侧部署、嵌入式系统、成本敏感的SaaS服务里，1B级别的模型配合专用架构，可能比动辄70B的通用大模型更实用。

OpenAI的o1系列已经证明，推理时计算（inference-time compute）可以显著提升小模型的能力。如果PHOTON能把多路径推理的成本降到可接受范围，1B模型+100次并行推理，可能比10B模型+10次推理更有优势。

但这里有个前提：质量损失必须可控。富士通只说了「略低」，没给具体数据。在实际应用中，5%的质量下降可能是可接受的，但15%就完全不行。没有详细的benchmark对比，很难判断PHOTON在真实任务上的可用性。

工程落地的现实问题

即使PHOTON的性能数据全部属实，落地也不容易：

生态适配：整个LLM工具链都是围绕Transformer设计的，从训练框架（PyTorch、JAX）到推理引擎（vLLM、TensorRT-LLM）再到上层应用（LangChain、LlamaIndex）。切换架构意味着要重写大量基础设施。

模型训练：富士通没有公开预训练好的模型，只发布了架构。这意味着开发者要从头训练，成本和时间都不低。除非富士通后续开源预训练权重，否则很难形成生态。

硬件适配：PHOTON的并行特性是否能充分利用现有GPU？还是需要特定的编译器或kernel优化？这些细节论文里都没提，但直接影响实际性能。

质量验证：「略低的质量」需要在真实任务上验证。MMLU、HumanEval这些标准benchmark的分数是多少？在RAG、Agent、代码生成等实际应用中表现如何？没有这些数据，很难说服开发者切换架构。

这是创新还是benchmarketing？

475倍这个数字很容易让人想起行业里的benchmarketing传统：选一个对自己有利的场景，对比一个未优化的基线，得出一个惊人的倍数。

不是说富士通在造假，而是这类对比需要更多上下文：

对比的Transformer实现是什么？原生PyTorch还是优化过的推理引擎？
测试的硬件环境是什么？batch size、并发数、序列长度的设置？
475倍是峰值还是平均值？在哪个参数规模、哪个任务上达到的？
质量损失具体是多少？在哪些任务上可接受，哪些不行？

没有这些细节，475倍就只是一个营销数字。学术界和工业界都见过太多这样的claim，最后发现在真实场景下性能提升远没有那么夸张。

富士通作为传统IT厂商，在AI领域的存在感不如OpenAI、Anthropic、Google这些明星公司。发布一个激进的架构和惊人的性能数字，更像是在刷存在感，而不是真的要推动技术革命。

值得关注的方向

尽管有这些质疑，PHOTON指向的方向是对的：针对特定workload做架构优化。

Transformer是一个通用架构，在各类NLP任务上都表现不错，但也意味着在任何单一任务上都不是最优的。过去几年，学术界和工业界一直在探索针对特定场景的专用架构：

长上下文：Mamba、RWKV等线性注意力模型
推理加速：Speculative Decoding、Medusa等多token预测
资源受限：MobileLLM、TinyLlama等小模型优化
多模态：Flamingo、BLIP等模态融合架构

PHOTON可以看作是这个趋势的延续：用架构创新换取特定场景下的效率提升。如果富士通能开源模型、公开详细的benchmark数据、提供完整的训练和部署工具链，PHOTON可能真的会在Agent、多查询推理等细分场景找到应用。

但如果只是发个新闻稿、扔个PPT，那这就是又一个「革命性突破」的故事，讲完就过去了。

对开发者的启示

如果你在做Agent系统或需要大量并行推理的应用，PHOTON的思路值得借鉴，即使不用它的具体实现：

重新审视你的访存模式：KV Cache的大小和访问频率是推理性能的关键瓶颈。能不能通过缓存策略、动态剪枝、分层存储来优化？
并行推理的架构设计：如果你的任务需要生成多个候选答案，能不能在推理框架层面做并行化，而不是串行调用模型N次？
小模型+推理时计算：不要迷信大模型。在很多场景下，1B模型+clever inference可能比70B模型+简单采样更有效。
场景专用优化：不要期待一个架构解决所有问题。根据你的workload特点（上下文长度、并发数、质量要求），选择或定制最合适的方案。

Transformer统治NLP的时代可能不会马上结束，但它的霸权正在被挑战。PHOTON、Mamba、RWKV、SSM这些新架构，每个都在某个维度上做出了tradeoff。未来的AI系统可能不是单一架构，而是针对不同任务组合使用多种架构的混合体。

富士通的PHOTON能不能成为其中之一，取决于他们后续能不能拿出更多实质性的东西。475倍的数字很惊艳，但代码、模型和真实benchmark才是检验标准。

不同架构在多查询场景下的性能和质量对比雷达图

参考来源

富士通介绍 PHOTON 框架：1.2B 模型多查询性能 475 倍于 Transformer - IT之家 - 原始新闻报道，包含架构基本信息和测试数据

富士通PHOTON架构：475倍性能背后的取舍

富士通PHOTON架构：475倍性能背后的取舍

Transformer的老问题：访存墙

PHOTON做了什么：语义分层+并行决策

1. 语义层级分割

2. 多查询的并行决策

475倍从哪来：小模型+特定场景

这不是Transformer杀手

语义分层的老问题

小模型的春天？

工程落地的现实问题

这是创新还是benchmarketing？

值得关注的方向

对开发者的启示

参考来源

相关推荐

商汤押注设计赛道，U1 Pro 对标 GPT-Image 2

RoboScience发布Visics大模型：VLOA架构首次公开

Anthropic 指控阿里蒸馏攻击：2880 万次交互背后的 AI 军备竞赛

联系我们