富士通PHOTON架构:475倍性能背后的取舍

富士通发布PHOTON架构,在1.2B小模型多查询场景下性能达Transformer的475倍,但代价是「略低的质量」。这是一场针对特定场景的效率革命,还是又一个benchmarketing游戏?
富士通PHOTON架构:475倍性能背后的取舍
富士通昨天发布了PHOTON(Parallel Hierarchical cOmputation from Top-down Network)架构,宣称在1.2B参数模型的多查询场景下,性能可达主流Transformer架构的475倍。这个数字足够吸引眼球,但藏在PPT后面的那句「略低的质量」才是关键——这不是Transformer的替代品,而是一个为特定场景设计的专用方案。
Transformer的老问题:访存墙
富士通瞄准的痛点很实在:Transformer在长上下文和多线程处理时会疯狂访存。每次生成token都要读取完整的KV Cache,上下文越长、并发越高,内存带宽就越成为瓶颈。这不是算力问题,是访存速度跟不上计算速度——GPU的FLOPS在涨,但HBM带宽的增长远远落后。
这在智能体(Agent)系统里尤其明显:一个请求可能触发多条推理路径,每条路径都要维护独立的KV Cache,内存占用和访存开销呈线性增长。Tree-of-Thought、Self-Consistency这类需要生成多个候选答案再做决策的场景,Transformer的架构特性直接成了性能杀手。
PHOTON做了什么:语义分层+并行决策
PHOTON的核心思路是把计算粒度从token级提升到语义级,通过两个设计降低复杂度:
1. 语义层级分割
Transformer按token切分序列,每个token都要与历史所有token做注意力计算,复杂度O(n²)。PHOTON改成按语义单元分层:先识别句子、段落等高层结构,再在层级内部做局部计算。
这类似把文档处理从「逐字符扫描」改成「先解析章节目录,再处理具体段落」。好处是并行性更好——不同语义单元可以独立计算,不需要等前序token全部处理完;坏处是需要额外的语义分割模块,而且分割错了会直接影响理解质量。
2. 多查询的并行决策
传统多查询流程是串行的:生成N个候选答案,再用另一个模型或规则选出最佳。PHOTON把决策融入推理过程,通过「多数投票」或「最优选择」机制在一次前向传播中完成。
这个设计很激进。它假设多个候选答案可以并行生成且相互独立,最后用简单的投票或打分决定输出。在某些场景下(比如分类任务、多项选择)这没问题,但在开放生成任务里,「最佳答案」本身就需要复杂推理,用简单规则替代很可能损失质量。
475倍从哪来:小模型+特定场景
测试结果里有几个细节值得注意:
- 模型规模:600M、900M、1.2B,都是小模型。没有7B、70B的数据
- 性能指标:「迭代吞吐量」,不是端到端延迟或总生成时间
- 质量代价:「略低的质量」,没给具体的benchmark分数
- 场景限定:多查询场景,不是单轮对话或长文本生成
475倍的对比基准也很关键:是跟原生Transformer比,还是跟Flash Attention、PagedAttention等优化方案比?如果是前者,这个数字的含金量要打折扣——业界部署的Transformer推理系统早就不是vanilla实现了。
KV Cache的优化确实是实打实的优势。PHOTON每次迭代需要的KV Cache更少,意味着可以在相同显存下支持更长上下文或更高并发。对于需要大量并行推理的Agent系统,这能显著降低GPU成本。但前提是你的任务真的需要多查询,而且能接受质量损失。
这不是Transformer杀手
PHOTON的定位很清晰:它不是要取代Transformer,而是在特定场景下提供更高性价比的选择。
适合的场景:
- Agent系统的多路径规划
- 需要Self-Consistency的推理任务(生成多个答案取最一致的)
- 资源受限环境下的小模型部署
- 高并发、短上下文的分类或抽取任务
不适合的场景:
- 需要高质量长文本生成的场景
- 对准确性要求极高的任务(医疗、法律)
- 需要细粒度上下文理解的复杂对话
- 大模型部署(目前只验证了1.2B以下)
从工程角度看,PHOTON更像是一个针对特定workload的优化方案,而不是通用架构升级。类似的思路在Mamba、RWKV等线性注意力架构里也有体现:用架构创新换取推理效率,代价是在某些任务上的表现不如Transformer。
语义分层的老问题
PHOTON的语义分层设计听起来合理,但实际上是个几十年的老问题。早在Transformer之前,NLP领域就有大量基于句法树、依存分析的层级模型,最后都被端到端的深度学习方案替代了。
原因很简单:语义边界很难定义。什么算一个语义单元?句子?从句?还是语义角色?不同任务、不同语言的答案都不一样。如果用规则切分,很难泛化;如果用模型学习,又引入了额外的计算开销和误差传播。
Transformer的成功恰恰在于它绕开了这个问题:不做任何语言学假设,让模型自己从数据里学到最优的表示。PHOTON重新引入语义分层,必然要面对当年那些未解决的挑战。
富士通的论文里没有详细说明语义分割的具体实现,这是个关键遗漏。如果分割模块本身很重,那475倍的性能提升可能大部分被前处理吃掉了;如果分割质量不高,后续计算再快也是garbage in, garbage out。
小模型的春天?
PHOTON目前只在1.2B以下的小模型上验证,这可能不是巧合。小模型的推理本身就更快,多查询场景下的瓶颈更明显地集中在访存和并发调度上——正好是PHOTON优化的方向。
这也暗示了一个可能性:PHOTON或许不是为了挑战GPT-4、Claude 3.5这些大模型,而是为小模型找新的应用场景。在端侧部署、嵌入式系统、成本敏感的SaaS服务里,1B级别的模型配合专用架构,可能比动辄70B的通用大模型更实用。
OpenAI的o1系列已经证明,推理时计算(inference-time compute)可以显著提升小模型的能力。如果PHOTON能把多路径推理的成本降到可接受范围,1B模型+100次并行推理,可能比10B模型+10次推理更有优势。
但这里有个前提:质量损失必须可控。富士通只说了「略低」,没给具体数据。在实际应用中,5%的质量下降可能是可接受的,但15%就完全不行。没有详细的benchmark对比,很难判断PHOTON在真实任务上的可用性。
工程落地的现实问题
即使PHOTON的性能数据全部属实,落地也不容易:
生态适配:整个LLM工具链都是围绕Transformer设计的,从训练框架(PyTorch、JAX)到推理引擎(vLLM、TensorRT-LLM)再到上层应用(LangChain、LlamaIndex)。切换架构意味着要重写大量基础设施。
模型训练:富士通没有公开预训练好的模型,只发布了架构。这意味着开发者要从头训练,成本和时间都不低。除非富士通后续开源预训练权重,否则很难形成生态。
硬件适配:PHOTON的并行特性是否能充分利用现有GPU?还是需要特定的编译器或kernel优化?这些细节论文里都没提,但直接影响实际性能。
质量验证:「略低的质量」需要在真实任务上验证。MMLU、HumanEval这些标准benchmark的分数是多少?在RAG、Agent、代码生成等实际应用中表现如何?没有这些数据,很难说服开发者切换架构。
这是创新还是benchmarketing?
475倍这个数字很容易让人想起行业里的benchmarketing传统:选一个对自己有利的场景,对比一个未优化的基线,得出一个惊人的倍数。
不是说富士通在造假,而是这类对比需要更多上下文:
- 对比的Transformer实现是什么?原生PyTorch还是优化过的推理引擎?
- 测试的硬件环境是什么?batch size、并发数、序列长度的设置?
- 475倍是峰值还是平均值?在哪个参数规模、哪个任务上达到的?
- 质量损失具体是多少?在哪些任务上可接受,哪些不行?
没有这些细节,475倍就只是一个营销数字。学术界和工业界都见过太多这样的claim,最后发现在真实场景下性能提升远没有那么夸张。
富士通作为传统IT厂商,在AI领域的存在感不如OpenAI、Anthropic、Google这些明星公司。发布一个激进的架构和惊人的性能数字,更像是在刷存在感,而不是真的要推动技术革命。
值得关注的方向
尽管有这些质疑,PHOTON指向的方向是对的:针对特定workload做架构优化。
Transformer是一个通用架构,在各类NLP任务上都表现不错,但也意味着在任何单一任务上都不是最优的。过去几年,学术界和工业界一直在探索针对特定场景的专用架构:
- 长上下文:Mamba、RWKV等线性注意力模型
- 推理加速:Speculative Decoding、Medusa等多token预测
- 资源受限:MobileLLM、TinyLlama等小模型优化
- 多模态:Flamingo、BLIP等模态融合架构
PHOTON可以看作是这个趋势的延续:用架构创新换取特定场景下的效率提升。如果富士通能开源模型、公开详细的benchmark数据、提供完整的训练和部署工具链,PHOTON可能真的会在Agent、多查询推理等细分场景找到应用。
但如果只是发个新闻稿、扔个PPT,那这就是又一个「革命性突破」的故事,讲完就过去了。
对开发者的启示
如果你在做Agent系统或需要大量并行推理的应用,PHOTON的思路值得借鉴,即使不用它的具体实现:
-
重新审视你的访存模式:KV Cache的大小和访问频率是推理性能的关键瓶颈。能不能通过缓存策略、动态剪枝、分层存储来优化?
-
并行推理的架构设计:如果你的任务需要生成多个候选答案,能不能在推理框架层面做并行化,而不是串行调用模型N次?
-
小模型+推理时计算:不要迷信大模型。在很多场景下,1B模型+clever inference可能比70B模型+简单采样更有效。
-
场景专用优化:不要期待一个架构解决所有问题。根据你的workload特点(上下文长度、并发数、质量要求),选择或定制最合适的方案。
Transformer统治NLP的时代可能不会马上结束,但它的霸权正在被挑战。PHOTON、Mamba、RWKV、SSM这些新架构,每个都在某个维度上做出了tradeoff。未来的AI系统可能不是单一架构,而是针对不同任务组合使用多种架构的混合体。
富士通的PHOTON能不能成为其中之一,取决于他们后续能不能拿出更多实质性的东西。475倍的数字很惊艳,但代码、模型和真实benchmark才是检验标准。

参考来源
- 富士通介绍 PHOTON 框架:1.2B 模型多查询性能 475 倍于 Transformer - IT之家 - 原始新闻报道,包含架构基本信息和测试数据



