PaperBanana-CN:科研生图工具开源,支持自定义 API 接入

模型上新

开发者基于 PaperBanana 改造推出中文版科研配图生成工具,支持接入任意 OpenAI 兼容 API,解决了原版绑定官方接口、中转站配置困难的痛点。

PaperBanana-CN:科研生图工具开源,支持自定义 API 接入

开发者 Mylszd 近日在 Linux.do 社区开源了 PaperBanana-CN,这是一个基于 PaperBanana 改造的中文科研配图生成工具。核心改进是支持用户自定义模型 API 接入,不再绑定 Gemini 或 OpenAI 官方接口,直接解决了国内用户使用中转站的配置难题。

这个项目的出发点很实在:作者在做论文配图时,习惯用大模型先跑几版草图找思路,但市面上的开源科研生图工具要么把 API 绑死,要么配置中转站的流程复杂到劝退。尤其是 GPT Image 2 发布后,不少项目还没跟上适配。PaperBanana-CN 的思路是把 API 配置权完全交给用户:你有自己的大模型 URL 和 API Key,填进网页就能用。

解决了什么问题

科研配图生成工具的核心逻辑是多 Agent 流水线:输入论文方法章节和图注,模型自动生成多个候选方案,用户筛选后批量导出。这套流程在 PaperBanana 原版中已经跑通,但有两个明显的使用障碍:

  1. API 绑定死:原版默认调用 Gemini 或 OpenAI 官方接口,国内用户要么科学上网,要么改代码接入中转站
  2. 配置门槛高:即使支持自定义 API,配置流程也不够直观,需要改配置文件或环境变量

PaperBanana-CN 的改进很直接:在网页界面里加了 Base URL 和 API Key 的输入框,支持任意 OpenAI 兼容的 API。这意味着你可以用 OpenAI Hub 这类聚合平台的接口,也可以用自己部署的本地模型服务,甚至可以用其他第三方中转站。API Key 会自动存储到本地,下次打开直接用。

适配 GPT Image 2,但不是最优选择

PaperBanana-CN 完整适配了 OpenAI 的 GPT Image 2,支持流式预览、Responses API 自动降级、参考图编辑、自定义尺寸等特性。但根据开发者测试,GPT Image 2 在这个场景下的效果不如 Banana Pro(PaperBanana 的另一个演化版本)。

原因在于能力重叠:GPT Image 2 的优势是文字稳定性和 zero-shot 生图能力,而 PaperBanana 的流水线本身就是为了稳定文字和风格一致性设计的。两者优势重叠,互补性不足。开发者的建议是,如果你有 Banana Pro 的接口,优先用 Banana Pro;如果只有 GPT Image 2,也能用,但效果会打折扣。

这个判断很务实。科研配图的核心需求是风格一致、文字清晰、符合学术规范,而不是追求艺术性或创意性。GPT Image 2 在通用场景下表现出色,但在这个垂直领域,专门训练的模型仍然更有优势。

典型使用场景

开发者列出了几个常用场景:

  • 论文方法图:输入方法章节文字,生成流程图或架构图的候选方案
  • 实验结果可视化:根据数据描述生成图表或对比图
  • 概念示意图:把抽象概念转化为直观的视觉表达

这些场景的共同点是需要快速迭代。传统流程是研究者自己画草图,或者找设计师沟通需求,周期长、成本高。用大模型生成候选方案,可以把迭代周期压缩到分钟级,研究者只需要在候选方案中挑选和微调。

当前的局限性

开发者也坦诚列出了几个已知问题:

  1. 模型能力依赖:生成质量完全取决于你接入的模型。如果用的是能力较弱的模型,生成效果会明显下降
  2. 中文支持不完善:虽然界面汉化了,但模型对中文学术术语的理解仍然不如英文
  3. 风格一致性:多次生成的图片风格可能不一致,需要手动筛选
  4. 复杂图表支持有限:对于包含大量数据点或复杂关系的图表,生成效果不稳定

这些问题有些是工具层面可以优化的(比如加入风格锁定功能),有些则受限于底层模型能力(比如中文理解和复杂图表生成)。开发者在 GitHub 上开放了 issue 通道,鼓励用户反馈问题和需求。

技术实现细节

PaperBanana-CN 的核心是多 Agent 流水线,这套方法论最初由 PaperBanana 原作者在 Google 实习期间研发,Google 已就相关工作流申请了专利。这意味着这套流水线逻辑不能用于商业用途,PaperBanana-CN 作为开源项目,同样受此限制。

从技术架构看,PaperBanana-CN 做了以下改进:

  • API 抽象层:把模型调用逻辑抽象成统一接口,只要符合 OpenAI 格式,就能无缝接入
  • 本地存储:API Key 和配置信息存储在本地,不上传到服务器
  • 中文界面:所有提示词、按钮、说明文字都做了汉化
  • 批量导出:支持一键打包下载所有候选方案,方便后续处理

安装方式也很简单,支持 pip 和 uv 两种方式:

# 使用 pip 安装
pip install paperbanana-cn

# 或使用 uv 安装
uv tool install paperbanana-cn

安装后直接在命令行启动,会自动打开网页界面。首次使用需要填入 Base URL 和 API Key,之后会自动保存。

与 PaperBanana-Pro 的关系

PaperBanana 生态里有两个主要的演化版本:PaperBanana-Pro 和 PaperBanana-CN。两者的定位不同:

  • PaperBanana-Pro:由 elpsykongloo 开发,经过 21 轮工程打磨和 70+ 单元测试覆盖,从学术原型演化为产品级工具。功能更完整,包括背景生成、绘图工作台、便携式结果包等高级特性
  • PaperBanana-CN:由 Mylszd 开发,专注解决中文用户和中转站用户的痛点。功能相对精简,但配置更灵活,上手更快

如果你需要完整的科研配图工作流,PaperBanana-Pro 是更好的选择。如果你只是想快速生成几张候选图,或者需要接入自己的模型服务,PaperBanana-CN 更合适。

对开发者的启发

PaperBanana-CN 的改造思路值得借鉴:很多开源工具在设计时默认绑定官方 API,这在国外用户看来是合理的选择,但对国内用户来说是明显的使用障碍。把 API 配置权交给用户,不仅降低了使用门槛,也让工具的适用场景更广。

这种改造的成本其实不高。核心是做好 API 抽象层,把模型调用逻辑和业务逻辑解耦。只要底层模型符合 OpenAI 格式(这已经是事实标准),就能无缝接入。对于需要接入多个模型的场景,OpenAI Hub 这类聚合平台可以进一步简化配置:一个 Key 调所有模型,不需要为每个模型单独配置。

另一个值得注意的点是开源协议。PaperBanana 的核心方法论受 Google 专利保护,不能用于商业用途。这对个人研究者和学术机构来说不是问题,但如果你想基于这套流水线做商业产品,需要另外设计方案或获得授权。

总结

PaperBanana-CN 解决了一个很具体的痛点:让国内用户能方便地用自己的模型服务生成科研配图。改进不复杂,但很实用。如果你经常需要做论文配图,或者想快速验证视觉方案,可以试试这个工具。

项目已在 GitHub 开源,代码质量和文档完整度都不错。开发者在社区里也比较活跃,issue 响应速度快。唯一需要注意的是商业使用限制,如果你的使用场景涉及商业化,需要提前确认授权问题。


参考来源