PaperBanana-CN:科研生图工具开源,支持自定义 API 接入
开发者 Mylszd 近日在 Linux.do 社区开源了 PaperBanana-CN,这是一个基于 PaperBanana 改造的中文科研配图生成工具。核心改进是支持用户自定义模型 API 接入,不再绑定 Gemini 或 OpenAI 官方接口,直接解决了国内用户使用中转站的配置难题。
这个项目的出发点很实在:作者在做论文配图时,习惯用大模型先跑几版草图找思路,但市面上的开源科研生图工具要么把 API 绑死,要么配置中转站的流程复杂到劝退。尤其是 GPT Image 2 发布后,不少项目还没跟上适配。PaperBanana-CN 的思路是把 API 配置权完全交给用户:你有自己的大模型 URL 和 API Key,填进网页就能用。
解决了什么问题
科研配图生成工具的核心逻辑是多 Agent 流水线:输入论文方法章节和图注,模型自动生成多个候选方案,用户筛选后批量导出。这套流程在 PaperBanana 原版中已经跑通,但有两个明显的使用障碍:
- API 绑定死:原版默认调用 Gemini 或 OpenAI 官方接口,国内用户要么科学上网,要么改代码接入中转站
- 配置门槛高:即使支持自定义 API,配置流程也不够直观,需要改配置文件或环境变量
PaperBanana-CN 的改进很直接:在网页界面里加了 Base URL 和 API Key 的输入框,支持任意 OpenAI 兼容的 API。这意味着你可以用 OpenAI Hub 这类聚合平台的接口,也可以用自己部署的本地模型服务,甚至可以用其他第三方中转站。API Key 会自动存储到本地,下次打开直接用。
适配 GPT Image 2,但不是最优选择
PaperBanana-CN 完整适配了 OpenAI 的 GPT Image 2,支持流式预览、Responses API 自动降级、参考图编辑、自定义尺寸等特性。但根据开发者测试,GPT Image 2 在这个场景下的效果不如 Banana Pro(PaperBanana 的另一个演化版本)。
原因在于能力重叠:GPT Image 2 的优势是文字稳定性和 zero-shot 生图能力,而 PaperBanana 的流水线本身就是为了稳定文字和风格一致性设计的。两者优势重叠,互补性不足。开发者的建议是,如果你有 Banana Pro 的接口,优先用 Banana Pro;如果只有 GPT Image 2,也能用,但效果会打折扣。
这个判断很务实。科研配图的核心需求是风格一致、文字清晰、符合学术规范,而不是追求艺术性或创意性。GPT Image 2 在通用场景下表现出色,但在这个垂直领域,专门训练的模型仍然更有优势。
典型使用场景
开发者列出了几个常用场景:
- 论文方法图:输入方法章节文字,生成流程图或架构图的候选方案
- 实验结果可视化:根据数据描述生成图表或对比图
- 概念示意图:把抽象概念转化为直观的视觉表达
这些场景的共同点是需要快速迭代。传统流程是研究者自己画草图,或者找设计师沟通需求,周期长、成本高。用大模型生成候选方案,可以把迭代周期压缩到分钟级,研究者只需要在候选方案中挑选和微调。
当前的局限性
开发者也坦诚列出了几个已知问题:
- 模型能力依赖:生成质量完全取决于你接入的模型。如果用的是能力较弱的模型,生成效果会明显下降
- 中文支持不完善:虽然界面汉化了,但模型对中文学术术语的理解仍然不如英文
- 风格一致性:多次生成的图片风格可能不一致,需要手动筛选
- 复杂图表支持有限:对于包含大量数据点或复杂关系的图表,生成效果不稳定
这些问题有些是工具层面可以优化的(比如加入风格锁定功能),有些则受限于底层模型能力(比如中文理解和复杂图表生成)。开发者在 GitHub 上开放了 issue 通道,鼓励用户反馈问题和需求。
技术实现细节
PaperBanana-CN 的核心是多 Agent 流水线,这套方法论最初由 PaperBanana 原作者在 Google 实习期间研发,Google 已就相关工作流申请了专利。这意味着这套流水线逻辑不能用于商业用途,PaperBanana-CN 作为开源项目,同样受此限制。
从技术架构看,PaperBanana-CN 做了以下改进:
- API 抽象层:把模型调用逻辑抽象成统一接口,只要符合 OpenAI 格式,就能无缝接入
- 本地存储:API Key 和配置信息存储在本地,不上传到服务器
- 中文界面:所有提示词、按钮、说明文字都做了汉化
- 批量导出:支持一键打包下载所有候选方案,方便后续处理
安装方式也很简单,支持 pip 和 uv 两种方式:
# 使用 pip 安装
pip install paperbanana-cn
# 或使用 uv 安装
uv tool install paperbanana-cn
安装后直接在命令行启动,会自动打开网页界面。首次使用需要填入 Base URL 和 API Key,之后会自动保存。
与 PaperBanana-Pro 的关系
PaperBanana 生态里有两个主要的演化版本:PaperBanana-Pro 和 PaperBanana-CN。两者的定位不同:
- PaperBanana-Pro:由 elpsykongloo 开发,经过 21 轮工程打磨和 70+ 单元测试覆盖,从学术原型演化为产品级工具。功能更完整,包括背景生成、绘图工作台、便携式结果包等高级特性
- PaperBanana-CN:由 Mylszd 开发,专注解决中文用户和中转站用户的痛点。功能相对精简,但配置更灵活,上手更快
如果你需要完整的科研配图工作流,PaperBanana-Pro 是更好的选择。如果你只是想快速生成几张候选图,或者需要接入自己的模型服务,PaperBanana-CN 更合适。
对开发者的启发
PaperBanana-CN 的改造思路值得借鉴:很多开源工具在设计时默认绑定官方 API,这在国外用户看来是合理的选择,但对国内用户来说是明显的使用障碍。把 API 配置权交给用户,不仅降低了使用门槛,也让工具的适用场景更广。
这种改造的成本其实不高。核心是做好 API 抽象层,把模型调用逻辑和业务逻辑解耦。只要底层模型符合 OpenAI 格式(这已经是事实标准),就能无缝接入。对于需要接入多个模型的场景,OpenAI Hub 这类聚合平台可以进一步简化配置:一个 Key 调所有模型,不需要为每个模型单独配置。
另一个值得注意的点是开源协议。PaperBanana 的核心方法论受 Google 专利保护,不能用于商业用途。这对个人研究者和学术机构来说不是问题,但如果你想基于这套流水线做商业产品,需要另外设计方案或获得授权。
总结
PaperBanana-CN 解决了一个很具体的痛点:让国内用户能方便地用自己的模型服务生成科研配图。改进不复杂,但很实用。如果你经常需要做论文配图,或者想快速验证视觉方案,可以试试这个工具。
项目已在 GitHub 开源,代码质量和文档完整度都不错。开发者在社区里也比较活跃,issue 响应速度快。唯一需要注意的是商业使用限制,如果你的使用场景涉及商业化,需要提前确认授权问题。
参考来源
- PaperBanana-CN GitHub 仓库 - 项目源码和文档
- Linux.do 社区讨论帖 - 开发者发布的项目介绍和使用说明
- PaperBanana-Pro GitHub 仓库 - 另一个演化版本,功能更完整