开发者基于 PaperBanana 改造推出中文版科研配图生成工具，支持接入任意 OpenAI 兼容 API，解决了原版绑定官方接口、中转站配置困难的痛点。

PaperBanana-CN：科研生图工具开源，支持自定义 API 接入

开发者 Mylszd 近日在 Linux.do 社区开源了 PaperBanana-CN，这是一个基于 PaperBanana 改造的中文科研配图生成工具。核心改进是支持用户自定义模型 API 接入，不再绑定 Gemini 或 OpenAI 官方接口，直接解决了国内用户使用中转站的配置难题。

这个项目的出发点很实在：作者在做论文配图时，习惯用大模型先跑几版草图找思路，但市面上的开源科研生图工具要么把 API 绑死，要么配置中转站的流程复杂到劝退。尤其是 GPT Image 2 发布后，不少项目还没跟上适配。PaperBanana-CN 的思路是把 API 配置权完全交给用户：你有自己的大模型 URL 和 API Key，填进网页就能用。

解决了什么问题

科研配图生成工具的核心逻辑是多 Agent 流水线：输入论文方法章节和图注，模型自动生成多个候选方案，用户筛选后批量导出。这套流程在 PaperBanana 原版中已经跑通，但有两个明显的使用障碍：

API 绑定死：原版默认调用 Gemini 或 OpenAI 官方接口，国内用户要么科学上网，要么改代码接入中转站
配置门槛高：即使支持自定义 API，配置流程也不够直观，需要改配置文件或环境变量

PaperBanana-CN 的改进很直接：在网页界面里加了 Base URL 和 API Key 的输入框，支持任意 OpenAI 兼容的 API。这意味着你可以用 OpenAI Hub 这类聚合平台的接口，也可以用自己部署的本地模型服务，甚至可以用其他第三方中转站。API Key 会自动存储到本地，下次打开直接用。

适配 GPT Image 2，但不是最优选择

PaperBanana-CN 完整适配了 OpenAI 的 GPT Image 2，支持流式预览、Responses API 自动降级、参考图编辑、自定义尺寸等特性。但根据开发者测试，GPT Image 2 在这个场景下的效果不如 Banana Pro（PaperBanana 的另一个演化版本）。

原因在于能力重叠：GPT Image 2 的优势是文字稳定性和 zero-shot 生图能力，而 PaperBanana 的流水线本身就是为了稳定文字和风格一致性设计的。两者优势重叠，互补性不足。开发者的建议是，如果你有 Banana Pro 的接口，优先用 Banana Pro；如果只有 GPT Image 2，也能用，但效果会打折扣。

这个判断很务实。科研配图的核心需求是风格一致、文字清晰、符合学术规范，而不是追求艺术性或创意性。GPT Image 2 在通用场景下表现出色，但在这个垂直领域，专门训练的模型仍然更有优势。

典型使用场景

开发者列出了几个常用场景：

论文方法图：输入方法章节文字，生成流程图或架构图的候选方案
实验结果可视化：根据数据描述生成图表或对比图
概念示意图：把抽象概念转化为直观的视觉表达

这些场景的共同点是需要快速迭代。传统流程是研究者自己画草图，或者找设计师沟通需求，周期长、成本高。用大模型生成候选方案，可以把迭代周期压缩到分钟级，研究者只需要在候选方案中挑选和微调。

当前的局限性

开发者也坦诚列出了几个已知问题：

模型能力依赖：生成质量完全取决于你接入的模型。如果用的是能力较弱的模型，生成效果会明显下降
中文支持不完善：虽然界面汉化了,但模型对中文学术术语的理解仍然不如英文
风格一致性：多次生成的图片风格可能不一致，需要手动筛选
复杂图表支持有限：对于包含大量数据点或复杂关系的图表，生成效果不稳定

这些问题有些是工具层面可以优化的（比如加入风格锁定功能），有些则受限于底层模型能力（比如中文理解和复杂图表生成）。开发者在 GitHub 上开放了 issue 通道，鼓励用户反馈问题和需求。

技术实现细节

PaperBanana-CN 的核心是多 Agent 流水线，这套方法论最初由 PaperBanana 原作者在 Google 实习期间研发，Google 已就相关工作流申请了专利。这意味着这套流水线逻辑不能用于商业用途，PaperBanana-CN 作为开源项目，同样受此限制。

从技术架构看，PaperBanana-CN 做了以下改进：

API 抽象层：把模型调用逻辑抽象成统一接口，只要符合 OpenAI 格式，就能无缝接入
本地存储：API Key 和配置信息存储在本地，不上传到服务器
中文界面：所有提示词、按钮、说明文字都做了汉化
批量导出：支持一键打包下载所有候选方案，方便后续处理

安装方式也很简单，支持 pip 和 uv 两种方式：

# 使用 pip 安装
pip install paperbanana-cn

# 或使用 uv 安装
uv tool install paperbanana-cn

安装后直接在命令行启动，会自动打开网页界面。首次使用需要填入 Base URL 和 API Key，之后会自动保存。

与 PaperBanana-Pro 的关系

PaperBanana 生态里有两个主要的演化版本：PaperBanana-Pro 和 PaperBanana-CN。两者的定位不同：

PaperBanana-Pro：由 elpsykongloo 开发，经过 21 轮工程打磨和 70+ 单元测试覆盖，从学术原型演化为产品级工具。功能更完整，包括背景生成、绘图工作台、便携式结果包等高级特性
PaperBanana-CN：由 Mylszd 开发，专注解决中文用户和中转站用户的痛点。功能相对精简，但配置更灵活，上手更快

如果你需要完整的科研配图工作流，PaperBanana-Pro 是更好的选择。如果你只是想快速生成几张候选图，或者需要接入自己的模型服务，PaperBanana-CN 更合适。

对开发者的启发

PaperBanana-CN 的改造思路值得借鉴：很多开源工具在设计时默认绑定官方 API，这在国外用户看来是合理的选择，但对国内用户来说是明显的使用障碍。把 API 配置权交给用户，不仅降低了使用门槛，也让工具的适用场景更广。

这种改造的成本其实不高。核心是做好 API 抽象层，把模型调用逻辑和业务逻辑解耦。只要底层模型符合 OpenAI 格式（这已经是事实标准），就能无缝接入。对于需要接入多个模型的场景，OpenAI Hub 这类聚合平台可以进一步简化配置：一个 Key 调所有模型，不需要为每个模型单独配置。

另一个值得注意的点是开源协议。PaperBanana 的核心方法论受 Google 专利保护,不能用于商业用途。这对个人研究者和学术机构来说不是问题，但如果你想基于这套流水线做商业产品，需要另外设计方案或获得授权。

总结

PaperBanana-CN 解决了一个很具体的痛点：让国内用户能方便地用自己的模型服务生成科研配图。改进不复杂，但很实用。如果你经常需要做论文配图，或者想快速验证视觉方案，可以试试这个工具。

项目已在 GitHub 开源，代码质量和文档完整度都不错。开发者在社区里也比较活跃，issue 响应速度快。唯一需要注意的是商业使用限制，如果你的使用场景涉及商业化，需要提前确认授权问题。

参考来源

PaperBanana-CN GitHub 仓库 - 项目源码和文档
Linux.do 社区讨论帖 - 开发者发布的项目介绍和使用说明
PaperBanana-Pro GitHub 仓库 - 另一个演化版本,功能更完整