开发者 lycohana 上线开源桌面应用 BiliSum，用 LLM 选帧加 VLM 理解的两段式架构压低多模态视频笔记成本，支持 B 站、YouTube 和本地视频，兼容 OpenAI API 协议。

BiliSum 开源：把视频笔记的成本算明白了

5 月中旬，开发者 lycohana 在 GitHub 上线了 BiliSum——一款面向 Bilibili、YouTube 和本地视频的桌面端 AI 视频摘要工具。看名字就知道目标用户是谁：那些刷 B 站学技术、看公开课、追开源项目讲解，但又懒得回头复盘的人。

视频摘要这个赛道并不新。BibiGPT、NotebookLM、NoteGPT，加上同样做开源桌面客户端的 BiliNote，再到各种浏览器插件，能做"视频转笔记"的工具一抓一大把。那 BiliSum 凭什么值得开发者多看一眼？答案在它最新的版本说明里：图文笔记功能上线，但成本被刻意压住了。

多模态视频理解的成本陷阱

要理解 BiliSum 这个版本的价值，得先聊聊视频多模态理解的成本结构。

最朴素的做法，是把视频抽帧（比如每秒一帧或每 5 秒一帧），全部丢给视觉语言模型（VLM）逐帧理解，再让大语言模型（LLM）汇总。这条路跑得通，但代价惊人——一个 30 分钟的教程视频，按每 5 秒抽一帧算就是 360 张图片，跑一遍 GPT-4o vision 或 Claude Sonnet 4 的视觉接口，账单足以让人退订。

另一种偷懒的做法是只跑语音转写（ASR），把视频当播客处理。这是 BibiGPT 早期的主要做法，也是绝大多数轻量工具的默认路径。问题在于，纯文本完全丢失了画面信息——演示型视频、PPT 讲解、代码演示、UI 操作教程，这些场景里画面比口播信息密度高得多。你听一段 React 教程的口播，是没法知道屏幕上具体写了什么代码的。

BiliSum 的思路是个折中：让 LLM 先读完整段语音转写文本，识别出哪些时间点是"关键画面"，再针对这些时间点截图、交给 VLM 理解，最后把图像理解结果回填到笔记里。

BiliSum 主界面截图，类 Bilibili 风格的视频流列表

这个流程其实有点像人类看视频做笔记的方式：你不会盯着每一帧都仔细看，而是先听老师讲，听到"看屏幕上这段代码"或者"注意这张图表"的时候才回头去看画面。BiliSum 把这个过程自动化了，VLM 调用次数从几百次砍到十几次，成本直接下降一两个数量级。

按作者的原话："使用多模态理解图片成本会增加些许，日常使用纯文本笔记也足够强大！"翻译过来就是：图文笔记是个增量功能，开关在你手上，不一定要打开。这种对成本的诚实态度在 AI 工具里其实不太常见——很多产品恨不得让你每次调用都把所有模态都跑一遍。

产品形态：从"工具感"到"应用感"

BiliSum 是一个桌面端应用而不是 Web 服务，这是它和 BibiGPT 这类 SaaS 产品最大的差异。

界面设计直接借鉴了 B 站主页的视频流布局：左侧是视频列表，封面、标题、时长一目了然，右侧是详细笔记内容。如果你是重度 B 站用户，第一眼会有亲切感。这种设计的好处是把"看视频"和"读笔记"做成了一个连续的工作流——视频不再是产生笔记的临时素材，而是和笔记一起被沉淀下来的知识库条目。

笔记输出有三种形态：

文字笔记：纯文本的结构化总结，按章节组织
图文笔记：在文字笔记基础上嵌入 VLM 理解过的关键画面截图
思维导图：把视频内容拆成树状结构

另外还有个"一图省流"功能，一键把整个视频压缩成一张可分享的长图——这是个很有 B 站文化味道的设计，对于想在朋友圈或者群里二次传播的场景很合适。

高度自定义：把模型选择权交给用户

桌面应用这个形态决定了 BiliSum 必须支持本地部署，否则就失去了相对于 SaaS 产品的优势。在这一点上 BiliSum 做得相当到位。

语音转写部分，支持三条路线：

在线 ASR 服务（默认对接硅基流动，新用户免费额度够用）
本地部署 ASR（一键安装 CUDA 转写环境，对没配过 Python 环境的用户也算友好）
任何兼容 OpenAI 协议的语音转写接口

LLM 和 VLM 部分，因为兼容 OpenAI API 协议，理论上可以接任何主流模型。这意味着你既可以用 GPT-4.1、Claude Sonnet 4、Gemini 2.5 Pro 这些闭源旗舰，也可以接本地跑的 Qwen2.5-VL、GLM-4V、InternVL 这类开源多模态模型。对于注重数据隐私或者想严格控制成本的用户，这个选择空间很关键。

想试不同模型对视频理解效果差异的话，OpenAI Hub 这类聚合平台支持一个 Key 切换 GPT、Claude、Gemini、DeepSeek，国内直连，比同时维护多份凭证省事——配置 BaseURL 时填聚合平台的地址即可。

BiliSum 图文笔记输出示例，包含文字、关键画面截图和章节结构

和 BiliNote、BibiGPT 横向比

视频笔记工具这个赛道挤得很，简单做个横向对比：

BibiGPT：早期产品，2023 年就有了，主打 Web 端的快速摘要。优势是即开即用、对中文优化好，但闭源、按次收费、隐私性弱，重度用户成本会上去。

BiliNote（JefferyHcool 的项目）：和 BiliSum 思路接近的开源项目，比 BiliSum 早一些，同样支持哔哩哔哩、YouTube、抖音。最近也加入了多模态视频理解开关和桌面客户端 4 步引导，整体思路上和 BiliSum 高度重合。

NotebookLM：Google 的产品，强项是音频生成（podcast 风格）和源文档对话，但对国内视频平台（B 站、抖音）支持很差，主要面向 YouTube 和 PDF。

BiliSum 的差异化：在开源同类里，它把"低成本多模态"作为核心卖点单独拎出来，并且对桌面应用的体验做了专门设计（类 B 站界面、一键 CUDA 环境、思维导图输出）。算是对 BiliNote 的一种回应——后者更偏向跨平台广度，前者更聚焦使用体验深度。

需要说明的是，BiliSum 和 BiliNote 命名上的相似性可能会让用户混淆，但定位上还是有区分的，使用前最好都跑一下试试。

一些值得注意的设计细节

翻看代码和文档，有几个点能看出作者的思考：

VLM 调用是可关闭的。前面说过，作者在介绍里强调"日常使用纯文本笔记也足够强大"。这种克制在工具类产品里很重要——不强行把所有功能塞给用户，让用户根据场景自选。
ASR 默认接硅基流动。这是个聪明的选择。硅基流动免费额度对个人用户够用，国内访问稳定，对没有海外信用卡或不想配代理的用户极其友好。
思维导图作为输出形态。文字笔记适合阅读，思维导图适合复习——把同一份内容用两种方式呈现，对实际学习场景的覆盖更全。
桌面端 + 本地化数据。视频笔记本质上是个人知识库，长期沉淀的价值远高于一次性使用。桌面端的形态让数据天然属于用户，不用担心 SaaS 服务停服带来的迁移问题。

还需要解决什么

挑刺时间。从开发者视角看，BiliSum 目前还有几个需要打磨的地方：

视频源支持有限。目前只覆盖 B 站、YouTube 和本地文件。抖音、小红书、快手、X、TikTok 都没接，对内容来源更杂的用户来说够呛。作者的 Roadmap 里写了"接入更多视频平台"，但优先级不明。

没有跨设备同步。桌面应用的好处是数据本地化，坏处是换台机器就得从头来。如果有可选的同步方案（比如对接私有 WebDAV 或者 S3），价值会大很多。

长视频处理体验。一两个小时以上的播客类视频，无论是 ASR 还是 LLM 总结都会遇到上下文窗口和处理时长的问题，这块需要看实测。

提示词模板。Roadmap 提到了"提示词自定义模板"，这其实是核心需求——技术教程、人文讲座、新闻评论、产品演示，每种视频类型适合的笔记结构都不一样。模板系统做得好的话，工具的边际价值会显著上升。

写在最后

BiliSum 不是革命性的产品，但它在视频笔记这个赛道里的定位很清晰：开源、桌面端、对成本敏感、对国内用户友好。

放在 2026 年这个时间点看，多模态模型已经足够强大，瓶颈早就不是"能不能理解视频"而是"理解视频值不值这个钱"。BiliSum 用 LLM 选帧 + VLM 理解的两段式架构，给出了一个工程上可行的答案——不是最完美的，但是最务实的。

对于想用 AI 沉淀视频学习内容、又不想被 SaaS 订阅绑定的开发者，这个项目值得加到 watch list 里。如果你之前用过 BiliNote，也可以试试 BiliSum 看看哪种交互更适合自己——反正都开源，切换成本不高。

参考来源

GitHub - lycohana/BiliSum - BiliSum 项目主仓库，包含完整源码、安装文档和 Roadmap
GitHub - JefferyHcool/BiliNote - 同类开源项目 BiliNote，支持哔哩哔哩、YouTube、抖音多平台视频笔记生成
linux.do 开源推广帖 - 作者在 LINUX DO 社区发布的项目介绍原帖，含界面截图与功能说明

BiliSum 开源：低成本多模态视频笔记