BiliSum 开源:低成本多模态视频笔记

模型上新

开发者 lycohana 上线开源桌面应用 BiliSum,用 LLM 选帧加 VLM 理解的两段式架构压低多模态视频笔记成本,支持 B 站、YouTube 和本地视频,兼容 OpenAI API 协议。

BiliSum 开源:把视频笔记的成本算明白了

5 月中旬,开发者 lycohana 在 GitHub 上线了 BiliSum——一款面向 Bilibili、YouTube 和本地视频的桌面端 AI 视频摘要工具。看名字就知道目标用户是谁:那些刷 B 站学技术、看公开课、追开源项目讲解,但又懒得回头复盘的人。

视频摘要这个赛道并不新。BibiGPT、NotebookLM、NoteGPT,加上同样做开源桌面客户端的 BiliNote,再到各种浏览器插件,能做"视频转笔记"的工具一抓一大把。那 BiliSum 凭什么值得开发者多看一眼?答案在它最新的版本说明里:图文笔记功能上线,但成本被刻意压住了。

多模态视频理解的成本陷阱

要理解 BiliSum 这个版本的价值,得先聊聊视频多模态理解的成本结构。

最朴素的做法,是把视频抽帧(比如每秒一帧或每 5 秒一帧),全部丢给视觉语言模型(VLM)逐帧理解,再让大语言模型(LLM)汇总。这条路跑得通,但代价惊人——一个 30 分钟的教程视频,按每 5 秒抽一帧算就是 360 张图片,跑一遍 GPT-4o vision 或 Claude Sonnet 4 的视觉接口,账单足以让人退订。

另一种偷懒的做法是只跑语音转写(ASR),把视频当播客处理。这是 BibiGPT 早期的主要做法,也是绝大多数轻量工具的默认路径。问题在于,纯文本完全丢失了画面信息——演示型视频、PPT 讲解、代码演示、UI 操作教程,这些场景里画面比口播信息密度高得多。你听一段 React 教程的口播,是没法知道屏幕上具体写了什么代码的。

BiliSum 的思路是个折中:让 LLM 先读完整段语音转写文本,识别出哪些时间点是"关键画面",再针对这些时间点截图、交给 VLM 理解,最后把图像理解结果回填到笔记里。

BiliSum 主界面截图,类 Bilibili 风格的视频流列表

这个流程其实有点像人类看视频做笔记的方式:你不会盯着每一帧都仔细看,而是先听老师讲,听到"看屏幕上这段代码"或者"注意这张图表"的时候才回头去看画面。BiliSum 把这个过程自动化了,VLM 调用次数从几百次砍到十几次,成本直接下降一两个数量级。

按作者的原话:"使用多模态理解图片成本会增加些许,日常使用纯文本笔记也足够强大!"翻译过来就是:图文笔记是个增量功能,开关在你手上,不一定要打开。这种对成本的诚实态度在 AI 工具里其实不太常见——很多产品恨不得让你每次调用都把所有模态都跑一遍。

产品形态:从"工具感"到"应用感"

BiliSum 是一个桌面端应用而不是 Web 服务,这是它和 BibiGPT 这类 SaaS 产品最大的差异。

界面设计直接借鉴了 B 站主页的视频流布局:左侧是视频列表,封面、标题、时长一目了然,右侧是详细笔记内容。如果你是重度 B 站用户,第一眼会有亲切感。这种设计的好处是把"看视频"和"读笔记"做成了一个连续的工作流——视频不再是产生笔记的临时素材,而是和笔记一起被沉淀下来的知识库条目。

笔记输出有三种形态:

  • 文字笔记:纯文本的结构化总结,按章节组织
  • 图文笔记:在文字笔记基础上嵌入 VLM 理解过的关键画面截图
  • 思维导图:把视频内容拆成树状结构

另外还有个"一图省流"功能,一键把整个视频压缩成一张可分享的长图——这是个很有 B 站文化味道的设计,对于想在朋友圈或者群里二次传播的场景很合适。

高度自定义:把模型选择权交给用户

桌面应用这个形态决定了 BiliSum 必须支持本地部署,否则就失去了相对于 SaaS 产品的优势。在这一点上 BiliSum 做得相当到位。

语音转写部分,支持三条路线:

  1. 在线 ASR 服务(默认对接硅基流动,新用户免费额度够用)
  2. 本地部署 ASR(一键安装 CUDA 转写环境,对没配过 Python 环境的用户也算友好)
  3. 任何兼容 OpenAI 协议的语音转写接口

LLM 和 VLM 部分,因为兼容 OpenAI API 协议,理论上可以接任何主流模型。这意味着你既可以用 GPT-4.1、Claude Sonnet 4、Gemini 2.5 Pro 这些闭源旗舰,也可以接本地跑的 Qwen2.5-VL、GLM-4V、InternVL 这类开源多模态模型。对于注重数据隐私或者想严格控制成本的用户,这个选择空间很关键。

想试不同模型对视频理解效果差异的话,OpenAI Hub 这类聚合平台支持一个 Key 切换 GPT、Claude、Gemini、DeepSeek,国内直连,比同时维护多份凭证省事——配置 BaseURL 时填聚合平台的地址即可。

BiliSum 图文笔记输出示例,包含文字、关键画面截图和章节结构

和 BiliNote、BibiGPT 横向比

视频笔记工具这个赛道挤得很,简单做个横向对比:

BibiGPT:早期产品,2023 年就有了,主打 Web 端的快速摘要。优势是即开即用、对中文优化好,但闭源、按次收费、隐私性弱,重度用户成本会上去。

BiliNote(JefferyHcool 的项目):和 BiliSum 思路接近的开源项目,比 BiliSum 早一些,同样支持哔哩哔哩、YouTube、抖音。最近也加入了多模态视频理解开关和桌面客户端 4 步引导,整体思路上和 BiliSum 高度重合。

NotebookLM:Google 的产品,强项是音频生成(podcast 风格)和源文档对话,但对国内视频平台(B 站、抖音)支持很差,主要面向 YouTube 和 PDF。

BiliSum 的差异化:在开源同类里,它把"低成本多模态"作为核心卖点单独拎出来,并且对桌面应用的体验做了专门设计(类 B 站界面、一键 CUDA 环境、思维导图输出)。算是对 BiliNote 的一种回应——后者更偏向跨平台广度,前者更聚焦使用体验深度。

需要说明的是,BiliSum 和 BiliNote 命名上的相似性可能会让用户混淆,但定位上还是有区分的,使用前最好都跑一下试试。

一些值得注意的设计细节

翻看代码和文档,有几个点能看出作者的思考:

  1. VLM 调用是可关闭的。前面说过,作者在介绍里强调"日常使用纯文本笔记也足够强大"。这种克制在工具类产品里很重要——不强行把所有功能塞给用户,让用户根据场景自选。

  2. ASR 默认接硅基流动。这是个聪明的选择。硅基流动免费额度对个人用户够用,国内访问稳定,对没有海外信用卡或不想配代理的用户极其友好。

  3. 思维导图作为输出形态。文字笔记适合阅读,思维导图适合复习——把同一份内容用两种方式呈现,对实际学习场景的覆盖更全。

  4. 桌面端 + 本地化数据。视频笔记本质上是个人知识库,长期沉淀的价值远高于一次性使用。桌面端的形态让数据天然属于用户,不用担心 SaaS 服务停服带来的迁移问题。

还需要解决什么

挑刺时间。从开发者视角看,BiliSum 目前还有几个需要打磨的地方:

视频源支持有限。目前只覆盖 B 站、YouTube 和本地文件。抖音、小红书、快手、X、TikTok 都没接,对内容来源更杂的用户来说够呛。作者的 Roadmap 里写了"接入更多视频平台",但优先级不明。

没有跨设备同步。桌面应用的好处是数据本地化,坏处是换台机器就得从头来。如果有可选的同步方案(比如对接私有 WebDAV 或者 S3),价值会大很多。

长视频处理体验。一两个小时以上的播客类视频,无论是 ASR 还是 LLM 总结都会遇到上下文窗口和处理时长的问题,这块需要看实测。

提示词模板。Roadmap 提到了"提示词自定义模板",这其实是核心需求——技术教程、人文讲座、新闻评论、产品演示,每种视频类型适合的笔记结构都不一样。模板系统做得好的话,工具的边际价值会显著上升。

写在最后

BiliSum 不是革命性的产品,但它在视频笔记这个赛道里的定位很清晰:开源、桌面端、对成本敏感、对国内用户友好。

放在 2026 年这个时间点看,多模态模型已经足够强大,瓶颈早就不是"能不能理解视频"而是"理解视频值不值这个钱"。BiliSum 用 LLM 选帧 + VLM 理解的两段式架构,给出了一个工程上可行的答案——不是最完美的,但是最务实的。

对于想用 AI 沉淀视频学习内容、又不想被 SaaS 订阅绑定的开发者,这个项目值得加到 watch list 里。如果你之前用过 BiliNote,也可以试试 BiliSum 看看哪种交互更适合自己——反正都开源,切换成本不高。

参考来源