OceanBase发布湖库一体AI数据库架构，主打离在线统一

OceanBase于6月29日发布湖库一体AI数据库架构，将数据湖、数据仓库、向量检索与在线事务整合到同一技术栈，主打离在线统一，目标直指Agent时代企业数据基础设施的碎片化难题。

6月29日，OceanBase 正式抛出了一张新牌：湖库一体的 AI 数据库架构。这不是一次常规的版本迭代，而是把过去几年数据库圈子里一直在争论的几件事——湖仓要不要合、AI 应用该不该单独搞一套向量库、OLTP 和 OLAP 到底还能不能塞进一个引擎——一次性摆到台面上给出自己的答案：都合，用一套技术栈搞定。

对开发者来说，这件事的信号比发布会的口号更值得琢磨。因为它意味着 OceanBase 想抢的，已经不只是 MySQL 的位置，而是 Databricks、Snowflake 加上一众向量数据库的地盘。

OceanBase湖库一体AI数据库架构示意图

为什么是现在提“湖库一体”

把时间倒回一年，行业里主流的说法还是“湖仓一体”（Lakehouse）。Databricks 用 Delta Lake 打出了名号，Snowflake 也在向 Iceberg 靠拢，核心逻辑是把数据湖的低成本存储和数据仓库的分析能力揉到一起，解决企业数据分散在 S3、HDFS 和数仓里对不上账的问题。

但 Agent 应用起来之后，这个组合突然不够用了。

一个典型的企业级 AI Agent，要做的事情横跨几个数据世界：读历史订单（OLTP）、跑用户画像分析（OLAP）、检索非结构化文档（向量库）、还要能实时接住业务系统写进来的最新数据。现在的做法是——OLTP 一套库，数仓一套，湖里放冷数据，再单独部署 Milvus 或 pgvector 做向量检索，中间用 Kafka 和一堆 ETL 管道串起来。数据在系统之间搬来搬去，延迟、一致性、成本全是问题。更麻烦的是，Agent 需要的是“当下这一刻”的全局视图，而不是 T+1 之后的报表。

OceanBase 的判断是：湖仓一体解决的是分析侧的整合，但 AI 时代真正的痛点在于离线数据和在线数据的割裂。所以它把架构往前推了一步，提出用一套引擎同时承接在线事务、离线分析、湖上数据访问和向量检索。这个提法在国内数据库厂商里算是相当激进的。

技术栈到底怎么“一体”

把四件事塞进一个引擎，听起来像宣传话术，但 OceanBase 的路径其实是有迹可循的。它本身是分布式 HTAP 起家，OLTP 和 OLAP 共用一套 LSM-Tree 存储引擎，通过副本级别的读写分离让分析查询不影响事务性能。这一部分是老底子。

新的东西主要在两块：

一是对开放表格式的原生支持。 湖库一体架构下，OceanBase 可以直接读写 Iceberg、Paimon 这类开放表格式，把 S3、OSS 上的 Parquet 文件当成外表来查询，不需要先导入到数据库里。这一步很关键，意味着企业已有的数据湖不用推倒重来，OceanBase 变成了访问入口而不是又一个数据孤岛。

二是向量能力的深度整合。 去年 11 月 OceanBase 开源了 AI 原生的 seekdb，主打混合搜索——把标量过滤、全文检索和向量检索在一个查询里完成。上个月刚发布的 seekdb 1.1.0 又补齐了 macOS 原生支持、Fork Table 写时复制机制，以及一个明显是为 AI Coding 场景准备的能力：让 AI 助手在接近真实分布的数据副本上生成 SQL，验证通过再落到生产环境。这套向量能力现在被整合进了主库的湖库一体架构里，而不是作为一个独立产品存在。

把这几层串起来看，OceanBase 想构建的是这样一个数据平面：

在线业务写入走 OLTP 路径，强一致、低延迟
分析查询通过列存副本承接，不干扰事务
冷数据下沉到对象存储的 Iceberg 表，按需查询
非结构化数据的 embedding 存在同一套系统里，支持混合检索
Agent 通过统一 SQL 接口访问以上所有数据

对比一下：Databricks、Snowflake、还有一众向量库

这套架构最直接的对标就是 Databricks。Databricks 从 Spark 起家，靠 Delta Lake 把湖仓打通，去年又收购了 MosaicML 补 AI 能力，路线是“分析优先、AI 加持”。但它的短板一直是在线事务——你不会拿 Databricks 去支撑一个交易系统。

OceanBase 的路线正好反过来：从 OLTP 出发，往上长出分析和 AI 能力。这个起点的差别决定了两者适用的场景不同。金融、电信、政务这些对在线一致性和延迟敏感的行业，本来就是 OceanBase 的地盘，湖库一体让它有机会把这些客户的 AI 场景也吃下来，而不是让客户为了做 Agent 再去买一套 Databricks。

和 Snowflake 比，OceanBase 的开源属性和私有化部署能力在国内是显著优势。Snowflake 的存算分离架构很优雅，但在中国市场几乎不落地。

和纯向量数据库比，故事就更清楚了。Milvus、Qdrant 这类产品解决的是“如何高效检索向量”，但 Agent 应用真正需要的从来不是纯向量查询，而是结构化条件 + 全文 + 向量的混合过滤——比如“找出最近 30 天下单金额超过 1 万的用户中，客服工单语义最接近这条投诉的前 10 个”。这种查询在独立向量库里得靠应用层拼接，效率和一致性都难保证。OceanBase 把这一切放进 SQL 里，写起来就是一句话的事。

一些值得警惕的问题

把架构讲得很漂亮，落地起来是另一回事。有几个问题目前还没有清晰答案。

性能取舍怎么办。 OLTP 和 OLAP 共存已经不容易，再加上向量检索和湖上外表查询，任何一个负载压上来都可能影响其他。OceanBase 靠副本隔离和资源组做了些缓冲，但真到了大规模生产环境，工作负载互相干扰仍然是最容易翻车的点。

Iceberg 生态的兼容深度。 官方说支持开放表格式，但支持到什么程度——是只读、还是能写入？事务隔离级别怎么保证？和 Spark、Flink 生态的互操作有没有坑？这些技术细节发布会不会讲，得等社区版放出来大家实测。

AI 原生的成色。 seekdb 走的是独立开源路线，社区反馈还不错，但把它整合进主库之后，功能会不会打折？Embedding 生态、Rerank、多模态检索这些能力更新节奏能不能跟上开源向量库？这些是开发者选型时会真正在意的东西。

谁会买单

短期内，OceanBase 湖库一体最可能打动的是两类客户。

第一类是已经在用 OceanBase 做核心业务的大型企业，特别是金融和运营商。它们数据量大、对数据主权敏感、AI 项目又必须启动，与其再引入一套 Databricks 或者自建向量库集群，不如在现有数据库上加能力。银行搞智能客服、运营商做投诉分析，这种场景天然适合湖库一体的架构。

第二类是正在从传统 Oracle、MySQL 往云原生数据库迁移，同时又要规划 AI 中台的中大型企业。它们最怕的就是选型碎片化——OLTP 一个库、数仓一个平台、向量再一个组件，运维和数据同步的复杂度直接劝退。一个能覆盖大部分需求的统一平台，即使某些单项能力不是最强，综合成本也可能更划算。

至于个人开发者和中小团队，seekdb 的开源版本可能仍然是更合适的入口，毕竟湖库一体的完整能力主要面向企业级部署。

一点判断

数据库这个赛道过去几年最有意思的事情，是所有人都在往中间挤——OLTP 厂商想做分析，分析厂商想做 AI，向量库想接更多结构化能力。OceanBase 这次亮牌，等于是把“大一统”这条路径公开地押上了。

这条路能不能走通，取决于工程执行力和生态建设的速度，不是发布会能决定的。但方向本身值得关注——因为 Agent 时代对企业数据平台的要求，确实和过去分析报表时代不一样了。数据不再是被查询的对象，而是被 Agent 主动读、写、组合、推理的介质。这种场景下，减少系统间跳转、缩短数据到智能的路径，就是核心竞争力。

OceanBase 押的是这个方向。至于最终会不会有第二个玩家跟进，或者被更彻底的架构颠覆，还得看接下来这一年。