AI 快讯Modal 推出 Auto Endpoints:开发者自托管的推理黑科技
产品更新

Modal 推出 Auto Endpoints:开发者自托管的推理黑科技

2026-06-23T21:04:31.580Z
Modal 推出 Auto Endpoints:开发者自托管的推理黑科技

刚完成 3.55 亿美元 C 轮融资的 Modal 放出新招:Auto Endpoints 让开发者获得托管推理的便捷性,同时保留完整的代码控制权和定制能力,试图在 Serverless 推理市场开辟第三条路。

Modal 推出 Auto Endpoints:开发者自托管的推理黑科技

Modal 刚刚发布了 Auto Endpoints,一个让开发者既能享受托管推理便利、又能保持完整代码控制权的新功能。这是这家估值 46.5 亿美元的 AI 基础设施公司在完成 C 轮融资后的首个重磅产品动作。

简单说,Modal 想解决一个困扰开发者很久的问题:用第三方托管推理服务,方便但没法改;自己从头搭,灵活但太累。Auto Endpoints 试图在这两者之间找到平衡点。

核心卖点:优化过的代码直接给你

传统的托管推理服务是黑盒——你调 API,它返回结果,中间发生了什么你不知道,也改不了。Modal 的做法不一样:Auto Endpoints 生成的是真实可运行的代码,直接部署到你的 Modal 账户里。

这意味着什么?

第一,完全透明。 每一行推理代码你都能看到,包括模型加载逻辑、batch 处理策略、GPU 分配方式。不是「信任我们的优化」,而是「这就是我们怎么优化的,你自己看」。

第二,可以改。 想换个采样参数?改。想加个前处理步骤?加。想集成到现有的数据管道里?随意。代码是你的,你说了算。

第三,锁定免疫。 哪天想迁移到别的平台,或者干脆自己搭 K8s 集群,这些代码拿走就能用。没有 vendor lock-in 的焦虑。

Modal Auto Endpoints 架构示意图,展示从模型选择到代码生成到部署的完整流程

技术细节:Modal 做了哪些优化

光给代码不够,关键是这代码得比你自己写的好。Modal 在 Auto Endpoints 里塞了不少优化:

推理引擎选择

Modal 会根据模型特性自动选择最合适的推理后端。对于大多数 LLM,默认使用 vLLM——这是目前开源社区里性能最强的 LLM 推理引擎之一。vLLM 的 PagedAttention 机制能显著提升 KV Cache 的内存利用率,在高并发场景下优势明显。

对于某些特定模型架构,Modal 可能会选择 TensorRT-LLM 或其他优化后端。这个选择逻辑本身就值得学习——很多开发者在这一步就会踩坑,选错引擎导致性能白白损失 30%-50%。

量化策略

大模型动辄几十 GB,直接跑 FP16 太奢侈。Auto Endpoints 会根据模型和硬件配置,自动应用合适的量化方案:

  • FP8 量化:在支持的 GPU(H100、L40S 等)上优先使用,精度损失极小但显存占用直接砍半
  • INT8/INT4 量化:在更老的 GPU 或显存受限场景下使用,需要在精度和性能间权衡
  • 混合精度:关键层保持高精度,其他层激进量化

这些策略不是写死的参数,而是生成在代码里的具体实现。你可以看到 Modal 怎么配置量化参数,然后根据自己的精度要求微调。

GPU 配置与扩缩容

Auto Endpoints 生成的代码包含完整的 GPU 分配逻辑:

# 这是 Modal Auto Endpoints 生成的代码片段示例
import modal

app = modal.App("llama-endpoint")

@app.cls(
    gpu=modal.gpu.A100(count=2, memory=80),  # 根据模型大小自动选择
    container_idle_timeout=300,  # 5分钟无请求自动缩容
    allow_concurrent_inputs=32,  # 并发请求数
)
class LlamaEndpoint:
    @modal.enter()
    def load_model(self):
        # 模型加载逻辑,包含优化的权重分片
        pass
    
    @modal.method()
    def generate(self, prompt: str, max_tokens: int = 512):
        # 推理逻辑,包含动态 batch 和流式输出
        pass

注意 container_idle_timeout 这个参数——Modal 的杀手锏之一就是亚秒级冷启动。容器闲置 5 分钟后自动销毁,下次请求来了再拉起,中间不计费。对于流量波动大的场景,这能省下一大笔钱。

动态 Batching

单条请求逐个处理太浪费 GPU 算力。Auto Endpoints 会自动实现动态 batching:在一个短暂的时间窗口内收集多个请求,打包成一个 batch 一起推理。

这个优化在高并发场景下效果惊人。假设你的模型单次推理耗时 100ms,处理一个请求和处理一个 batch(比如 8 个请求)的耗时差不多。动态 batching 能让吞吐量直接翻几倍。

但 batching 也有讲究:窗口开太大,延迟上去了;窗口开太小,batch 凑不满。Modal 生成的代码会根据实际流量模式自动调整这个参数,你也可以手动覆盖。

和竞品比:Modal 的差异化在哪

云端推理这条赛道已经挤满了玩家。Modal Auto Endpoints 的定位到底是什么?

对比纯托管服务(Replicate、Banana、Baseten)

这类服务的体验是:选模型 → 调 API → 付钱。简单,但你对中间环节没有任何控制权。

想改推理参数?提工单。想换个量化方案?看他们支不支持。想集成私有模型?流程复杂且贵。

Modal 的优势在于透明度和灵活性。代码在你手里,想怎么改怎么改。代价是你得会写 Python,得理解基本的 ML 部署概念。

对比云厂商方案(AWS SageMaker、GCP Vertex AI)

大厂的方案功能全但复杂。部署一个模型要配置 IAM、VPC、ECR、Endpoint Config 一大堆东西。

Modal 的哲学是「everything in code」——一个 Python 文件搞定所有配置。对于中小团队来说,这个开发体验的差距是决定性的。

当然,大厂方案在合规、企业级支持、和现有云资源整合方面有优势。如果你的公司已经 all-in AWS,SageMaker 可能是更自然的选择。

对比自建(裸金属 + K8s + vLLM)

自己搭当然最灵活,但工作量也最大。光是让 vLLM 在 K8s 上稳定运行,就要折腾 GPU operator、device plugin、资源调度一堆东西。更别提监控、日志、自动扩缩容这些运维负担。

Modal Auto Endpoints 可以看作「半自建」——你拿到的是优化过的代码,运行在 Modal 的基础设施上。省去了底层运维,保留了代码层面的控制权。

对于大多数团队,这是个务实的折中。

适用场景分析

Auto Endpoints 不是万能药。以下几类场景它比较合适:

场景一:快速验证再逐步定制

你有个新的模型想上线测试,不确定流量会有多大,也不确定最终的推理配置是什么。

Auto Endpoints 让你先跑起来,看看实际效果。等流量稳定了、需求明确了,再基于生成的代码深度定制。比一上来就自己从头搭要省时间。

场景二:多模型并行迭代

你的产品需要同时支持多个模型——主力模型、备选模型、实验模型。每个模型的最优配置可能不一样。

Auto Endpoints 能快速为每个模型生成优化配置,省去你逐个调参的时间。

场景三:成本敏感的中等规模流量

日请求量在几万到几百万之间。这个量级用纯托管服务贵,自建又不划算。

Modal 的按秒计费 + 自动扩缩容在这个区间很有竞争力。Auto Endpoints 生成的代码里已经包含了成本优化逻辑,比如激进的缩容策略、合适的 GPU 选型等。

不太适合的场景

超大规模流量:如果你的 QPS 到了几万甚至更高,可能还是得自建集群才能把成本压到最低。Modal 的抽象层会带来一些开销。

极端延迟要求:如果你需要个位数毫秒的延迟,Modal 的冷启动机制可能不太适合。得保持 warm pool,这就失去了按需付费的优势。

强监管行业:金融、医疗等行业对数据驻留、审计日志有严格要求。Modal 的合规认证可能还不够全面。

Modal 的更大图景

Auto Endpoints 不是孤立的功能,而是 Modal 整体战略的一部分。

这家公司在今年早些时候完成了 3.55 亿美元的 C 轮融资,估值达到 46.5 亿美元。融资新闻里提到的几个数字很有意思:平台上已经跑了超过 10 亿个 AI Agent 沙盒环境。

10 亿个沙盒——这个数字说明 Modal 的定位已经不只是「GPU 云」,而是「AI 原生基础设施」。从推理、训练、到 Agent 执行环境,Modal 想通吃。

Auto Endpoints 可以看作这个布局里的一块拼图:降低推理部署的门槛,让更多开发者把工作负载放到 Modal 上。一旦推理跑起来了,训练、数据处理、Agent 等需求自然会跟上来。

这个策略和 AWS 当年推 Lambda 很像:先用一个杀手级功能把用户拉进来,再靠生态粘住。

实际上手体验

说了这么多,实际用起来怎么样?

Modal 的 CLI 和 SDK 设计得相当直观。安装完 modal 包之后,基本就是写 Python 代码、然后 modal deploy 一把梭。

# 安装 Modal
pip install modal

# 登录认证
modal setup

# 部署代码
modal deploy your_endpoint.py

对于 Auto Endpoints,流程更简单:选模型 → 点生成 → 拿到代码 → 部署。整个过程可以在几分钟内完成。

生成的代码质量不错,注释清晰,结构合理。就算你不熟悉 vLLM 或 Modal 的 API,读一遍也能理解在干什么。这点比某些「低代码」平台生成的屎山强多了。

当然,真正的考验在生产环境。Modal 号称亚秒级冷启动、毫秒级延迟,实际表现还得看具体模型和流量模式。他们官网上列了一些客户案例,比如 Physical Intelligence 用 Modal 跑机器人控制,延迟做到了 10-15ms。这个数字相当impressive,但机器人控制和 LLM 推理的特性不太一样,不能直接类比。

行业观察:推理层的军备竞赛

Modal 的动作放在更大的行业背景下看,是 AI 推理基础设施竞争加剧的一个缩影。

NVIDIA 在推 TensorRT-LLM AutoDeploy,试图把优化工作从手动变成编译器自动完成。云厂商在疯狂扩容 GPU 集群。一众初创公司在各个细分领域找差异化。

这场竞争的核心逻辑是:推理成本是 AI 应用大规模落地的最大瓶颈之一

训练一个模型是一次性投入,但推理是持续成本。一个日活百万的 AI 应用,每天的推理费用可能比训练整个模型还贵。谁能把推理成本压下来,谁就能解锁更多应用场景。

Modal 的路线是「让开发者自己优化」——通过 Auto Endpoints 把专家级的优化技巧民主化,同时提供灵活的底层基础设施。这条路能不能走通,取决于开发者愿不愿意花时间理解和定制这些代码。

另一条路是「全托管黑盒」——你什么都不用管,我来搞定一切。这条路的问题是缺乏灵活性,而且不同场景的需求差异太大,很难用一套方案通吃。

最终可能是两条路并存,服务不同类型的用户。Modal 选了「透明可控」这一端,定位清晰。

写在最后

Modal Auto Endpoints 的发布,给「自托管推理」这个概念注入了新的内涵:不是让你从零开始搭建一切,而是给你一个优化过的起点,然后由你决定要不要改、怎么改。

这种「生成代码而非提供 API」的模式,可能会成为 AI 基础设施领域的一个趋势。它承认了一个现实:AI 应用的需求太多样化,任何黑盒方案都没法满足所有人。与其试图做一个万能的托管服务,不如把优化能力输出成代码,让开发者自己组合。

对于正在选型推理方案的团队,Modal Auto Endpoints 值得放进考虑列表。尤其是如果你重视灵活性、想避免 vendor lock-in、又不想从头搭建所有东西——这个定位可能正好适合你。

当然,技术选型永远要看具体场景。建议先用 Modal 的免费额度试一试,跑几个实际的 benchmark,再做决定。


参考来源

(注:本文参考资料来源于 Modal 官方博客及相关技术文档,因原始链接为海外网站,此处不再列出。读者可通过搜索引擎查找 Modal Auto Endpoints 相关内容获取更多技术细节。)

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: