刚完成 3.55 亿美元 C 轮融资的 Modal 放出新招：Auto Endpoints 让开发者获得托管推理的便捷性，同时保留完整的代码控制权和定制能力，试图在 Serverless 推理市场开辟第三条路。

Modal 推出 Auto Endpoints：开发者自托管的推理黑科技

Modal 刚刚发布了 Auto Endpoints，一个让开发者既能享受托管推理便利、又能保持完整代码控制权的新功能。这是这家估值 46.5 亿美元的 AI 基础设施公司在完成 C 轮融资后的首个重磅产品动作。

简单说，Modal 想解决一个困扰开发者很久的问题：用第三方托管推理服务，方便但没法改；自己从头搭，灵活但太累。Auto Endpoints 试图在这两者之间找到平衡点。

核心卖点：优化过的代码直接给你

传统的托管推理服务是黑盒——你调 API，它返回结果，中间发生了什么你不知道，也改不了。Modal 的做法不一样：Auto Endpoints 生成的是真实可运行的代码，直接部署到你的 Modal 账户里。

这意味着什么？

第一，完全透明。 每一行推理代码你都能看到，包括模型加载逻辑、batch 处理策略、GPU 分配方式。不是「信任我们的优化」，而是「这就是我们怎么优化的，你自己看」。

第二，可以改。 想换个采样参数？改。想加个前处理步骤？加。想集成到现有的数据管道里？随意。代码是你的，你说了算。

第三，锁定免疫。 哪天想迁移到别的平台，或者干脆自己搭 K8s 集群，这些代码拿走就能用。没有 vendor lock-in 的焦虑。

Modal Auto Endpoints 架构示意图，展示从模型选择到代码生成到部署的完整流程

技术细节：Modal 做了哪些优化

光给代码不够，关键是这代码得比你自己写的好。Modal 在 Auto Endpoints 里塞了不少优化：

推理引擎选择

Modal 会根据模型特性自动选择最合适的推理后端。对于大多数 LLM，默认使用 vLLM——这是目前开源社区里性能最强的 LLM 推理引擎之一。vLLM 的 PagedAttention 机制能显著提升 KV Cache 的内存利用率，在高并发场景下优势明显。

对于某些特定模型架构，Modal 可能会选择 TensorRT-LLM 或其他优化后端。这个选择逻辑本身就值得学习——很多开发者在这一步就会踩坑，选错引擎导致性能白白损失 30%-50%。

量化策略

大模型动辄几十 GB，直接跑 FP16 太奢侈。Auto Endpoints 会根据模型和硬件配置，自动应用合适的量化方案：

FP8 量化：在支持的 GPU（H100、L40S 等）上优先使用，精度损失极小但显存占用直接砍半
INT8/INT4 量化：在更老的 GPU 或显存受限场景下使用，需要在精度和性能间权衡
混合精度：关键层保持高精度，其他层激进量化

这些策略不是写死的参数，而是生成在代码里的具体实现。你可以看到 Modal 怎么配置量化参数，然后根据自己的精度要求微调。

GPU 配置与扩缩容

Auto Endpoints 生成的代码包含完整的 GPU 分配逻辑：

# 这是 Modal Auto Endpoints 生成的代码片段示例
import modal

app = modal.App("llama-endpoint")

@app.cls(
    gpu=modal.gpu.A100(count=2, memory=80),  # 根据模型大小自动选择
    container_idle_timeout=300,  # 5分钟无请求自动缩容
    allow_concurrent_inputs=32,  # 并发请求数
)
class LlamaEndpoint:
    @modal.enter()
    def load_model(self):
        # 模型加载逻辑，包含优化的权重分片
        pass
    
    @modal.method()
    def generate(self, prompt: str, max_tokens: int = 512):
        # 推理逻辑，包含动态 batch 和流式输出
        pass

注意 container_idle_timeout 这个参数——Modal 的杀手锏之一就是亚秒级冷启动。容器闲置 5 分钟后自动销毁，下次请求来了再拉起，中间不计费。对于流量波动大的场景，这能省下一大笔钱。

动态 Batching

单条请求逐个处理太浪费 GPU 算力。Auto Endpoints 会自动实现动态 batching：在一个短暂的时间窗口内收集多个请求，打包成一个 batch 一起推理。

这个优化在高并发场景下效果惊人。假设你的模型单次推理耗时 100ms，处理一个请求和处理一个 batch（比如 8 个请求）的耗时差不多。动态 batching 能让吞吐量直接翻几倍。

但 batching 也有讲究：窗口开太大，延迟上去了；窗口开太小，batch 凑不满。Modal 生成的代码会根据实际流量模式自动调整这个参数，你也可以手动覆盖。

和竞品比：Modal 的差异化在哪

云端推理这条赛道已经挤满了玩家。Modal Auto Endpoints 的定位到底是什么？

对比纯托管服务（Replicate、Banana、Baseten）

这类服务的体验是：选模型 → 调 API → 付钱。简单，但你对中间环节没有任何控制权。

想改推理参数？提工单。想换个量化方案？看他们支不支持。想集成私有模型？流程复杂且贵。

Modal 的优势在于透明度和灵活性。代码在你手里，想怎么改怎么改。代价是你得会写 Python，得理解基本的 ML 部署概念。

对比云厂商方案（AWS SageMaker、GCP Vertex AI）

大厂的方案功能全但复杂。部署一个模型要配置 IAM、VPC、ECR、Endpoint Config 一大堆东西。

Modal 的哲学是「everything in code」——一个 Python 文件搞定所有配置。对于中小团队来说，这个开发体验的差距是决定性的。

当然，大厂方案在合规、企业级支持、和现有云资源整合方面有优势。如果你的公司已经 all-in AWS，SageMaker 可能是更自然的选择。

对比自建（裸金属 + K8s + vLLM）

自己搭当然最灵活，但工作量也最大。光是让 vLLM 在 K8s 上稳定运行，就要折腾 GPU operator、device plugin、资源调度一堆东西。更别提监控、日志、自动扩缩容这些运维负担。

Modal Auto Endpoints 可以看作「半自建」——你拿到的是优化过的代码，运行在 Modal 的基础设施上。省去了底层运维，保留了代码层面的控制权。

对于大多数团队，这是个务实的折中。

适用场景分析

Auto Endpoints 不是万能药。以下几类场景它比较合适：

场景一：快速验证再逐步定制

你有个新的模型想上线测试，不确定流量会有多大，也不确定最终的推理配置是什么。

Auto Endpoints 让你先跑起来，看看实际效果。等流量稳定了、需求明确了，再基于生成的代码深度定制。比一上来就自己从头搭要省时间。

场景二：多模型并行迭代

你的产品需要同时支持多个模型——主力模型、备选模型、实验模型。每个模型的最优配置可能不一样。

Auto Endpoints 能快速为每个模型生成优化配置，省去你逐个调参的时间。

场景三：成本敏感的中等规模流量

日请求量在几万到几百万之间。这个量级用纯托管服务贵，自建又不划算。

Modal 的按秒计费 + 自动扩缩容在这个区间很有竞争力。Auto Endpoints 生成的代码里已经包含了成本优化逻辑，比如激进的缩容策略、合适的 GPU 选型等。

不太适合的场景

超大规模流量：如果你的 QPS 到了几万甚至更高，可能还是得自建集群才能把成本压到最低。Modal 的抽象层会带来一些开销。

极端延迟要求：如果你需要个位数毫秒的延迟，Modal 的冷启动机制可能不太适合。得保持 warm pool，这就失去了按需付费的优势。

强监管行业：金融、医疗等行业对数据驻留、审计日志有严格要求。Modal 的合规认证可能还不够全面。

Modal 的更大图景

Auto Endpoints 不是孤立的功能，而是 Modal 整体战略的一部分。

这家公司在今年早些时候完成了 3.55 亿美元的 C 轮融资，估值达到 46.5 亿美元。融资新闻里提到的几个数字很有意思：平台上已经跑了超过 10 亿个 AI Agent 沙盒环境。

10 亿个沙盒——这个数字说明 Modal 的定位已经不只是「GPU 云」，而是「AI 原生基础设施」。从推理、训练、到 Agent 执行环境，Modal 想通吃。

Auto Endpoints 可以看作这个布局里的一块拼图：降低推理部署的门槛，让更多开发者把工作负载放到 Modal 上。一旦推理跑起来了，训练、数据处理、Agent 等需求自然会跟上来。

这个策略和 AWS 当年推 Lambda 很像：先用一个杀手级功能把用户拉进来，再靠生态粘住。

实际上手体验

说了这么多，实际用起来怎么样？

Modal 的 CLI 和 SDK 设计得相当直观。安装完 modal 包之后，基本就是写 Python 代码、然后 modal deploy 一把梭。

# 安装 Modal
pip install modal

# 登录认证
modal setup

# 部署代码
modal deploy your_endpoint.py

对于 Auto Endpoints，流程更简单：选模型 → 点生成 → 拿到代码 → 部署。整个过程可以在几分钟内完成。

生成的代码质量不错，注释清晰，结构合理。就算你不熟悉 vLLM 或 Modal 的 API，读一遍也能理解在干什么。这点比某些「低代码」平台生成的屎山强多了。

当然，真正的考验在生产环境。Modal 号称亚秒级冷启动、毫秒级延迟，实际表现还得看具体模型和流量模式。他们官网上列了一些客户案例，比如 Physical Intelligence 用 Modal 跑机器人控制，延迟做到了 10-15ms。这个数字相当impressive，但机器人控制和 LLM 推理的特性不太一样，不能直接类比。

行业观察：推理层的军备竞赛

Modal 的动作放在更大的行业背景下看，是 AI 推理基础设施竞争加剧的一个缩影。

NVIDIA 在推 TensorRT-LLM AutoDeploy，试图把优化工作从手动变成编译器自动完成。云厂商在疯狂扩容 GPU 集群。一众初创公司在各个细分领域找差异化。

这场竞争的核心逻辑是：推理成本是 AI 应用大规模落地的最大瓶颈之一。

训练一个模型是一次性投入，但推理是持续成本。一个日活百万的 AI 应用，每天的推理费用可能比训练整个模型还贵。谁能把推理成本压下来，谁就能解锁更多应用场景。

Modal 的路线是「让开发者自己优化」——通过 Auto Endpoints 把专家级的优化技巧民主化，同时提供灵活的底层基础设施。这条路能不能走通，取决于开发者愿不愿意花时间理解和定制这些代码。

另一条路是「全托管黑盒」——你什么都不用管，我来搞定一切。这条路的问题是缺乏灵活性，而且不同场景的需求差异太大，很难用一套方案通吃。

最终可能是两条路并存，服务不同类型的用户。Modal 选了「透明可控」这一端，定位清晰。

写在最后

Modal Auto Endpoints 的发布，给「自托管推理」这个概念注入了新的内涵：不是让你从零开始搭建一切，而是给你一个优化过的起点，然后由你决定要不要改、怎么改。

这种「生成代码而非提供 API」的模式，可能会成为 AI 基础设施领域的一个趋势。它承认了一个现实：AI 应用的需求太多样化，任何黑盒方案都没法满足所有人。与其试图做一个万能的托管服务，不如把优化能力输出成代码，让开发者自己组合。

对于正在选型推理方案的团队，Modal Auto Endpoints 值得放进考虑列表。尤其是如果你重视灵活性、想避免 vendor lock-in、又不想从头搭建所有东西——这个定位可能正好适合你。

当然，技术选型永远要看具体场景。建议先用 Modal 的免费额度试一试，跑几个实际的 benchmark，再做决定。

参考来源

（注：本文参考资料来源于 Modal 官方博客及相关技术文档，因原始链接为海外网站，此处不再列出。读者可通过搜索引擎查找 Modal Auto Endpoints 相关内容获取更多技术细节。）

Modal 推出 Auto Endpoints：开发者自托管的推理黑科技

Modal 推出 Auto Endpoints：开发者自托管的推理黑科技

核心卖点：优化过的代码直接给你

技术细节：Modal 做了哪些优化

推理引擎选择

量化策略

GPU 配置与扩缩容

动态 Batching

和竞品比：Modal 的差异化在哪

对比纯托管服务（Replicate、Banana、Baseten）

对比云厂商方案（AWS SageMaker、GCP Vertex AI）

对比自建（裸金属 + K8s + vLLM）

适用场景分析

场景一：快速验证再逐步定制

场景二：多模型并行迭代

场景三：成本敏感的中等规模流量

不太适合的场景

Modal 的更大图景

实际上手体验

行业观察：推理层的军备竞赛

写在最后

相关推荐

GPT-5 Pro破解三年免疫学谜题，AI科研范式已经变了

Anthropic推出Claude Tag：让AI潜入Slack偷师你的公司

6.6万人抢着用，小米1000 tps推理延期了

联系我们