这一层涵盖什么
基础设施是“在我电脑上能跑”和“组织可以依赖”之间的分界。
推理优化
Batching、缓存、流式、可行时的精度权衡、跨硬件路由。一个生产 AI 应用的成本结构,几乎完全由此处决定。
成本核算
按模型、按功能、按客户的每请求成本可见性。不是一个我们偶尔看的仪表板;是嵌入 CI 管线的门禁检查。
可观测性
日志、trace、指标、eval 分数、漂移检测。生产 AI 系统开始退化时,我们要第一个信号出现在分钟级,不是客户投诉级。
部署模式
模型变更的金丝雀发布、新检索配置的影子流量、基础设施迁移的蓝绿部署。软件部署中成熟的那套纪律,应用在失败模式不同的 AI 系统上。
护栏
输入验证、输出验证、策略执行、AI 层的限流。我们把护栏作为有自己测试的一等代码,不是用户能绕过的 prompt 指令。