企业 AI 的 Plan B:云 API 涨价之后,业务已经离不开大模型
「我们把 AI 接进了客服、CRM 和报表——挺好用。然后账单来了:是上季度的三倍。不能关,涨价又肉疼。怎么办?」
这已经不是「排行榜上选哪个模型」的问题,而是成本、风险与可控性。下面讲预算漏点、三种 Plan B,以及可以转发给 CFO 的清单。

为什么现在必须谈
过去一年的典型路径:
- 快速把云 LLM 接到聊天、邮件和知识库。
- 叠加场景:工单摘要、方案草稿、文档检索。
- 请求量增长快于限额与指标体系建设。
- 供应商调价——OPEX 涨幅摆到 CFO 桌上。
同时,等保、PIPL(个人信息保护法)与数据出境的问题更尖锐:客户数据和内部邮件进公有 API、DPA 不清晰——以前能拖,现在拖不起。
Plan B 不是放弃 AI,而是第二套供给方案——当主通道(按次计费的 API)太贵,或在合规上不可接受时启用。
钱漏在哪里
| 模式 | 发生了什么 | 后果 |
|---|---|---|
| 聊天无上限 | 同一问题换五种问法 | 账单随「好奇心」膨胀 |
| RAG「以防万一」 | 上下文塞几十页文档 | 输入 token 烧钱 |
| Agent 无步数上限 | 循环「再试一次」 | 一次失败 = 上百次调用 |
| 三套系统接同一知识库 | CRM、客服、门户各接一套 | OPEX 三倍 + 泄露面扩大 |
| 没有缓存 | 相同 FAQ 每次进 LLM | 30–60% 请求是浪费 |
如果没有单次请求成本和Top-5 场景用量——选 Plan B 只能摸黑。
20 分钟粗算
月请求数 N × 每请求 token T × 每百万 token 单价 P ≈ 月账单。
示例:80,000 × 8,000 token × $3/1M ≈ ~$1,900/月(约 1.4 万元人民币)——单场景、无峰值、无团队开销。
三种可落地的 Plan B
1. 可治理的云上方案
API 还在,但加上规则:
- 按用户、部门、场景设 cap(人民币预算上限);
- 路由:草稿用便宜模型,定稿用贵模型;
- 典型回答缓存(TTL 24–72 小时);
- 压缩上下文,禁止「整库塞进每次请求」。
周期: 1–2 周。效果: 账单常降 40–70%,产品形态不变。
2. 边界内部署(私有化)
私有化部署或专属 VPC / 本地机房 / 国内合规云:
- 个人信息与合同不出公有 API;
- OPEX 从「按 token」转向「算力 + 运维」——流量稳定时,6–12 个月可能更划算。
适用: 政务、金融、强 NDA、单场景 > 50 万次/月。需要: SRE/MLOps 与质量门禁。
3. AI 在应用里,而不是「万能聊天框」
| 在聊天里 | 在应用里 |
| 「帮我做销售报表」 | 按钮 → 从数据库/BI 出报表 |
| 「找一下合同」 | CRM 检索 + 角色与审计 |
| 「批一下申请」 | 带状态与 SLA 的工作流 |
LLM 留给语言变体;重复性工作交给代码与流程——这是内部系统开发,不是无限膨胀的企业聊天机器人。
怎么选 Plan B
| 情况 | 建议 |
|---|---|
| 账单季度 ×2,数据不敏感 | 限额 + 路由 + 缓存 |
| 数据不出境 / 不能用境外 API | 私有化或混合云 |
| 80% 请求是重复操作 | 应用内自动化 |
| 小团队、无 DevOps | 别上 self-hosted;选方案 1 和 3 |
| 「我们要像大厂那样」 | 先上指标,再谈 infra |
CTO 清单
- 看板:请求/天、人民币/天、Top 场景
- AI 支出上限已审批
- 禁止进公有 API 的字段清单
- 缓存与 embedding 复用策略
- Agent 步数上限(
max_steps) - API 不可用 24 小时的 fallback
- 本季度哪些场景从聊天迁到系统按钮
反模式
- 「一个模型包打天下」,没有预算 owner。
- 把客户数据写进公网 prompt。
- 每周换模型——指标不可比。
- 把 self-hosted 当「免费」,不算机器和人。
要点
API 涨价是成熟信号。成熟公司会回答:AI 在哪赚 margin、哪用代码就够、费率翻倍或故障时哪条备用链路启动。
往往最快见效的不是换模型,而是砍掉多余调用,把重复流程写进应用。
NineLab 协助完成这一过渡:AI 场景审计、单次请求成本评估、内部系统与 high-load 设计。首次咨询免费:ninelab.ru/contacts,Telegram @MozziDev。
主题常见问题
侧重工程指标与栈:API、数据库、CDN、代码,而不只是文案与 meta。
最好有指标与日志;数据库侧常用只读或带副本的预发环境。
两者都要:实验室可复现,RUM 反映真实设备与网络,合起来解释差异。
按收益/成本排序,定义上线后指标并复测;大改动可单独立项。