Question 1

你们提供什么性能保证？

Accepted Answer

我们在 SLA 中设定具体指标：API 响应时间（例如，99百分位 <200ms）、正常运行时间（99.9%+）和最大 RPS。未能达到指标将承担财务责任。

Question 2

我们有一个旧的单体应用（Legacy）。你们会建议重写所有内容吗？

Accepted Answer

不。我们使用 Strangler Fig 模式：逐渐将关键部分提取到微服务中，而不停止业务运营。完全重写是我们避免的风险。

Question 3

故障时如何确保数据安全？

Accepted Answer

我们设置异步数据库复制，定期 PITR 备份发送到 S3 存储。我们还进行演习（混沌工程），以确保恢复工作正常。

Question 4

你们真正能承受多大的负载？

Accepted Answer

我们的架构专为水平扩展而设计。随着流量增长，我们会自动添加实例（Kubernetes 自动扩展）并对数据库进行分片。限制仅在于基础设施预算。

Question 5

你们离开后，我们会留下一个“黑匣子”吗？

Accepted Answer

不可能。所有基础设施都以代码形式描述（IaC — Terraform/Ansible）。我们移交存储库、部署文档和供内部工程师使用的 Runbooks。

Question 6

为什么高负载架构很昂贵？

Accepted Answer

您支付的不是代码费，而是停机保险费。大型电子商务网站停机一小时可能损失数百万。我们建立一个系统，通过防止事故来节省这笔钱。

您的系统准备好迎接将使其崩溃的成功了吗？

我们不写代码。我们设计生态系统。