最后更新:
Click to expand / collapse
在投注中,稳定就是一切。连接丢失、API下降或实时费率计算延迟可能导致财务损失、玩家信心丧失和声誉风险。因此,强大的平台引入了分层容错系统,即使在单个组件发生故障时也能运行。
什么是容错能力
容错是系统在发生部分故障时继续运行的能力:- 无中断服务器故障、DB、API
- 自动切换到冗余节点
- 将问题本地化而不降低整个平台
- 无需人工干预即可快速恢复
技术和方法
| 方法 | 目的和效果 |
|---|---|
| Load Balancer | 多节点之间的流量分配 |
| 数据库复制 | 主存储故障保护 |
| 微服务体系结构 | 隔离问题组件 |
| Health-check & Auto-restart | 监控服务和自动恢复 |
| 地理备用(GEO-DR) | 支持来自世界各地的工作 |
| Active-Active和Active-Passive群集 | 其中一个中心发生故障时不会停机 |
容错基础架构
Kubernetes (K8s)-自修复集群
Redis Sentinel/Cluster-容错腰包
PostgreSQL与复制-核心和热备份DB
多经纪人Kafka-可靠的事件交付
Cloudflare/CDN-外围保护(DDoS、DNS、地理平衡)
情况示例
| 脚本 | 系统的工作原理 |
|---|---|
| 其中一个API服务器正在下降 | 流量通过LB瞬间流向对方 |
| 该地区的互联网消失了 | GEO-DNS将将玩家转移到最近的数据中心 |
| 计算模块中的错误 | 平台的其余部分继续运行 |
| DB损伤 | 从复制副本中恢复而不会丢失数据 |
平台结果
提高服务可靠性
最高药房: 99。99%及以上
保护收入免受技术故障的影响
合作伙伴和玩家的信心
减少支持请求