ベッティングプラットフォームでのフォールトトレランスの提供

フォールトトレランスとは
フォールトトレランス(Fault tolerance)とは、システムが部分的に故障した場合に動作を継続する機能です:
サーバー、データベース、API障害の場合に中断することなく
冗長ノードへの自動切り替え
プラットフォーム全体を落とさずに問題をローカライズ
手作業による介入のない迅速なリカバリ
技術とアプローチ
方法 | 目的と効果 |
---|---|
ロードバランサー | マルチノードトラフィック分布 |
データベース・レプリケーション | プライマリ・ストレージ損失防止 |
マイクロサービスアーキテクチャ | 問題コンポーネントの分離 |
ヘルスチェックと自動再起動 | サービス監視と自動リカバリ |
GEO-DR | ワールドワイドサポート |
Active-ActiveおよびActive-Passiveクラスタ | センターのいずれかが故障した場合、ダウンタイムは発生しません |
フォールトトレランスのためのインフラストラクチャ
Kubernetes (K8s)-自己修復クラスタ
Redis Sentinel/クラスタ-フォールトトレラントキャッシュ
PostgreSQLとレプリケーション-プライマリおよびホットバックアップデータベース
複数のブローカーを持つカフカ-信頼できるイベント配信
Cloudflare/CDN-周囲保護(DDoS、 DNS、ジオカリブレーション)
状況の例
シナリオ | システムの仕組み |
---|---|
1つのAPIサーバーがクラッシュする | Trafficは即座にLB経由で他のサーバーに移動する |
この地域で不足しているインターネット | GEO-DNSは、プレーヤーを最も近いデータセンターに転送します |
計算エンジンエラー | プラットフォームの残りの部分は引き続き実行されます |
データベースの破損 | データ損失なしでレプリカから回復する |
プラットフォームの結果
サービスの信頼性の向上
最大稼働時間:99。99%以上
技術的な障害から収益を保護
パートナーとプレーヤーの信頼
サポートコールの削減
フォールトトレランスは、単に「落ちない」だけではなく「、常に働く」ことです。"高負荷のライブベット環境では、過負荷からノード障害まで、あらゆる障害に備えることが重要です。より信頼性の高いシステムが構築され、落ち着いたビジネスとプレーヤー。
お問い合わせ
下記フォームにご記入いただければ、できるだけ早くご連絡いたします。