Соңғы өңдеу:
Федор Королев
Беттинг-платформада істен шығуға төзімділікті қамтамасыз ету
Click to expand / collapse

Беттингте тұрақтылық - бәрі. Қосылымды жоғалту, API-ның құлдырауы немесе live-ставканы есептеу кезіндегі кідіріс қаржылық шығындарға, ойыншылардың сенімін жоғалтуға және бедел тәуекелдеріне әкелуі мүмкін. Сондықтан сенімді платформалар жекелеген компоненттер істен шыққан кезде де жұмыс істейтін істен шығуға төзімділіктің көп деңгейлі жүйесін енгізеді.


Істен шығуға төзімділік дегеніміз не?

Істен шығуға төзімділік - бұл жүйенің ішінара іркілістер кезінде жұмысты жалғастыру қабілеті:
  • Серверлер істен шыққан кезде үзіліссіз, ДҚ, API
  • Сақтық тораптарға автоматты түрде ауысу
  • Бүкіл платформаның құлауынсыз мәселені оқшаулау
  • Қолмен араласпай тез қалпына келтіру

Технологиялар мен тәсілдер

ӘдісМақсаты және әсері
Load BalancerТрафикті бірнеше тораптар арасында бөлу
Дерекқорды репликалауНегізгі қойма істен шыққан кезде ысыраптардан қорғау
Микросервистік сәулетПроблемалық компоненттерді оқшаулау
Health-check & Auto-restartСервистер мониторингі және автоматты түрде қалпына келтіру
Гео-резервтеу (GEO-DR)Әлемнің түрлі өңірлерінен жұмысты қолдау
Active-Active және Active-Passive кластерлеріОрталықтардың бірінің бас тартуы кезінде тұрып қалу

Істен шығу тұрақтылығына арналған инфрақұрылым

Kubernetes (K8s) - өзін-өзі қалпына келтіретін кластерлер

Redis Sentinel/Cluster - істен шығуға төзімді кештер

PostgreSQL репликасымен - негізгі және ыстық резервтік БД

Бірнеше брокерлермен Kafka - оқиғаларды сенімді жеткізу

Cloudflare/CDN - периметрдегі қорғау (DDoS, DNS, геобаланс)


Жағдайлар мысалдары

СкриптЖүйе қалай жұмыс істейді
API серверлерінің бірі құлдыраудаТрафик LB арқылы бірден екіншісіне кетеді
Аймақтағы интернет жоғалдыGEO-DNS ойыншыларды жақын орналасқан дата орталығына көшіреді
Есептеу модулінде қате пайда болдыҚалған платформа жұмысын жалғастыруда
ДБ зақымдалуыДеректерді жоғалтпай репликадан қалпына келтіру

Платформаның нәтижесі

Сервистің жоғары сенімділігі

Максималды аптайм: 99. 99% және одан жоғары

Кірісті техникалық іркілістерден қорғау

Әріптестер мен ойыншылардың сенімділігі

Қолдауға жүгінулер санын азайту


Істен шығуға төзімділік - бұл жай ғана «құламау» туралы емес, «әрдайым жұмыс істеу» туралы. Жоғары жүктемелі live-беттинг ортасында кез келген істен шығуға дайын болу маңызды: жүктемеден торап істен шыққанға дейін. Жүйе неғұрлым сенімді құрылса, бизнес пен ойыншылар соғұрлым тыныш болады.

Танымал тақырыптар


Негізгі тақырыптар