Disaster Recovery

Definicja

Disaster Recovery (DR) to zbiór polityk, narzędzi i procedur umożliwiających odtworzenie systemów IT po katastrofie (awaria sprzętu, cyberatak, klęska żywiołowa).

Kluczowe metryki DR

Metryka	Definicja	Przykład
RTO (Recovery Time Objective)	Maks. czas przywrócenia systemu	RTO = 4h → system musi działać w 4h
RPO (Recovery Point Objective)	Maks. dopuszczalna utrata danych	RPO = 1h → backup co godzinę
MTTR (Mean Time To Recovery)	Średni czas naprawy	MTTR = 2h (historycznie)
MTBF (Mean Time Between Failures)	Średni czas między awariami	MTBF = 720h (co 30 dni)

Strategie DR

Strategia	RTO	Koszt	Opis
Cold site	Dni	Niski	Puste pomieszczenie, trzeba postawić wszystko
Warm site	Godziny	Średni	Sprzęt gotowy, dane z ostatniego backupu
Hot site	Minuty	Wysoki	Duplikat środowiska, synchronizacja danych
Active-Active	Sekundy	Bardzo wysoki	Dwa równoległe centra, load balancing

DR Testing

Typ testu	Opis	Częstotliwość
Tabletop exercise	Dyskusja „co jeśli"	Kwartalnie
Walkthrough	Przejście procedur krok po kroku	Półrocznie
Simulation	Symulacja awarii (bez wyłączenia prod)	Rocznie
Full failover	Rzeczywiste przełączenie na DR site	Rocznie

Dlaczego to ważne?

BA definiuje RTO i RPO dla procesów biznesowych — to wymagania niefunkcjonalne, które determinują architekturę i koszty DR.

Definicja

Kluczowe metryki DR

Strategie DR

DR Testing

Dlaczego to ważne?

Powiązane pojęcia

Rozwijaj się z Analify

Definicja

Kluczowe metryki DR

Strategie DR

DR Testing

Dlaczego to ważne?

Powiązane pojęcia

Rozwijaj się z Analify

Newsletter dla analityków biznesowych