Definicja
Disaster Recovery (DR) to zbiór polityk, narzędzi i procedur umożliwiających odtworzenie systemów IT po katastrofie (awaria sprzętu, cyberatak, klęska żywiołowa).
Kluczowe metryki DR
| Metryka |
Definicja |
Przykład |
| RTO (Recovery Time Objective) |
Maks. czas przywrócenia systemu |
RTO = 4h → system musi działać w 4h |
| RPO (Recovery Point Objective) |
Maks. dopuszczalna utrata danych |
RPO = 1h → backup co godzinę |
| MTTR (Mean Time To Recovery) |
Średni czas naprawy |
MTTR = 2h (historycznie) |
| MTBF (Mean Time Between Failures) |
Średni czas między awariami |
MTBF = 720h (co 30 dni) |
Strategie DR
| Strategia |
RTO |
Koszt |
Opis |
| Cold site |
Dni |
Niski |
Puste pomieszczenie, trzeba postawić wszystko |
| Warm site |
Godziny |
Średni |
Sprzęt gotowy, dane z ostatniego backupu |
| Hot site |
Minuty |
Wysoki |
Duplikat środowiska, synchronizacja danych |
| Active-Active |
Sekundy |
Bardzo wysoki |
Dwa równoległe centra, load balancing |
DR Testing
| Typ testu |
Opis |
Częstotliwość |
| Tabletop exercise |
Dyskusja „co jeśli" |
Kwartalnie |
| Walkthrough |
Przejście procedur krok po kroku |
Półrocznie |
| Simulation |
Symulacja awarii (bez wyłączenia prod) |
Rocznie |
| Full failover |
Rzeczywiste przełączenie na DR site |
Rocznie |
Dlaczego to ważne?
BA definiuje RTO i RPO dla procesów biznesowych — to wymagania niefunkcjonalne, które determinują architekturę i koszty DR.
Powiązane pojęcia