Definicja
Data Lake to architektura przechowywania danych, w której surowe dane są składowane w natywnym formacie (pliki, JSON, CSV, obrazy, logi) bez wcześniejszej transformacji.
Data Lake vs Data Warehouse
| Aspekt | Data Lake | Data Warehouse |
|---|---|---|
| Dane | Surowe, wszystkie formaty | Przetworzone, ustrukturyzowane |
| Schema | Schema-on-read (przy odczycie) | Schema-on-write (przy zapisie) |
| Użytkownicy | Data Scientists, ML Engineers | Analitycy, raportowanie |
| Koszt | Niski (tanie storage) | Wysoki (obliczenia + storage) |
| Jakość | Różna (surowe dane) | Wysoka (po ETL) |
| Elastyczność | Bardzo wysoka | Niska (sztywny schemat) |
Strefy Data Lake
| Strefa | Zawartość | Przykład |
|---|---|---|
| Raw (Landing) | Surowe dane bez zmian | Pliki CSV z systemów źródłowych |
| Cleaned | Dane po walidacji i czyszczeniu | Usunięte duplikaty, poprawione formaty |
| Curated | Dane gotowe do analiz | Zagregowane, połączone tabele |
| Sandbox | Eksperymenty Data Science | Modele ML, notebooks |
Anti-pattern: Data Swamp
Data Lake bez zarządzania staje się „bagnem danych" — nikt nie wie, co tam jest, dane są nieużywalne. Zapobieganie: - Katalog danych (data catalog) - Metadata management - Data lineage (śledzenie pochodzenia) - Polityki retencji
Dlaczego to ważne?
BA definiuje jakie dane są potrzebne biznesowi i pomaga w katalogu danych, aby Data Lake nie stał się Data Swamp.