Data Lake

Definicja

Data Lake to architektura przechowywania danych, w której surowe dane są składowane w natywnym formacie (pliki, JSON, CSV, obrazy, logi) bez wcześniejszej transformacji.

Data Lake vs Data Warehouse

Aspekt	Data Lake	Data Warehouse
Dane	Surowe, wszystkie formaty	Przetworzone, ustrukturyzowane
Schema	Schema-on-read (przy odczycie)	Schema-on-write (przy zapisie)
Użytkownicy	Data Scientists, ML Engineers	Analitycy, raportowanie
Koszt	Niski (tanie storage)	Wysoki (obliczenia + storage)
Jakość	Różna (surowe dane)	Wysoka (po ETL)
Elastyczność	Bardzo wysoka	Niska (sztywny schemat)

Strefy Data Lake

Strefa	Zawartość	Przykład
Raw (Landing)	Surowe dane bez zmian	Pliki CSV z systemów źródłowych
Cleaned	Dane po walidacji i czyszczeniu	Usunięte duplikaty, poprawione formaty
Curated	Dane gotowe do analiz	Zagregowane, połączone tabele
Sandbox	Eksperymenty Data Science	Modele ML, notebooks

Anti-pattern: Data Swamp

Data Lake bez zarządzania staje się „bagnem danych" — nikt nie wie, co tam jest, dane są nieużywalne. Zapobieganie: - Katalog danych (data catalog) - Metadata management - Data lineage (śledzenie pochodzenia) - Polityki retencji

Dlaczego to ważne?

BA definiuje jakie dane są potrzebne biznesowi i pomaga w katalogu danych, aby Data Lake nie stał się Data Swamp.

Definicja

Data Lake vs Data Warehouse

Strefy Data Lake

Anti-pattern: Data Swamp

Dlaczego to ważne?

Powiązane pojęcia

Rozwijaj się z Analify

Definicja

Data Lake vs Data Warehouse

Strefy Data Lake

Anti-pattern: Data Swamp

Dlaczego to ważne?

Powiązane pojęcia

Rozwijaj się z Analify

Newsletter dla analityków biznesowych