Narzędzia
Portfolio Roadmapa Słownik Blog Portal dla BA
← Słownik
Dane i BI

Data Lake

Centralne repozytorium przechowujące surowe dane w natywnym formacie — strukturalne, półstrukturalne i niestrukturalne.

Definicja

Data Lake to architektura przechowywania danych, w której surowe dane są składowane w natywnym formacie (pliki, JSON, CSV, obrazy, logi) bez wcześniejszej transformacji.

Data Lake vs Data Warehouse

Aspekt Data Lake Data Warehouse
Dane Surowe, wszystkie formaty Przetworzone, ustrukturyzowane
Schema Schema-on-read (przy odczycie) Schema-on-write (przy zapisie)
Użytkownicy Data Scientists, ML Engineers Analitycy, raportowanie
Koszt Niski (tanie storage) Wysoki (obliczenia + storage)
Jakość Różna (surowe dane) Wysoka (po ETL)
Elastyczność Bardzo wysoka Niska (sztywny schemat)

Strefy Data Lake

Strefa Zawartość Przykład
Raw (Landing) Surowe dane bez zmian Pliki CSV z systemów źródłowych
Cleaned Dane po walidacji i czyszczeniu Usunięte duplikaty, poprawione formaty
Curated Dane gotowe do analiz Zagregowane, połączone tabele
Sandbox Eksperymenty Data Science Modele ML, notebooks

Anti-pattern: Data Swamp

Data Lake bez zarządzania staje się „bagnem danych" — nikt nie wie, co tam jest, dane są nieużywalne. Zapobieganie: - Katalog danych (data catalog) - Metadata management - Data lineage (śledzenie pochodzenia) - Polityki retencji

Dlaczego to ważne?

BA definiuje jakie dane są potrzebne biznesowi i pomaga w katalogu danych, aby Data Lake nie stał się Data Swamp.

Powiązane pojęcia

Rozwijaj się z Analify

Nowe pojęcia, artykuły i materiały — prosto na email. Bez spamu.

Dołącz do społeczności analityków biznesowych — szkolenia wideo, prelekcje na żywo i wsparcie ekspertów

Sprawdź Analify