Definicja
ETL (Extract, Transform, Load) to proces integracji danych z wielu źródeł do centralnego repozytorium.
3 kroki ETL
| Krok |
Opis |
Przykład |
| Extract |
Pobranie danych ze źródeł |
SELECT z bazy CRM, API call do Stripe |
| Transform |
Czyszczenie, mapowanie, agregacja |
Ujednolicenie formatów dat, obliczenie KPI |
| Load |
Załadowanie do Data Warehouse |
INSERT do BigQuery/Snowflake |
ETL vs ELT
| Aspekt |
ETL |
ELT |
| Transformacja |
Przed załadowaniem |
Po załadowaniu |
| Gdzie przetwarza |
Serwer ETL |
Data Warehouse |
| Nowoczesność |
Klasyczne (Informatica) |
Nowoczesne (dbt + cloud DW) |
| Skalowalność |
Ograniczona |
Wysoka (cloud compute) |
Narzędzia
| Narzędzie |
Typ |
Open source? |
| dbt |
Transform (T w ELT) |
Tak |
| Apache Airflow |
Orkiestracja ETL |
Tak |
| Fivetran |
E + L (managed) |
Nie |
| Talend |
Pełne ETL |
Częściowo |
Dlaczego BA powinien znać ETL?
- Definiuje logikę transformacji (reguły biznesowe na danych)
- Określa częstotliwość (real-time vs batch co noc)
- Waliduje jakość danych po transformacji
Powiązane pojęcia