Definicja
Data Quality (jakość danych) to miara tego, jak dobrze dane nadają się do zamierzonego celu. Obejmuje wiele wymiarów oceny.
6 wymiarów jakości danych
| Wymiar | Pytanie | Przykład złej jakości |
|---|---|---|
| Accuracy (dokładność) | Czy dane są poprawne? | Adres email: jan@gmial.com |
| Completeness (kompletność) | Czy mamy wszystkie dane? | 30% klientów bez numeru telefonu |
| Consistency (spójność) | Czy dane się nie kłócą? | Data urodzenia > data zamówienia |
| Timeliness (aktualność) | Czy dane są aktualne? | Adres sprzed 5 lat |
| Uniqueness (unikalność) | Czy nie ma duplikatów? | 3 rekordy tego samego klienta |
| Validity (poprawność) | Czy format jest prawidłowy? | NIP: „brak" zamiast 10 cyfr |
Koszty złej jakości danych
Gartner: organizacje tracą średnio 12.9 mln USD/rok z powodu złej jakości danych.
| Problem | Koszt |
|---|---|
| Duplikaty w CRM | Wielokrotne wysyłki marketingowe |
| Błędne adresy | Zwroty przesyłek |
| Niespójne raporty | Złe decyzje biznesowe |
| Niekompletne dane | Compliance violations |
Dlaczego to ważne?
BA definiuje reguły jakości danych (walidacje, formaty, wartości domyślne). Garbage in = garbage out.