Definicja
Big Data to pojęcie opisujące zbiory danych, których objętość, szybkość przyrostu lub różnorodność przekraczają możliwości tradycyjnych systemów bazodanowych.
5V Big Data
| V | Angielski | Opis | Przykład |
|---|---|---|---|
| Volume | Objętość | Terabajty → petabajty | 500 mln transakcji/dzień |
| Velocity | Szybkość | Dane w czasie rzeczywistym | Streaming z IoT, social media |
| Variety | Różnorodność | Strukturalne + niestrukturalne | JSON, obrazy, logi, tekst |
| Veracity | Wiarygodność | Jakość i spójność danych | Duplikaty, braki, błędy |
| Value | Wartość | Użyteczność biznesowa | Insight → decyzja → zysk |
Technologie Big Data
| Warstwa | Technologie |
|---|---|
| Przechowywanie | Hadoop HDFS, S3, Data Lake |
| Przetwarzanie batch | Spark, MapReduce |
| Przetwarzanie stream | Kafka, Flink, Storm |
| Bazy NoSQL | MongoDB, Cassandra, HBase |
| Analityka | Spark SQL, Presto, Athena |
| Wizualizacja | Tableau, Power BI, Grafana |
Dlaczego to ważne?
BA musi rozumieć, kiedy problem wymaga podejścia Big Data (a kiedy wystarczy relacyjna baza danych + SQL). Wiele organizacji wdraża Big Data niepotrzebnie.