Existuje mnoho technických definic toho, co datové jezero je – můžete si je vygooglovat. Začněme ale raději tím, že si vysvětlíme, co datové jezero „dělá“ a jak podniku slouží. Nabízím shrnutí toho, co považuji za nejdůležitější vědět o datovém jezeru:
Datové jezero je JEDNOTNÉ úložiště pro uchovávání (fyzické nebo logické) veškerých dat podniku, včetně dat generovaných při interních transakcích i dat získaných od externích subjektů a z veřejně dostupných zdrojů. Preferovanou platformou pro datové jezero je Hadoop Distributed File System (HDFS). Ten poskytuje nákladově efektivní, výkonné, agilní, horizontálně škálovatelné prostředí pro shromažďování, přípravu, sjednocování, obohacování a analýzu rozmanitých strukturovaných a nestrukturovaných zdrojů dat.