Un Data Lake qu’est-ce que c’est ?
« Data Lake » est un terme que vous avez déjà dû entendre mais comprenez-vous vraiment son sens ? Nous avons sollicité notre expert, Benjamin Quemener, expert de la gouvernance des données à la Factory Data IA afin de répondre aux questions principales autour de ce sujet.
Publié le 15 novembre 2022 par Com itnovem
Un Data Lake qu’est-ce que c’est ?
Un Data Lake (lac de données en français) est un système de stockage de données massif. Contrairement aux bases de données classiques, le Data Lake ne nécessite pas de travail de rangement en amont. On peut y stocker toutes natures de données (structurés et non structurés). Cependant le Data Lake se charge uniquement de stocker les données et n’effectue aucun traitement dessus.
On pourrait le comparer à un disque dur mais qui est techniquement plus adapté au futur traitement de la donnée de manière massive. Afin de pouvoir par la suite croiser les informations. Ces lacs de données donnent donc la priorité au stockage rapide et volumineux de données hétérogènes.
Chez SNCF qui l’utilise ?
Le groupe SNCF utilise deux systèmes de Data Lake différents : celui d’Amazon Web Services ainsi que celui de Microsoft Azure. Anciennement situés en Ireland, le Groupe a décidé, pour une question de sécurité, de migrer les données vers les Data Center français de ces deux entreprises.
Chaque branche SNCF bénéficie alors d’un Data Lake AWS et d’un Data Lake Microsoft Azure (Réseau, SNCF, Voyageur …).
Comment est-il géré par ITNOVEM ?
La Factory Data IA d’ITNOVEM répond aux demandes internes de plus d’une vingtaine de projets en production. L’équipe se charge d’offrir une solution clé en main à ses clients en proposant son expertise, de l’étape de collecte des données au croisement des informations en passant par le traitement de celles-ci.
Le groupe SNCF s’adresse directement à ITNOVEM car spécialisé dans ce domaine. Nos experts ont réalisé une plateforme conforme aux règles de sécurité du Groupe permettant de gérer des projets comme les leurs.
Ce socle déjà disponible associé à nos compétences et expertises (data engineering, data science, architecture…) offre à nos clients un certain confort dans la réalisation de leurs projets.
Qu’est-ce que ça représente en termes de chiffres chez ITNOVEM ?
Chez ITNOVEM, le Data Lake c’est :
- Plus de 600 Téraoctets de données
- 8 milliards de lecture mensuel
- 235 millions d’écriture mensuel
- Une vingtaine de projets en production
Pour conclure
Un Data Lake est la pièce centrale de tout un écosystème technologique et doit être positionner dans son ensemble. C’est l’organe d’un système global permettant d’y déposer diverses informations dans l’objectif de croiser les données et d’en tirer de la valeur.