Dans une organisation centrée sur les données, chaque métier joue un rôle différent dans la gouvernance et la valorisation des données : le Data Owner définit les règles métiers pour les données de son domaine, le Data Product Owner coordonne les ingénieurs pour assurer le delivery des projets et data products.
C’est au carrefour de ces différents périmètres qu’on retrouve le Data Steward : le garant de la qualité des données exploitées.
1. Les missions du Data Steward2. Les compétences du Data Steward3. Data Stewards et gouvernance des données3.1 Qu’est-ce que Data Mesh ?3.2 Le Data Steward dans l’organisation Data Mesh
1. Les missions du Data Steward
Le Data Steward est un professionnel clé dans le domaine de la gestion des données au sein d'une entreprise. Son rôle est de garantir la qualité, mais aussi la cohérence et la sécurité des données tout au long de leur cycle de vie.
Normes & process
Le Data Steward supervise la collecte, l'enregistrement et le stockage des données de manière appropriée. Il établit des normes et des processus pour assurer la qualité et la fiabilité des données.
Qualité check
Une des tâches essentielles du Data Steward est de veiller à la qualité des données. Il effectue des contrôles réguliers pour identifier les erreurs ou les incohérences, et collabore avec les équipes concernées pour les corriger.
Sécurité des données
La protection des données est une préoccupation majeure pour le Data Steward. Il met en place des mesures de sécurité solides afin de prévenir tout accès non autorisé ou toute violation de confidentialité.
Conformité réglementaire
Le Data Steward s'assure que toutes les pratiques liées aux données respectent les réglementations en vigueur, telles que le RGPD. Il garantit la confidentialité et la sécurité des données sensibles.
Gouvernance des données
En tant que gardien des données, le Data Steward joue un rôle clé dans la gouvernance des données. Il établit des politiques et des directives pour guider l'utilisation, la diffusion et la conservation des données au sein de l'entreprise.
Data Owner, Data Steward : quelle différence ?
La casquette “Data Owner” est portée par des profils métiers (Marketing, Sales, etc.). Pour eux, c’est une activité parmi d’autres - à l’inverse, les enjeux de data quality sont le coeur de mission des Data Stewards.
2. Les compétences du Data Steward
Pour assumer pleinement ses missions, le Data Steward doit détenir un ensemble de compétences spécifiques. En plus d'une expertise technique solide dans les outils et technologies de gestion des données, il doit disposer de véritables soft skills relationnelles pour favoriser une collaboration harmonieuse entre toutes les parties prenantes.
Expertise en Gestion des Données
Le Data Steward doit se sentir à l'aise avec la Modern Data Stack, un ensemble d'outils de pointe pour gérer de vastes volumes de données. Une maîtrise du SQL, de Python ou d'outils statistiques est ainsi nécessaire pour garantir une surveillance minutieuse de la qualité des données.
Bon communicant, capacité à féderer
Au carrefour des enjeux métier, techniques et de livraison, le rôle du Data Steward est essentiellement collaboratif. Une bonne communication et une capacité à travailler en équipe sont donc cruciales pour maintenir la qualité et la cohérence des données.
Flexibilité et capacité d’adaptation
Les Data Stewards évoluent dans un environnement en constante évolution, où la gouvernance des données s'adapte sans cesse aux impératifs business. Une véritable capacité d'adaptation leur permet de rester agiles et pertinents dans leurs actions.
Connaissances en data visualization
Pour suivre les indicateurs clés de qualité, quantité et sécurité des données, une connaissance en data visualisation est un atout non négigeable. Cette compétence permet au Data Steward de mieux questionner la qualité des données dont il est responsable.
Organisation et Sens du Détail
Dans le monde complexe de la gestion des données, l'organisation et le souci du détail sont des compétences indispensables pour un Data Steward. Ils assurent une gestion rigoureuse et efficace des informations.
De manière plus spécifique, dans la stack du Data Steward, on peut retrouver :
- SQL et Datawarehouse (ex : BigQuery, Snowflake) : indispensable pour interroger, manipuler et analyser des bases de données relationnelles
- Outils de transformation (ex : Airflow, Dataform, dbt, etc) : pour orchestrer les pipelines de data et vérifier la cohérence
- Cloud Computing : Comprendre et exploiter les services cloud tels que AWS, Azure ou Google Cloud Platform est essentiel pour gérer efficacement les données à grande échelle.
- Sécurité des Données : Une connaissance approfondie des techniques de cryptage, de gestion des accès et des normes de sécurité des données est cruciale.
- Data Visualization : tels que Tableau, Power BI, Looker Studio
3. Data Stewards et gouvernance des données
3.1 Qu’est-ce que Data Mesh ?
Dans le domaine de la gouvernance des données, l’approche Data Mesh rencontre un franc succès depuis la sortie en 2019 du livre eponyme de Zhamak Dehghani.
En résumé, Data Mesh propose de repenser la gestion des données pour un modèle plus agile, adapatif et collaboratif. Contrairement aux approches traditionnelles où un département centralisé est responsable de toutes les données de l'entreprise, le Data Mesh délègue la responsabilité des données à chaque domaine métier, considérant les données comme des produits qui sont offerts et consommés par différents acteurs de l'organisation.
3.2 Le Data Steward dans l’organisation Data Mesh
Au cœur de cette nouvelle approche de gestion des données se trouve le Data Steward. En collaboration avec les Data Owners et les Data Product Owners, le Data Steward va assurer la mise en œuvre de la gouvernance des données au niveau de chaque domaine.
En effet, Le concept de Data Mesh met l'accent sur la coopération entre les équipes métiers, les Data Scientists, les Data Engineers et les Data Stewards.
Il favorise une approche itérative où les données sont continuellement améliorées et adaptées en fonction des besoins évolutifs de l'entreprise. Cette approche se base également sur la mise en place d'une infrastructure de données en libre-service, permettant aux utilisateurs de rechercher, explorer et accéder aux données de manière autonome.
En conclusion, le Data Steward est un maillon essentiel de la chaîne de valeur des données. Sa combinaison d'expertise technique, de compétences en communication et en collaboration, ainsi que sa capacité d'adaptation, fait de lui un garant de la qualité des données et un acteur clé dans le succès d'une infrastructure de données agile et performante.