Google Cloud Platform : quels outils pour la data ?
Dans cette section, nous traiterons des produits de Google Cloud Platform intéressants pour des applications data. Que ce soit pour des data analysts, data scientists, et data ingénieurs. Cette liste est non exhaustive.
Tous les articles concernant Google BigQuery et Cloud Platform
Qu'est-ce que Google Cloud Platform ?
Google Cloud Platform (aussi appelé GCP, ou GCloud) est la plateforme de cloud computing proposée par Google. Ses principaux concurrents d'un point de vue global sont Amazon Web Services (le leader mondial sur le marché), et Microsoft Azure.
Google Cloud platform est en fait une agrégation d'un nombre important d'offres. Certaines étant dédiées au développement d'applications, plus orientées "DevOps" donc. D'autres dédiées à des applications "Data"
Google BigQuery
Google BigQuery est l'élément central de la plupart des projets data sur Google Cloud Platform. ll s'agit du "Cloud Data Warehouse" de Google. En gros, une base de donnée scalable, associée à des capacités de requêtage (SQL), et des capacités de calcul et de Machine learning.
Ses principaux concurrents sont Amazon Redshift chez AWS, et Snowflake. Et dans une moindre mesure Microsoft Azure Cosmos DB.
Google App Engine, Cloud function et Cloud Run
Il s'agit de 3 plate-formes de déploiement d'applications dans le cloud. Nous utiliserons essentiellement Google App Engine, pour déployer des applications data en Python.
Avec l'article ci-dessous, vous pouvez avoir un exemple de la manière dont on peut utiliser Google App Engine.
- Etape 1 : créer une application Python qui requête les APIs Google Search console et stocke les données dans Google BigQuery
- Etape 2 : déployer l'application dans Google App Engine, et mettre à jour périodiquement la donnée
Google Cloud Function
Une alternative à Google App Engine pour déployer une simple fonction dans le cloud. Utile par exemple pour requêter une API de manière périodique. Il s’agit de l’équivalent d’Amazon Lambda chez AWS.
Google Cloud Dataprep
Google Cloud Dataprep est un outil de préparation de données. Il permet à ses utilisateurs d’explorer, de préparer et de nettoyer des sources de données Google Cloud Storage et BigQuery.
C’est un outil très similaire à la fonctionnalité de “flow” de Dataïku par exemple. On peut y créer un flux de nettoyage de données, et de croisements (Join). Et explorer les données. Exemple ci-dessous :
Google Cloud Storage
un système de stockage en ligne de fichiers, accessibles en ligne de commande.
Introduction à Google Cloud StorageCloud Datalab
Tout simplement un notebook Jupyter dans l'environnement Google Cloud