📂

Google Cloud Platform

Twitter LinkedIn Nos services

Google Cloud Platform : quels outils pour la data ?

Dans cette section, nous traiterons des produits de Google Cloud Platform intéressants pour des applications data. Que ce soit pour des data analysts, data scientists, et data ingénieurs. Cette liste est non exhaustive.

Tous les articles concernant Google BigQuery

🤙
Présentation de l'interface web de Google Big Query
🤙
Chrome User Experience Report : explorer les données dans Big Query
🤙
Google Search Console to BigQuery avec Python
🤙
Tutoriel : déployer une application Python avec Google App Engine

Qu'est-ce que Google Cloud Platform ?

Google Cloud Platform (aussi appelé GCP, ou GCloud) est la plateforme de cloud computing proposée par Google. Ses principaux concurrents d'un point de vue global sont Amazon Web Services (le leader mondial sur le marché), et Microsoft Azure.

Goocle Cloud platform est en fait une agrégation d'un nombre important d'offres. Certaines étant dédiées au développement d'applications, plus orientées "DevOps" donc. D'autres dédiées à des applications "Data"

Google Big Query

Google Big Query est l'élément central de la plupart des projets data sur Google Cloud Platform. ll s'agit du "Cloud Data Warehouse" de Google. En gros, une base de donnée scalable, associée à des capacités de requêtage (SQL), et des capacités de calcul et de Machine learning.

Ses principaux concurrents sont Amazon Redshift chez AWS, et Snowflake. Et dans une moindre mesure Microsoft Azure Cosmos DB.

Google App Engine, Cloud function et Cloud Run

Il s'agit de 3 plate-formes de déploiement d'applications dans le cloud. Nous utiliserons essentiellement Google App Engine, pour déployer des applications data en Python.

Avec l'article ci-dessous, vous pouvez avoir un exemple de la manière dont on peut utiliser Google App Engine.

  • Etape 1 : créer une application Python qui requête les APIs Google Search console et stocke les données dans Google BigQuery
  • Etape 2 : déployer l'application dans Google App Engine, et mettre à jour périodiquement la donnée

Google Cloud Function

Une alternative à Google App Engine pour déployer une simple fonction dans le cloud. Utile par exemple pour requêter une API de manière périodique. Il s’agit de l’équivalent d’Amazon Lambda chez AWS.

Google Cloud Dataprep

Google Cloud Dataprep est un outil de préparation de données. Il permet à ses utilisateurs d’explorer, de préparer et de nettoyer des sources de données Google Cloud Storage et BigQuery.

C’est un outil très similaire à la fonctionnalité de “flow” de Dataïku par exemple. On peut y créer un flux de nettoyage de données, et de croisements (Join). Et explorer les données. Exemple ci-dessous :

image

Google Cloud Storage

un système de stockage en ligne de fichiers, accessibles en ligne de commande.

🤙
Introduction à Google Cloud Storage

Cloud Datalab

Tout simplement un notebook Jupyter dans l'environnement Google Cloud