Google BigQuery et Cloud platform

Google Cloud Platform : quels outils pour la data ?

Dans cette section, nous traiterons des produits de Google Cloud Platform intéressants pour des applications data. Que ce soit pour des data analysts, data scientists, et data ingénieurs. Cette liste est non exhaustive.

Tous les articles concernant Google BigQuery et Cloud Platform

Présentation de l'interface web de Google BigQueryPrésentation de l'interface web de Google BigQueryImporter les données Matomo vers Google BigQuery, avec Google Cloud FunctionImporter les données Matomo vers Google BigQuery, avec Google Cloud FunctionChrome User Experience Report : explorer les données dans Big QueryChrome User Experience Report : explorer les données dans Big QueryGoogle Search Console to BigQuery avec PythonGoogle Search Console to BigQuery avec PythonTutoriel : déployer une application Python avec Google App EngineTutoriel : déployer une application Python avec Google App EngineTutoriel : créer un projet GCP, et partager les accèsTutoriel : créer un projet GCP, et partager les accèsTutoriel : gérer le “Row Level Security” dans Looker Studio & BigQuery avec la fonction SESSION_USERTutoriel : gérer le “Row Level Security” dans Looker Studio & BigQuery avec la fonction SESSION_USERSQL : Comment lisser des coûts entre 2 dates (sur plusieurs mois) dans BigQuerySQL : Comment lisser des coûts entre 2 dates (sur plusieurs mois) dans BigQuerySQL : Créer un groupe de contrôle dans BigQuerySQL : Créer un groupe de contrôle dans BigQuerySQL : Comment supprimer les doublons d'une liste (array) sur BigQuerySQL : Comment supprimer les doublons d'une liste (array) sur BigQuerySQL : Comment traiter des chaînes de caractères (string) JSON dans BigQuerySQL : Comment traiter des chaînes de caractères (string) JSON dans BigQuerySQL : Comment traiter les lignes en doubles dans ma base de donnée BigQuerySQL : Comment traiter les lignes en doubles dans ma base de donnée BigQuerySQL : Comment calculer la taille de mes tables et dataset dans BigQuerySQL : Comment calculer la taille de mes tables et dataset dans BigQuery

Qu'est-ce que Google Cloud Platform ?

Google Cloud Platform (aussi appelé GCP, ou GCloud) est la plateforme de cloud computing proposée par Google. Ses principaux concurrents d'un point de vue global sont Amazon Web Services (le leader mondial sur le marché), et Microsoft Azure.
Goocle Cloud platform est en fait une agrégation d'un nombre important d'offres. Certaines étant dédiées au développement d'applications, plus orientées "DevOps" donc. D'autres dédiées à des applications "Data"

Google Big Query

Google Big Query est l'élément central de la plupart des projets data sur Google Cloud Platform. ll s'agit du "Cloud Data Warehouse" de Google. En gros, une base de donnée scalable, associée à des capacités de requêtage (SQL), et des capacités de calcul et de Machine learning.
Ses principaux concurrents sont Amazon Redshift chez AWS, et Snowflake. Et dans une moindre mesure Microsoft Azure Cosmos DB.

Google App Engine, Cloud function et Cloud Run

Il s'agit de 3 plate-formes de déploiement d'applications dans le cloud. Nous utiliserons essentiellement Google App Engine, pour déployer des applications data en Python.
Avec l'article ci-dessous, vous pouvez avoir un exemple de la manière dont on peut utiliser Google App Engine.
  • Etape 1 : créer une application Python qui requête les APIs Google Search console et stocke les données dans Google BigQuery
  • Etape 2 : déployer l'application dans Google App Engine, et mettre à jour périodiquement la donnée

Google Cloud Function

Une alternative à Google App Engine pour déployer une simple fonction dans le cloud. Utile par exemple pour requêter une API de manière périodique. Il s’agit de l’équivalent d’Amazon Lambda chez AWS.

Google Cloud Dataprep

Google Cloud Dataprep est un outil de préparation de données. Il permet à ses utilisateurs d’explorer, de préparer et de nettoyer des sources de données Google Cloud Storage et BigQuery.
C’est un outil très similaire à la fonctionnalité de “flow” de Dataïku par exemple. On peut y créer un flux de nettoyage de données, et de croisements (Join). Et explorer les données. Exemple ci-dessous :
Image without caption

Google Cloud Storage

un système de stockage en ligne de fichiers, accessibles en ligne de commande.
Introduction à Google Cloud StorageIntroduction à Google Cloud Storage

Cloud Datalab

Tout simplement un notebook Jupyter dans l'environnement Google Cloud