Tutoriel Fivetran : importer ses données dans BigQuery

Tutoriel Fivetran : importer ses données dans BigQuery

Dans cet exemple, nous utilisons Fivetran pour créer un petit "Marketing Data Warehouse" dans Google BigQuery. Il inclut :
  • Des données issues de Google Analytics
  • Des données issues de Hubspot
  • Des données issues de Google Search Console

Qu'est-ce qu'un "Marketing Data Warehouse"

Un "Marketing Data Warehouse", ou "Cloud Data Warehouse" est un entrepôt de données, dans lequel sont déversées des données issues de toutes les sources digitales (web analytics, CRM, acquisition, etc...).
L'objectif est de permettre ensuite aux équipes de réaliser des analyses, des reporting, et des optimisations "data-driven" à partir de cette donnée.
Techniquement, il s'agit de déverser des sources de donnée dans un entrepôt unique via des "pipelines de données". Dans cet article, nous montrons comment réaliser ces pipelines de données avec Fivetran.
Schématiquement, voilà à quoi cela peut ressembler :
Image without caption

Quelle donnée allons-nous utiliser ?

Dans cet exemple, nous allons intégrer des données issues de Google Search Console, Hubspot et Google Analytics

Hubspot

Dans un article précédent, nous avons montré comment créer un identifiant unique permettant de relier un visiteur dans Google Analytics à un lead dans Hubspot.
Synchroniser ses données client (first party) avec Google Ads et Facebook AdsSynchroniser ses données client (first party) avec Google Ads et Facebook Ads
Nous voulons donc exporter l'ensemble des leads d'Hubspot, afin de faire le lien entre les conversions offline et les actions online.

Google Search Console

Des données intéressantes, puisque cela permet de savoir quels mots clé ont généré des clics depuis Google vers votre site.
Afin d'en savoir plus, voir ici :
Google Search Console to BigQuery avec PythonGoogle Search Console to BigQuery avec Python

Google Analytics

La donnée de Google Analytics. En particulier, nous allons exporter les données correspondant aux utilisateurs ayant généré des leads dans Hubspot : quel canal d'entrée, quelles pages vues, etc...

Etape 1 : créer votre premier connecteur dans Fivetran : Hubspot vers BigQuery

La première chose qui vous est proposés après la création d'un compte, est de créer un connecteur. D'abord, choisir la source. Ici Hubspot :
Image without caption
Ensuite, choisir la destination. Nous choisissons BigQuery
Image without caption

Configurer la connexion avec Hubspot

Vous devez simplement choisir le nom du "dataset" de destination (qui sera créé au moment de la connexion, directement par Fivetran). Nous choisissons aussi la zone (Europe).
Il faut ensuite cliquer pour autoriser la connexion :
Image without caption
On arrive dans une fenêtre dans Hubspot, qui nous demande de valider la demande :
Image without caption
Puis retour dans l'interface de Fivetran :
Image without caption
La connexion est testée :
Image without caption

Configurer la connexion avec Google BigQuery

L'écran suivant dans Fivetran nous permet de configurer la connexion avec Google BigQuery :
Image without caption

Créer un projet dans Google Cloud Platform

Nous partons du principe que vous avez déjà un compte dans Google Cloud Platform. Dans GCP, il faut d'abord créer un projet :
Image without caption
Le "Project ID" est celui qui est demandé par Fivetran.

Créer un "servie account" pour donner accès en écriture à BigQuery

Toujours dans Google Cloud Platform, aller dans la section "IAM & Admin". Créer un nouvel utilisateur, avec l'email qui est indiqué par Fivetran :
Image without caption
Puis lui donner les droits à minima de "BigQuery user" :
Image without caption
Ensuite, terminer de remplir les informations de connexion dans Fivetran :
Image without caption
Fivetran teste la connexion :
Image without caption

Choisir les données à importer

Une fois les tests effectués, vous arriverez sur le panneau de configuration suivant :
Image without caption
Vous pouvez choisir les tables à synchroniser, ainsi que la fréquence de synchronisation. Chose intéressante, pour chaque source de donnée, Fivetran fournit un schéma du modèle de données :
Image without caption
Et voilà : les tables synchronisées sont maintenant disponibles dans Google BigQuery
Image without caption

Import des données Google Search Console

Prenons un autre exemple, très simple. Il est intéressant de le comparer au travail qu'il faudrait faire pour réaliser le même connecteur soi-même :
Tutoriel : déployer une application Python avec Google App EngineTutoriel : déployer une application Python avec Google App EngineGoogle Search Console to BigQuery avec PythonGoogle Search Console to BigQuery avec Python
Dans l'interface de Fivetran, créer un nouveau connecteur :
Image without caption
Choisir le nom du dataset dans lequel les données seront stockées, puis cliquer sur "Authorize" :
Image without caption
Ensuite, choisir les domaines à synchroniser :
Image without caption
Enfin, choisir les tables à synchroniser. A noter que nous avons accès à l'ensemble des call APIs possibles dans Google Search Console, ce qui n'est pas le cas de tous les outils :
Image without caption
Et voilà ! La donnée se met à jour tous les jours, et est disponible dans Google BigQuery :
Image without caption

Import des données Google Analytics

Si vous ne possédez pas un compte Google Analytics, la procédure est un peu plus subtile, car il faut bien comprendre la donnée, et les limites de la "Core API" de Google Analytics.
Nous avons donc créé une page dédiée :

Autres possibilités offertes par Fivetran

Nous verrons dans d'autres articles comment nous pouvons :
  • Ajouter une transformation qui sera appliquée au moment du chargement :
Image without caption
  • Importer des fichiers csv :
    • Image without caption