Tutoriel Fivetran : importer ses données dans BigQuery
Dans cet exemple, nous utilisons Fivetran pour créer un petit "Marketing Data Warehouse" dans Google BigQuery. Il inclut :
- Des données issues de Google Analytics
- Des données issues de Hubspot
- Des données issues de Google Search Console
Qu'est-ce qu'un "Marketing Data Warehouse"
Un "Marketing Data Warehouse", ou "Cloud Data Warehouse" est un entrepôt de données, dans lequel sont déversées des données issues de toutes les sources digitales (web analytics, CRM, acquisition, etc...).
L'objectif est de permettre ensuite aux équipes de réaliser des analyses, des reporting, et des optimisations "data-driven" à partir de cette donnée.
Techniquement, il s'agit de déverser des sources de donnée dans un entrepôt unique via des "pipelines de données". Dans cet article, nous montrons comment réaliser ces pipelines de données avec Fivetran.
Schématiquement, voilà à quoi cela peut ressembler :
Quelle donnée allons-nous utiliser ?
Dans cet exemple, nous allons intégrer des données issues de Google Search Console, Hubspot et Google Analytics
Hubspot
Dans un article précédent, nous avons montré comment créer un identifiant unique permettant de relier un visiteur dans Google Analytics à un lead dans Hubspot.
Synchroniser ses données client (first party) avec Google Ads et Facebook AdsNous voulons donc exporter l'ensemble des leads d'Hubspot, afin de faire le lien entre les conversions offline et les actions online.
Google Search Console
Des données intéressantes, puisque cela permet de savoir quels mots clé ont généré des clics depuis Google vers votre site.
Afin d'en savoir plus, voir ici :
Google Search Console to BigQuery avec PythonGoogle Analytics
La donnée de Google Analytics. En particulier, nous allons exporter les données correspondant aux utilisateurs ayant généré des leads dans Hubspot : quel canal d'entrée, quelles pages vues, etc...
Etape 1 : créer votre premier connecteur dans Fivetran : Hubspot vers BigQuery
La première chose qui vous est proposés après la création d'un compte, est de créer un connecteur. D'abord, choisir la source. Ici Hubspot :
Ensuite, choisir la destination. Nous choisissons BigQuery
Configurer la connexion avec Hubspot
Vous devez simplement choisir le nom du "dataset" de destination (qui sera créé au moment de la connexion, directement par Fivetran). Nous choisissons aussi la zone (Europe).
Il faut ensuite cliquer pour autoriser la connexion :
On arrive dans une fenêtre dans Hubspot, qui nous demande de valider la demande :
Puis retour dans l'interface de Fivetran :
La connexion est testée :
Configurer la connexion avec Google BigQuery
L'écran suivant dans Fivetran nous permet de configurer la connexion avec Google BigQuery :
Créer un projet dans Google Cloud Platform
Nous partons du principe que vous avez déjà un compte dans Google Cloud Platform. Dans GCP, il faut d'abord créer un projet :
Le "Project ID" est celui qui est demandé par Fivetran.
Créer un "servie account" pour donner accès en écriture à BigQuery
Toujours dans Google Cloud Platform, aller dans la section "IAM & Admin". Créer un nouvel utilisateur, avec l'email qui est indiqué par Fivetran :
Puis lui donner les droits à minima de "BigQuery user" :
Ensuite, terminer de remplir les informations de connexion dans Fivetran :
Fivetran teste la connexion :
Choisir les données à importer
Une fois les tests effectués, vous arriverez sur le panneau de configuration suivant :
Vous pouvez choisir les tables à synchroniser, ainsi que la fréquence de synchronisation. Chose intéressante, pour chaque source de donnée, Fivetran fournit un schéma du modèle de données :
Et voilà : les tables synchronisées sont maintenant disponibles dans Google BigQuery
Import des données Google Search Console
Prenons un autre exemple, très simple. Il est intéressant de le comparer au travail qu'il faudrait faire pour réaliser le même connecteur soi-même :
Tutoriel : déployer une application Python avec Google App EngineGoogle Search Console to BigQuery avec PythonDans l'interface de Fivetran, créer un nouveau connecteur :
Choisir le nom du dataset dans lequel les données seront stockées, puis cliquer sur "Authorize" :
Ensuite, choisir les domaines à synchroniser :
Enfin, choisir les tables à synchroniser. A noter que nous avons accès à l'ensemble des call APIs possibles dans Google Search Console, ce qui n'est pas le cas de tous les outils :
Et voilà ! La donnée se met à jour tous les jours, et est disponible dans Google BigQuery :
Import des données Google Analytics
Si vous ne possédez pas un compte Google Analytics, la procédure est un peu plus subtile, car il faut bien comprendre la donnée, et les limites de la "Core API" de Google Analytics.
Nous avons donc créé une page dédiée :
Autres possibilités offertes par Fivetran
Nous verrons dans d'autres articles comment nous pouvons :
- Ajouter une transformation qui sera appliquée au moment du chargement :
- Importer des fichiers csv :