Google BigQuery : les avantages de cet outil Data Warehouse
Avec l’avènement du digital, les bases de données traditionnelles se sont retrouvées dans l’incapacité de faire face à l’immense augmentation du volume de données. Par ricochet, gérer et analyser ces volumes gigantesques dans un laps de temps raisonnable est devenu un véritable défi pour les entreprises. C’est alors que le data warehouse BigQuery rentre en jeu.
Qu’est ce que BigQuery ?
C’est une base de données qui permet de stocker et d’interroger des volumes gigantesques de data sans se soucier de la gestion et de la maintenance de l’infrastructure car celles-ci sont entièrement gérées par Google.
BigQuery permet de charger ce qu’on appelle le ‘batch data’ depuis votre ordinateur, Cloud Storage, Amazon S3… mais pas que ! Elle supporte aussi le streaming. L’interaction avec BigQuery est rendue facile grâce aux multitudes interfaces qu’elle offre : Cloud Consol UI, Command-line Tool ou encore possible via l’API avec une librairie de votre choix (par exemple Python).
Afin d’optimiser la flexibilité, BigQuery sépare le stockage du moteur de calcul. Cela permet d’interroger les données stockées sur la plateforme mais aussi des données externes. l’autre avantage est la capacité de faire évoluer l’un ou l’autre en fonction du besoin.
Le stockage sur BigQuery est optimisé pour exécuter des requêtes analytiques sur de grands ensembles de données.
Pour plus d’informations sur les avantages de cette architecture, rendez-vous sur cet article publié par Google.
L’organisation des données dans BigQuery
BigQuery est une base de données orientée colonne, ce qui signifie que chaque colonne est stockée séparément (contrairement aux bases de données relationnelles). Cela est très efficace car lors de la lecture, BigQuery charge en mémoire uniquement le contenu de la colonne concernée et non chaque champ de la ligne. Le schéma ci-dessous montre comment une table est stockée :
BigQuery présente les données sous forme d’ensembles qui contiennent des tables, cela permet donc d’isoler les ensembles de données les uns des autres en fonction des besoins de votre entreprise. On peut voir les Datasets comme des conteneurs, que l’on peut partager avec d’autres utilisateurs et éventuellement restreindre l’accès pour d’autres. En ce qui concerne les tables, ce sont des groupes logiques de données avec une organisation (un schéma) bien définie.
Quels sont les avantages de BigQuery ?
Voici une liste (non exhaustive) des avantages de BigQuery :
- BigQuery fournit des mécanismes pour un transfert automatisé de données.
- Il est possible de créer plusieurs niveaux d’accès pour une source de données.
- Des outils intuitifs tels que Looker Studio rendent les résultats des requêtes accessibles (Looker Studio est issu de la fusion récente entre Looker et Data Studio).
- BigQuery ML permet de construire et d’entraîner des modèles de machine learning directement avec les données stockées dans BigQuery en utilisant le langage SQL.
- BigQuery GIS permet aux organisations d’analyser des données géographiques directement dans BigQuery.
Le coût de BigQuery
Comme on l’a vu précédemment BigQuery sépare le stockage et le calcul, ce qui signifie que les tarifs se composent principalement de :
Tarifs de stockage : Google propose 10 Go gratuits chaque mois. Au-delà de cette quantité chaque Go sera facturé 0.020$.
Tarifs d’analyse (requêtes) : chaque To est facturé 5$ sachant que le premier To est gratuit chaque mois.
BigQuery facture également d’autres opérations y compris les insertions en flux continu et l’utilisation de l’API BigQuery Storage.
Pour plus d’informations, vous pouvez consulter cette page sur les Tarifs de BigQuery.
Concrètement, une entreprise souhaitant stocker 5 To et une estimation de 50 To d’analyse chaque mois sera facturée 100$ pour le stockage et 245$ pour les requêtes.
Il faut préciser qu’il y a deux classes de stockage dans BigQuery:
Données actives :
Si une table a été modifiée au cours des 90 derniers jours, elle est considérée comme un stockage actif ce qui fait que le stockage sera facturé 0.02$ pour 1 Go.
Données archivées:
Contrairement aux données actives, si une table n’est pas modifiée pendant 90 jours, elle est considérée comme un stockage à long terme et le prix du stockage diminue de 50 %. Maintenant si vous modifiez les données de la table, le compteur de 90 jours se réinitialise.
L’une des bonnes pratiques pour minimiser le coût de stockage c’est de ne pas déplacer les données archivées vers Cloud Storage par exemple, car le prix sera automatiquement réduit de 50% et vous pourrez profiter pleinement de la puissance d’analyse (espace de stockage et moteur de calcul séparés).
En résumé, si votre besoin est d’analyser de grosses quantités de données alors BigQuery est idéal. Si votre entreprise souhaite exécuter des requêtes complètes et que le budget est limite, Azure SQL sera certainement plus adapté.
Leave a comment: