Comment utiliser les fonctions agrégées de BigQuery ?

Comment utiliser les fonctions agrégées de BigQuery ?

L'analyse de grands ensembles de données pour en tirer des enseignements peut s'avérer une tâche décourageante. Avec des téraoctets, voire des pétaoctets de données, il est impossible d'examiner manuellement les lignes et les colonnes. C'est là qu'intervient le BigQuery les fonctions d'agrégation sont très utiles.

BigQuery est l'entrepôt de données d'entreprise entièrement géré par Google qui vous permet d'exécuter des requêtes rapides sur de grands ensembles de données. L'un des principaux avantages de BigQuery est sa capacité à agréger les données, c'est-à-dire à combiner des informations provenant de plusieurs lignes pour vous aider à mieux comprendre la situation.

Grâce à ces fonctions, vous pouvez facilement résumer et analyser de grandes quantités de données.

Dans cet article, vous apprendrez tout ce dont vous avez besoin pour commencer à utiliser des fonctions simples telles que COUNT, SUM, AVG, MIN et MAX.

Que sont les fonctions d'agrégation dans BigQuery ?

Les fonctions d'agrégation sont un composant essentiel de BigQuery. Ces fonctions puissantes vous permettent d'obtenir des informations significatives à partir de grands ensembles de données en effectuant des calculs sur plusieurs lignes de données.

Les fonctions d'agrégation permettent de combiner plusieurs lignes de données en un seul résultat ou une seule sortie. Il s'agit par exemple de calculer des totaux, des moyennes, des maximums ou des minimums pour une série de données.

Qu'il s'agisse d'additionner des recettes au fil du temps, de déterminer la valeur moyenne d'une commande ou de compter le nombre de clients, les fonctions d'agrégation sont là pour vous aider. Voici quelques exemples de ces fonctions.

AVG: renvoie la moyenne de toutes les valeurs non nulles.

PAYS: renvoie le nombre total de lignes.

COUNTIF: renvoie le nombre de lignes qui répondent à une condition spécifiée.

MAX: renvoie la valeur maximale non nulle.

MIN: renvoie la valeur minimale non nulle.

SOMME: renvoie la somme de toutes les valeurs non nulles.

Jetons un coup d'œil à ces fonctions agrégées et apprenons à les utiliser au mieux. Nous utiliserons cet ensemble de données publiques contenant des informations sur l'ensemble de la population mondiale divisée par pays, à partir de l'année 1960.

Fonctions d'agrégation BigQuery : AVG

Commençons par la fonction AVG. Cette fonction renvoie la moyenne de toutes les valeurs non nulles. Voici la syntaxe :

SELECT AVG(colonne)

FROM nom_de_table ;

Je vais écrire une requête pour calculer la moyenne de la population de ces 6 pays en 2000 : Chine, Allemagne, Russie, Japon, Inde, Brésil.

SELECT AVG(année_2000)

FROM `bigquery-public-data.world_bank_global_population.population_by_country`

WHERE country IN (‘China’, ‘Germany’, ‘Russia’, ‘Japan’, ‘India’, ‘Brazil’)

LIMITE 100 ;

Décomposons cette formule :

SELECT AVG(année_2000) - Cette instruction indique que nous voulons calculer la moyenne de la colonne spécifiée. 

FROM `bigquery-public-data.world_bank_global_population.population_by_country` - Ceci spécifie la table que nous interrogeons.

WHERE country IN (‘China’, ‘Germany’, ‘Russia’, ‘Japan’, ‘India’, ‘Brazil’) - Cette clause WHERE filtre les lignes pour ne retenir que les pays entre parenthèses.

Fonctions d'agrégation BigQuery 2<br />

Lorsque nous exécutons la requête, BigQuery renvoie la moyenne de la population de ces 6 pays.

Fonctions d'agrégation BigQuery : COMPTAGE

Nous allons maintenant examiner de plus près la fonction COUNT. Lorsque nous exécutons cette fonction, BigQuery renvoie le nombre total de lignes. Voici la syntaxe que nous allons utiliser :

SELECT COUNT(colonne)

FROM nom_de_table ;

Je vais exécuter une requête simple pour compter le nombre de lignes contenues dans le tableau. Nous utiliserons la colonne “pays” comme référence.

SELECT COUNT(pays)

FROM `bigquery-public-data.world_bank_global_population.population_by_country`

LIMITE 100 ;

Fonctions d'agrégation BigQuery 3

Après avoir exécuté cette requête, BigQuery a renvoyé le nombre de lignes : 264.

Fonctions d'agrégation BigQuery : COUNTIF

Avec la fonction COUNTIF, BigQuery renvoie le nombre de lignes qui répondent à une certaine condition. Voici la syntaxe :

SELECT COUNTIF(condition)

FROM nom_de_table ;

Supposons que je veuille que BigQuery renvoie le nombre de lignes où la population est inférieure à 100 000 habitants pour une année donnée. J'écrirai la requête en spécifiant la condition suivante : la colonne année_2000 est inférieure à 100 000.

Voici à quoi ressemblerait la requête :

SELECT COUNTIF(year_2000<100000)

FROM `bigquery-public-data.world_bank_global_population.population_by_country`

LIMITE 100 ;

Fonctions d'agrégation BigQuery 4

Lorsque j'exécute cette requête, BigQuery renvoie le nombre de lignes qui remplissent cette condition : 27.

Fonctions d'agrégation BigQuery : MAX

En utilisant la fonction MAX, je peux demander à BigQuery de renvoyer la valeur maximale non nulle dans une colonne spécifique. Voici la syntaxe que nous allons utiliser.

SELECT MAX(colonne)

FROM nom_de_table ;

J'écrirai une requête qui renverra la valeur maximale contenue dans la colonne year_2000. En outre, j'ajouterai une clause WHERE pour restreindre la requête à ces 6 pays : Chine, Allemagne, Russie, Japon, Inde, Brésil.

SELECT MAX(année_2000)

FROM `bigquery-public-data.world_bank_global_population.population_by_country`

WHERE country IN (‘China’, ’Germany’, ’Russia’, ’Japan’, ‘India’, ‘Brazil’)

LIMITE 100 ;

Fonctions d'agrégation BigQuery 5

Lorsque j'exécute la requête, elle renvoie la valeur maximale dans l'intervalle spécifié : 1,262,645,000.

Fonctions d'agrégation BigQuery : MIN 

Contrairement à la fonction MAX, la fonction MIN renvoie la valeur minimale d'une colonne. Voici à quoi ressemble la syntaxe.

SELECT MIN(colonne)

FROM nom_de_table ;

Je vais maintenant remplacer la fonction MAX par MIN.

SELECT MIN(année_2000)

FROM `bigquery-public-data.world_bank_global_population.population_by_country`

WHERE country IN (‘China’, ‘Germany’, ’Russia’, ’Japan’, ‘India’, ‘Brazil’)

LIMITE 100 ;

Fonctions d'agrégation BigQuery 7

BigQuery vient de renvoyer la valeur minimale. La population la plus faible se situe au nord de 82 millions d'habitants.

Fonctions d'agrégation BigQuery : SOMME

Enfin, nous allons examiner de plus près la fonction SUM. En utilisant cette fonction, je demande à BigQuery de calculer la somme de toutes les valeurs.

SELECT SUM(colonne)

FROM nom_de_table ;

Ici, je vais écrire une requête pour calculer la somme de la population des 6 mêmes pays.

SELECT SUM(année_2000)

FROM `bigquery-public-data.world_bank_global_population.population_by_country`

WHERE country IN (‘China’, ‘Germany’, ’Russia’, ’Japan’, ‘India’, ‘Brazil’)

LIMITE 100 ;

Fonctions d'agrégation BigQuery 6

BigQuery a ainsi calculé la population de ces 6 pays : plus de 2,7 milliards d'habitants.

Comment utiliser les fonctions agrégées de BigQuery ?

Et voilà ! Voilà comment vous pouvez utiliser les fonctions d'agrégation dans BigQuery. En utilisant ces fonctions, vous pouvez combiner et résumer les données de plusieurs lignes en une seule valeur. Si vous souhaitez plutôt combiner des tableaux, consultez cet article sur l'utilisation des fonctions d'agrégation dans BigQuery. Jointures BigQuery.

Gérer facilement de grands ensembles de données

Utilisez Sheetgo pour connecter BigQuery à Google Sheets et traiter efficacement des données volumineuses.

Vous pouvez aussi aimer...

Au-delà de la RPA : Pourquoi l'avenir de l'automatisation des feuilles de calcul est axé sur les données

Vous avez cherché "RPA" pour éliminer les tâches répétitives. Mais que se passe-t-il si le problème n'est pas la tâche, mais les données ? Le "réflexe RPA" Chaque équipe...

Comment connecter votre lac aux utilisateurs professionnels - avec une base de données sans code

Vous avez investi dans un Lakehouse moderne. Pourquoi votre équipe financière vous demande-t-elle encore des exportations CSV ? Le paradoxe des données modernes Vous avez construit un...
science des données

Gestion des stocks de bijoux : comment choisir le bon système ?

La gestion des stocks de bijoux est plus complexe que dans d'autres secteurs. Avec des articles de grande valeur, des matières premières précieuses et des...