Cómo utilizar las funciones agregadas de BigQuery
Analizar grandes conjuntos de datos para obtener información puede ser una tarea desalentadora. Con terabytes o incluso petabytes de datos, es imposible revisar manualmente filas y columnas. Aquí es donde BigQuery las funciones agregadas resultan muy útiles.
BigQuery es el almacén de datos empresariales de Google totalmente gestionado que permite realizar consultas rápidas en grandes conjuntos de datos. Una de las mayores ventajas de BigQuery es su capacidad para agregar datos, combinando información de varias filas para ayudarte a obtener información.
Con estas funciones, puede resumir y analizar fácilmente grandes cantidades de datos.
En este artículo, aprenderás todo lo que necesitas para empezar a utilizar funciones sencillas como COUNT, SUM, AVG, MIN y MAX.
¿Qué son las funciones agregadas en BigQuery?
Las funciones de agregación son un componente esencial de BigQuery. Estas potentes funciones permiten obtener información significativa de grandes conjuntos de datos realizando cálculos en varias filas de datos.
Con las funciones de agregación, puede combinar varias filas de datos en un único resultado o salida. Algunos ejemplos son el cálculo de totales, medias, máximos o mínimos en un rango de datos.
Tanto si necesita sumar los ingresos a lo largo del tiempo, hallar el valor medio de un pedido o contar el número de clientes, las funciones de agregación le ayudarán. He aquí algunos ejemplos de estas funciones.
AVG: devuelve la media de todos los valores no nulos.
CONTAR: devuelve el número total de filas.
CONSEJO: devuelve el número de filas que cumplen una condición especificada.
MAX: devuelve el valor máximo no nulo.
MIN: devuelve el valor mínimo no nulo.
SUM: devuelve la suma de todos los valores no nulos.
Echemos un vistazo a estas funciones de agregación y aprendamos a sacarles el máximo partido. Utilizaremos este conjunto de datos públicos que contiene información sobre toda la población mundial dividida por países, a partir del año 1960.
Funciones agregadas de BigQuery: AVG
Empecemos con la función AVG. Esta función devolverá la media de todos los valores no nulos. Aquí está la sintaxis:
SELECT AVG(columna)
FROM nombre_tabla;
Voy a escribir una consulta para calcular la media de la población de estos 6 países en el año 2000: China, Alemania, Rusia, Japón, India y Brasil.
SELECT AVG(año_2000)
FROM `bigquery-public-data.world_bank_global_population.population_by_country`
WHERE country IN (‘China’, ‘Alemania’, ‘Rusia’, ‘Japón’, ‘India’, ‘Brasil’)
LÍMITE 100;
Desglosemos esta fórmula:
SELECT AVG(año_2000) - Esta sentencia especifica que queremos calcular la media de la columna especificada.
FROM `bigquery-public-data.world_bank_global_population.population_by_country` - Especifica la tabla que estamos consultando.
WHERE country IN (‘China’, ‘Alemania’, ‘Rusia’, ‘Japón’, ‘India’, ‘Brasil’) - Esta cláusula WHERE filtra las filas sólo a los países entre paréntesis.
Cuando ejecutamos la consulta, BigQuery nos devuelve la media de la población de estos 6 países.
Funciones agregadas de BigQuery: CONTAR
Ahora vamos a echar un vistazo más de cerca a la función COUNT. Cuando ejecutamos esta función, BigQuery devuelve el número total de filas. Esta es la sintaxis que usaremos:
SELECT CONTAR(columna)
FROM nombre_tabla;
Ejecutaré una consulta sencilla para contar el número de filas que contiene la tabla. Utilizaremos la columna “país” como referencia.
SELECT CONTAR(país)
FROM `bigquery-public-data.world_bank_global_population.population_by_country`
LÍMITE 100;
Tras ejecutar esta consulta, BigQuery ha devuelto el número de filas: 264.
Funciones de agregación de BigQuery: COUNTIF
Con la función COUNTIF, BigQuery devolverá el número de filas que cumplen una determinada condición. Esta es la sintaxis:
SELECT COUNTIF(condición)
FROM nombre_tabla;
Supongamos que quiero que BigQuery me devuelva el número de filas en las que la población es inferior a 100.000 habitantes en un año concreto. Escribiré la consulta especificando la condición: la columna año_2000 es menor que 100.000.
Este es el aspecto que tendría la consulta:
SELECT COUNTIF(year_2000<100000)
FROM `bigquery-public-data.world_bank_global_population.population_by_country`
LÍMITE 100;
Cuando ejecuto esta consulta, BigQuery devuelve el número de filas que cumplen esta condición: 27.
Funciones de agregación de BigQuery: MAX
Utilizando la función MAX, puedo pedir a BigQuery que devuelva el máximo valor no nulo en una columna específica. Esta es la sintaxis que utilizaremos.
SELECT MAX(columna)
FROM nombre_tabla;
Escribiré una consulta que devuelva el valor máximo contenido en la columna año_2000. Además, añadiré una cláusula WHERE para restringir la consulta a estos 6 países: China, Alemania, Rusia, Japón, India y Brasil.
SELECT MAX(año_2000)
FROM `bigquery-public-data.world_bank_global_population.population_by_country`
WHERE country IN (‘China’,’Alemania’,’Rusia’,’Japón’,‘India’,‘Brasil’)
LÍMITE 100;
Cuando ejecuto la consulta, me devuelve el valor máximo dentro del rango especificado: 1,262,645,000.
Funciones de agregación de BigQuery: MIN
A diferencia de la función MAX, la función MIN devuelve el valor mínimo de una columna. La sintaxis es la siguiente.
SELECT MIN(columna)
FROM nombre_tabla;
Ahora, sustituiré la función MAX por MIN.
SELECT MIN(año_2000)
FROM `bigquery-public-data.world_bank_global_population.population_by_country`
WHERE country IN (‘China’, ‘Alemania’,’Rusia’,’Japón’, ‘India’, ‘Brasil’)
LÍMITE 100;
BigQuery acaba de devolver el valor mínimo. La población más pequeña está al norte de los 82 millones.
Funciones de agregación de BigQuery: SUMA
Por último, veremos más de cerca la función SUM. Usando esta función, le pediré a BigQuery que calcule la suma de todos los valores.
SELECT SUMA(columna)
FROM nombre_tabla;
A continuación, escribiré una consulta para calcular la suma de la población de los mismos 6 países.
SELECT SUMA(año_2000)
FROM `bigquery-public-data.world_bank_global_population.population_by_country`
WHERE country IN (‘China’, ‘Alemania’,’Rusia’,’Japón’, ‘India’, ‘Brasil’)
LÍMITE 100;
Como resultado, BigQuery ha calculado la población de estos 6 países: más de 2.700 millones.
Cómo utilizar las funciones agregadas de BigQuery
Ahí lo tienes. Así es como puede utilizar las funciones de agregación en BigQuery. Usando estas funciones, puedes combinar y resumir datos de múltiples filas en un único valor. Si desea combinar tablas en su lugar, eche un vistazo a este artículo sobre cómo utilizar Uniones BigQuery.
