Cómo utilizar las funciones agregadas de BigQuery

Cómo utilizar las funciones agregadas de BigQuery

Analizar grandes conjuntos de datos para obtener información puede ser una tarea desalentadora. Con terabytes o incluso petabytes de datos, es imposible revisar manualmente filas y columnas. Aquí es donde BigQuery las funciones agregadas resultan muy útiles.

BigQuery es el almacén de datos empresariales de Google totalmente gestionado que permite realizar consultas rápidas en grandes conjuntos de datos. Una de las mayores ventajas de BigQuery es su capacidad para agregar datos, combinando información de varias filas para ayudarte a obtener información.

Con estas funciones, puede resumir y analizar fácilmente grandes cantidades de datos.

En este artículo, aprenderás todo lo que necesitas para empezar a utilizar funciones sencillas como COUNT, SUM, AVG, MIN y MAX.

¿Qué son las funciones agregadas en BigQuery?

Las funciones de agregación son un componente esencial de BigQuery. Estas potentes funciones permiten obtener información significativa de grandes conjuntos de datos realizando cálculos en varias filas de datos.

Con las funciones de agregación, puede combinar varias filas de datos en un único resultado o salida. Algunos ejemplos son el cálculo de totales, medias, máximos o mínimos en un rango de datos.

Tanto si necesita sumar los ingresos a lo largo del tiempo, hallar el valor medio de un pedido o contar el número de clientes, las funciones de agregación le ayudarán. He aquí algunos ejemplos de estas funciones.

AVG: devuelve la media de todos los valores no nulos.

CONTAR: devuelve el número total de filas.

CONSEJO: devuelve el número de filas que cumplen una condición especificada.

MAX: devuelve el valor máximo no nulo.

MIN: devuelve el valor mínimo no nulo.

SUM: devuelve la suma de todos los valores no nulos.

Echemos un vistazo a estas funciones de agregación y aprendamos a sacarles el máximo partido. Utilizaremos este conjunto de datos públicos que contiene información sobre toda la población mundial dividida por países, a partir del año 1960.

Funciones agregadas de BigQuery: AVG

Empecemos con la función AVG. Esta función devolverá la media de todos los valores no nulos. Aquí está la sintaxis:

SELECT AVG(columna)

FROM nombre_tabla;

Voy a escribir una consulta para calcular la media de la población de estos 6 países en el año 2000: China, Alemania, Rusia, Japón, India y Brasil.

SELECT AVG(año_2000)

FROM `bigquery-public-data.world_bank_global_population.population_by_country`

WHERE country IN (‘China’, ‘Alemania’, ‘Rusia’, ‘Japón’, ‘India’, ‘Brasil’)

LÍMITE 100;

Desglosemos esta fórmula:

SELECT AVG(año_2000) - Esta sentencia especifica que queremos calcular la media de la columna especificada. 

FROM `bigquery-public-data.world_bank_global_population.population_by_country` - Especifica la tabla que estamos consultando.

WHERE country IN (‘China’, ‘Alemania’, ‘Rusia’, ‘Japón’, ‘India’, ‘Brasil’) - Esta cláusula WHERE filtra las filas sólo a los países entre paréntesis.

Funciones agregadas de BigQuery 2<br />

Cuando ejecutamos la consulta, BigQuery nos devuelve la media de la población de estos 6 países.

Funciones agregadas de BigQuery: CONTAR

Ahora vamos a echar un vistazo más de cerca a la función COUNT. Cuando ejecutamos esta función, BigQuery devuelve el número total de filas. Esta es la sintaxis que usaremos:

SELECT CONTAR(columna)

FROM nombre_tabla;

Ejecutaré una consulta sencilla para contar el número de filas que contiene la tabla. Utilizaremos la columna “país” como referencia.

SELECT CONTAR(país)

FROM `bigquery-public-data.world_bank_global_population.population_by_country`

LÍMITE 100;

Funciones agregadas de BigQuery 3

Tras ejecutar esta consulta, BigQuery ha devuelto el número de filas: 264.

Funciones de agregación de BigQuery: COUNTIF

Con la función COUNTIF, BigQuery devolverá el número de filas que cumplen una determinada condición. Esta es la sintaxis:

SELECT COUNTIF(condición)

FROM nombre_tabla;

Supongamos que quiero que BigQuery me devuelva el número de filas en las que la población es inferior a 100.000 habitantes en un año concreto. Escribiré la consulta especificando la condición: la columna año_2000 es menor que 100.000.

Este es el aspecto que tendría la consulta:

SELECT COUNTIF(year_2000<100000)

FROM `bigquery-public-data.world_bank_global_population.population_by_country`

LÍMITE 100;

Funciones agregadas de BigQuery 4

Cuando ejecuto esta consulta, BigQuery devuelve el número de filas que cumplen esta condición: 27.

Funciones de agregación de BigQuery: MAX

Utilizando la función MAX, puedo pedir a BigQuery que devuelva el máximo valor no nulo en una columna específica. Esta es la sintaxis que utilizaremos.

SELECT MAX(columna)

FROM nombre_tabla;

Escribiré una consulta que devuelva el valor máximo contenido en la columna año_2000. Además, añadiré una cláusula WHERE para restringir la consulta a estos 6 países: China, Alemania, Rusia, Japón, India y Brasil.

SELECT MAX(año_2000)

FROM `bigquery-public-data.world_bank_global_population.population_by_country`

WHERE country IN (‘China’,’Alemania’,’Rusia’,’Japón’,‘India’,‘Brasil’)

LÍMITE 100;

Funciones agregadas de BigQuery 5

Cuando ejecuto la consulta, me devuelve el valor máximo dentro del rango especificado: 1,262,645,000.

Funciones de agregación de BigQuery: MIN 

A diferencia de la función MAX, la función MIN devuelve el valor mínimo de una columna. La sintaxis es la siguiente.

SELECT MIN(columna)

FROM nombre_tabla;

Ahora, sustituiré la función MAX por MIN.

SELECT MIN(año_2000)

FROM `bigquery-public-data.world_bank_global_population.population_by_country`

WHERE country IN (‘China’, ‘Alemania’,’Rusia’,’Japón’, ‘India’, ‘Brasil’)

LÍMITE 100;

Funciones agregadas de BigQuery 7

BigQuery acaba de devolver el valor mínimo. La población más pequeña está al norte de los 82 millones.

Funciones de agregación de BigQuery: SUMA

Por último, veremos más de cerca la función SUM. Usando esta función, le pediré a BigQuery que calcule la suma de todos los valores.

SELECT SUMA(columna)

FROM nombre_tabla;

A continuación, escribiré una consulta para calcular la suma de la población de los mismos 6 países.

SELECT SUMA(año_2000)

FROM `bigquery-public-data.world_bank_global_population.population_by_country`

WHERE country IN (‘China’, ‘Alemania’,’Rusia’,’Japón’, ‘India’, ‘Brasil’)

LÍMITE 100;

Funciones agregadas de BigQuery 6

Como resultado, BigQuery ha calculado la población de estos 6 países: más de 2.700 millones.

Cómo utilizar las funciones agregadas de BigQuery

Ahí lo tienes. Así es como puede utilizar las funciones de agregación en BigQuery. Usando estas funciones, puedes combinar y resumir datos de múltiples filas en un único valor. Si desea combinar tablas en su lugar, eche un vistazo a este artículo sobre cómo utilizar Uniones BigQuery.

Gestione fácilmente grandes conjuntos de datos

Utiliza Sheetgo para conectar BigQuery con Google Sheets y manejar grandes volúmenes de datos de forma eficiente.

También te puede gustar...

Más allá de la RPA: Por qué el futuro de la automatización de hojas de cálculo pasa por los datos

Ha buscado "RPA" para eliminar tareas repetitivas. Pero ¿y si el problema no es la tarea, sino los datos? El "reflejo RPA" Todo equipo...

Cómo conectar el lago a los usuarios de la empresa con una base de datos sin código

Ha invertido en un Lakehouse moderno. Por qué su equipo financiero sigue pidiendo exportaciones CSV? La paradoja de los datos modernos Ha...
datascience

Gestión de inventarios de joyería: cómo elegir el sistema adecuado

La gestión del inventario de joyería es más compleja que en otros sectores. Con artículos de gran valor, materias primas preciosas e intrincados...