DataSunrise está patrocinando AWS re:Invent 2024 en Las Vegas, por favor visítenos en el stand #2158 de DataSunrise

Seguridad de BigQuery

Seguridad de BigQuery

seguridad bigquery

Google BigQuery ofrece potentes capacidades de almacenamiento de datos, pero con gran poder viene gran responsabilidad. Proteger tu entorno de BigQuery es crucial para proteger información sensible y mantener el cumplimiento con las regulaciones de datos. Este artículo explorará varios aspectos de la seguridad de BigQuery, desde controles de acceso de red hasta permisos detallados y monitoreo.

Entendiendo los Controles de Servicio VPC

Los Controles de Servicio VPC actúan como un firewall virtual para tus recursos de BigQuery. Puedes proteger tus datos en BigQuery eligiendo qué redes y direcciones IP tienen permitido acceder a ellos. Esto añade una capa extra de protección contra intentos de acceso no autorizado.

Para configurar los Controles de Servicio VPC para BigQuery, necesitarás crear una política de nivel de acceso en tu Google Cloud Console. Esta política define los rangos de IP permitidos para interactuar con tus recursos de BigQuery. Una vez que la política esté implementada, puedes crear un perímetro de servicio que incluya BigQuery como un servicio restringido.

Por ejemplo, podrías crear una política que solo permita acceso desde el rango de IP de tu red corporativa. Esto asegura que las consultas de BigQuery solo puedan ser ejecutadas desde dentro de la red de tu organización, reduciendo el riesgo de amenazas externas.

Implementar Controles de Servicio VPC requiere una planificación cuidadosa. Necesitas considerar diferentes formas de acceder a BigQuery, como redes in situ, VPNs en la nube y otros proyectos de Google Cloud.

Estos métodos ofrecen varias opciones para conectar a BigQuery. Deberías explorar todas las opciones disponibles para determinar el mejor enfoque para tus necesidades. A menudo es útil comenzar con un perímetro de prueba para testar tu configuración antes de hacerla efectiva.

seguridad bigquery

Implementación de Roles y Permisos IAM

La Gestión de Identidades y Accesos (IAM) es la columna vertebral de la seguridad de BigQuery. Permite controlar quién tiene acceso a tus recursos de BigQuery y qué acciones pueden realizar. El rol más poderoso en BigQuery es roles/bigquery.admin, que concede control total sobre todos los recursos de BigQuery en un proyecto.

Sin embargo, generalmente es mejor seguir el principio de menor privilegio y asignar roles más específicos. Por ejemplo, podrías dar a los analistas de datos el rol de bigquery.user, el cual les permite ejecutar consultas y crear conjuntos de datos, pero no modificar los permisos de los conjuntos de datos existentes.

Aquí hay un ejemplo de cómo podrías usar la CLI de BigQuery para conceder a un usuario el rol de bigquery.user:

bq add-iam-policy-binding --member=user:[email protected] --role=roles/bigquery.user project-id

Este comando añade el usuario especificado al proyecto con el rol de bigquery.user.

Auditar regularmente tus políticas de IAM es importante para asegurar que siguen siendo apropiadas. A medida que los empleados cambian de roles o dejan la organización, sus permisos deben ser actualizados o revocados en consecuencia. Puedes usar el recomendador de IAM en Google Cloud para identificar y eliminar roles excesivamente permisivos.

Creación y Seguridad de Vistas en BigQuery

Las vistas en BigQuery son una herramienta poderosa para implementar seguridad a nivel de fila y columna. Puedes usar tablas virtuales para filtrar o modificar datos antes de mostrarlos a los usuarios.

Para crear una vista en BigQuery, puedes usar la siguiente sintaxis SQL:

CREATE VIEW `proyecto.conjunto_de_datos.nombre_de_vista` AS
SELECT columna1, columna2
FROM `proyecto.conjunto_de_datos.nombre_de_tabla`
WHERE condición;

Por ejemplo, podrías crear una vista que solo muestre datos de ventas para una región específica:

CREATE VIEW `ventas.ventas_noreste` AS
SELECT *
FROM `ventas.todas_las_ventas`
WHERE region = 'Noreste';

Concede a los usuarios acceso a una vista específica en lugar de a la tabla, para que solo vean los datos relacionados con su rol.

También puedes usar vistas para implementar reglas de seguridad más complejas. Por ejemplo, podrías crear una vista que solo muestre datos para el usuario actual:

CREATE VIEW `proyecto.conjunto_de_datos.mis_datos` AS
SELECT *
FROM `proyecto.conjunto_de_datos.todos_los_datos`
WHERE user_email = SESSION_USER();

Esta vista filtrará automáticamente los datos según el correo electrónico del usuario que ejecute la consulta.

Vistas Autorizadas para Acceso entre Conjuntos de Datos

Las vistas autorizadas en BigQuery te permiten crear vistas en un conjunto de datos. Estas vistas pueden acceder a datos en otro conjunto de datos. El sistema concede acceso incluso si el usuario no tiene permiso para ver el conjunto de datos original. Esto es particularmente útil para implementar controles de acceso de grano fino.

Para configurar una vista autorizada, primero creas la vista en un conjunto de datos, luego concedes a esa vista acceso al conjunto de datos fuente. Aquí un ejemplo:

-- Crear la vista en el conjunto de datos A
CREATE VIEW `proyectoA.conjuntoDeDatosA.resumen_ventas` AS
SELECT fecha, SUM(monto) as ventas_totales
FROM `proyectoB.conjuntoDeDatosB.ventas_detalladas`
GROUP BY fecha;
-- Autorizar la vista para acceder a datos en el conjunto de datos B
bq add-iam-policy-binding \
--member=serviceAccount:service-NÚ[email protected] \
--role=roles/bigquery.dataViewer \
proyectoB:conjuntoDeDatosB

Esto crea una vista de resumen en el conjunto de datos A que puede acceder a datos detallados de ventas en el conjunto de datos B, sin dar acceso directo a los usuarios a los datos detallados.

Las vistas autorizadas poderosas deben ser usadas con juicio. Cada vez que le das a alguien permiso para ver algo, hace tu sistema de seguridad más complicado. Asegúrate de llevar un registro de estos permisos y revisarlos a menudo.

Implementación de Seguridad a Nivel de Columna

La seguridad a nivel de columna en BigQuery te permite restringir el acceso a columnas específicas dentro de una tabla. Esto es particularmente útil cuando se trata de información sensible, como información personal identificable.

Para implementar seguridad a nivel de columna, puedes usar la función de etiquetas de política de BigQuery. Primero, creas una taxonomía de etiquetas de política, luego aplicas estas etiquetas a columnas específicas. Finalmente, concedes a los usuarios o grupos acceso a etiquetas de política específicas.

Aquí hay un ejemplo de cómo podrías crear una etiqueta de política usando la API de Políticas de Datos de BigQuery:

POST https://datacatalog.googleapis.com/v1/projects/{proyecto}/locations/{ubicación}/taxonomies
{
"displayName": "Datos Sensibles",
"description": "Etiquetas para columnas de datos sensibles",
"activatedPolicyTypes": ["FINE_GRAINED_ACCESS_CONTROL"]
}

Puedes usar categorías y etiquetas que crees en columnas en tu configuración de BigQuery. También puedes controlar el acceso con reglas IAM.

La seguridad a nivel de columna puede mejorar significativamente la protección de tus datos, pero también añade complejidad a tu modelo de datos. Es importante tener una estrategia clara de cuáles columnas necesitan protección y cómo se gestionará el acceso a estas columnas.

Monitoreo y Registro en BigQuery

Una seguridad efectiva no se trata solo de prevención; también se trata de detección y respuesta. BigQuery proporciona robustas capacidades de registro y monitoreo para ayudarte a rastrear el uso e identificar posibles problemas de seguridad.

Puedes usar las vistas INFORMATION_SCHEMA de BigQuery para consultar metadatos sobre tus recursos de BigQuery. Por ejemplo, para ver todas las consultas ejecutadas en el último día, podrías usar:

SELECT *
FROM `region-us`.INFORMATION_SCHEMA.JOBS_BY_PROJECT
WHERE creation_time == TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY)
AND job_type = 'QUERY'
ORDER BY creation_time DESC;

Esta consulta proporciona detalles específicos sobre cada trabajo. Incluye el usuario que ejecutó el trabajo, el texto de la consulta utilizada y el volumen de datos procesados.

Además de las vistas de INFORMATION_SCHEMA, también puedes usar Cloud Audit Logs para rastrear la actividad de BigQuery. Cloud Audit Logs capturan una variedad de eventos, incluyendo la creación y eliminación de conjuntos de datos, actualizaciones de tablas y ejecuciones de consultas. Puedes exportar estos registros a Cloud Storage o BigQuery para retención a largo plazo.

Implementación de Políticas de Organización GCP

Las Políticas de Organización de GCP proporcionan una manera centralizada de gestionar controles de seguridad en toda tu organización de Google Cloud. Puedes usar estas reglas para asegurar que BigQuery se mantenga seguro, como asegurarte de que todas las tablas tengan una clave de encriptación.

Para configurar una política de organización, usas la Consola GCP o la herramienta de línea de comandos gcloud. Por ejemplo, para requerir que todos los conjuntos de datos de BigQuery estén restringidos a una región:

gcloud resource-manager org-policies enable-enforce \
constraints/bigquery.restrictDatasetLocation \
--organization=ID_DE_LA_ORGANIZACIÓN

Esta regla asegura que todos los nuevos conjuntos de datos tengan una ubicación listada. Previene la creación accidental de conjuntos de datos que abarquen múltiples regiones. También previene romper reglas de residencia de datos.

Las políticas de organización pueden ser una herramienta poderosa para imponer prácticas de seguridad consistentes en tu organización. Sin embargo, las organizaciones deben implementarlas con cuidado, ya que políticas demasiado restrictivas pueden obstaculizar trabajos legítimos. A menudo es útil comenzar con políticas solo de auditoría antes de hacerlas efectivas.

Manejo de Errores de Permiso Denegado

Incluso con una fuerte seguridad, los usuarios pueden seguir obteniendo errores de “permiso denegado” al intentar acceder a los recursos de BigQuery. Un error común es “permission bigquery.datasets.update denied on dataset”.

Este error a menudo ocurre cuando un usuario intenta modificar un conjunto de datos para el que no tiene suficientes permisos. Para resolver esto, necesitas conceder al usuario el rol bigquery.dataEditor (o un rol personalizado con permisos equivalentes) en el conjunto de datos.

Puedes hacer esto usando la herramienta de línea de comandos bq:

bq add-iam-policy-binding \
--member=user:[email protected] \
--role=roles/bigquery.dataEditor \
proyecto:conjuntoDeDatos

Solo da a los usuarios o cuentas de servicio la mínima cantidad de permisos necesarios para seguir el principio de menor privilegio.

Cuando solucionas problemas de permisos, a menudo es útil usar el Solucionador de Problemas de Políticas IAM en la Consola de Google Cloud. Esta herramienta puede ayudarte a entender por qué un usuario tiene o no un permiso particular.

Técnicas Avanzadas de Seguridad en BigQuery

Para requisitos de seguridad más complejos, BigQuery ofrece varias características avanzadas. Una de estas características es la capacidad de usar funciones definidas por el usuario (UDF) para implementar enmascaramiento dinámico de datos.

Por ejemplo, podrías crear una UDF que enmascare direcciones de correo electrónico:

CREATE FUNCTION `proyecto.conjuntoDeDatos.enmascarar_correo`(email STRING)
RETURNS STRING
AS (
CASE
WHEN email IS NULL THEN NULL
ELSE CONCAT(LEFT(email, 1), '***@', SPLIT(email, '@')[OFFSET(1)])
END
);

Puedes usar esta función en vistas o consultas para enmascarar automáticamente las direcciones de correo electrónico para usuarios que no deberían ver los valores completos.

Otra técnica avanzada es usar la característica GROUP BY ALL de BigQuery para el acceso a datos agregados. Esta característica te permite crear vistas resumen que agrupan datos por columnas no agregadas. Esto simplifica el acceso a datos agregados sin mostrar registros individuales.

CREATE VIEW `proyecto.conjuntoDeDatos.resumen_ventas` AS
SELECT
DATE_TRUNC(date, MONTH) as mes,
SUM(amount) as ventas_totales
FROM `proyecto.conjuntoDeDatos.ventas_detalladas`
GROUP BY ALL;

Esta vista mostrará automáticamente cualquier nueva columna añadida a la tabla ventas_detalladas. Esta característica facilita la gestión de la tabla en el futuro.

Encriptación y Gestión de Claves

BigQuery encripta automáticamente todos los datos en reposo, pero para mayor seguridad, puedes usar claves de encriptación gestionadas por el cliente (CMEK). Con CMEK, gestionas tus propias claves de encriptación usando Cloud Key Management Service (KMS).

Para usar CMEK con BigQuery, primero creas un anillo de claves y una clave en KMS, luego especificas esta clave al crear un conjunto de datos:

bq mk --dataset \
--default_kms_key projects/[ID_DEL_PROYECTO_DE_LA_CLAVE]/locations/[UBICACIÓN]/keyRings/[NOMBRE_DEL_ANILLO_DE_CLAVE]/cryptoKeys/[NOMBRE_DE_LA_CLAVE] \
[ID_DEL_PROYECTO]:[CONJUNTO_DE_DATOS]

Usar CMEK te da más control sobre tu encriptación de datos, pero también viene con responsabilidades adicionales de gestión. Necesitarás asegurarte de que tus claves están adecuadamente protegidas y que tienes procesos en lugar para la rotación y recuperación de claves.

Gobernanza de Datos y Cumplimiento

Una gobernanza de datos efectiva es crucial para mantener el cumplimiento con regulaciones como GDPR, HIPAA y CCPA. BigQuery proporciona varias características para apoyar la gobernanza de datos:

  • Catálogo de Datos: Este servicio de gestión de metadatos totalmente gestionado y escalable puede ayudarte a descubrir, entender y gestionar tus conjuntos de datos de BigQuery.
  • Prevención de Pérdida de Datos (DLP): Puedes usar Cloud DLP para escanear tus tablas de BigQuery en busca de información sensible y aplicar controles apropiados automáticamente.
  • Servicio de Transferencia de Datos de BigQuery: Este servicio te ayuda a configurar y gestionar cargas regulares de datos desde diversas fuentes. Asegura que tus datos se mantengan actualizados y precisos.

Al implementar la gobernanza de datos en BigQuery, es importante considerar todo el ciclo de vida de los datos, desde la ingestión hasta la eliminación. Deberías tener políticas claras en lugar para la retención de datos, el control del acceso y la gestión de la calidad de los datos.

Conclusión

Asegurar BigQuery requiere múltiples capas de seguridad, incluyendo controles de red y permisos con roles IAM y vistas autorizadas. Al usar etiquetas de política y monitoreo/registro, puedes hacer tu entorno de BigQuery más seguro.

Recuerda que la seguridad es un proceso continuo. Revisa regularmente tus configuraciones de seguridad, monitorea para actividad inusual y mantente actualizado en las últimas características de seguridad de BigQuery para asegurar que proteges tus datos. Usando los métodos correctos, puedes aprovechar al máximo BigQuery mientras también aseguras la seguridad y el cumplimiento de los datos.

A medida que crezca tu uso de BigQuery, considera implementar chequeos de seguridad automatizados y auditorías de cumplimiento. Herramientas como el Centro de Comando de Seguridad en la Nube pueden ayudarte a ver qué tan segura está tu entorno de Google Cloud, incluyendo BigQuery.

Finalmente, no olvides el elemento humano de la seguridad. El entrenamiento regular para tu equipo sobre las mejores prácticas de seguridad de BigQuery y las políticas específicas de tu compañía es crucial. Fomentar una cultura de conciencia de seguridad ayuda a todos a mantener los datos seguros.

Siguiente

Esquema de Información de la Base de Datos Redshift

Esquema de Información de la Base de Datos Redshift

Más información

¿Necesita la ayuda de nuestro equipo de soporte?

Nuestros expertos estarán encantados de responder a sus preguntas.

Información general:
[email protected]
Servicio al Cliente y Soporte Técnico:
support.datasunrise.com
Consultas sobre Asociaciones y Alianzas:
[email protected]