Inicio
Guías
Guía integral sobre cómo buscar datos sensibles en imágenes alojadas en AWS S3

Guía integral sobre cómo buscar datos sensibles en imágenes alojadas en AWS S3

Cómo Migrar la Plantilla de CloudFormation de DataSunrise de Launch Configuration (LC) a Launch Template (LT) en un grupo de Auto Scaling Cómo Enviar Eventos de DataSunrise a un Canal de Microsoft Teams vía Webhook Entrante utilizando Suscriptores Cómo Descargar los Datos de la Base de Datos de Auditoría a AWS S3 y Leerlos Usando el Servicio AWS Athena Convertir Configuración de Prueba o BYOL de DataSunrise a Facturación por Hora PostgreSQL (RDS) vs Aurora PostgreSQL Cómo Solucionar Errores de “La Conexión Fue Terminada” o “La Conexión Se Terminó Inesperadamente” en Aplicaciones Que Usan Proxies DataSunrise Rendimiento de DataSunrise Bajo Condiciones de Alto Tráfico Enfoque de DataSunrise para Configurar Penalidades por Detección de Inyección SQL Cómo Bloquear Hosts Específicos en DataSunrise para una Seguridad Mejorada de la Base de Datos Solución de Problemas de Medición y Facturación por Hora en AWS en DataSunrise en AWS Marketplace Cómo Realizar la Modificación de la Formación en la Nube Enmascaramiento Dinámico de Datos con DataSunrise: Enmascaramiento con Scripts Lua Cómo Elegir la Base de Datos para Almacenamiento de Auditoría: Un Análisis de Rendimiento Cómo Ejecutar pgbench a través del Proxy DataSunrise en PostgreSQL 14 con Autenticación SCRAM Cómo Controlar la Visibilidad de los Nombres de las Tablas Instalar el paquete DataSunrise desde el repositorio DEB (para Debian 12/Ubuntu 22) Configuración de la Autenticación SSO de DataSunrise Basada en SAML (Okta) Configuración de Autenticación SSO de DataSunrise Basada en OpenID (Okta) Guía integral sobre cómo buscar datos sensibles en imágenes alojadas en AWS S3 Cómo Desplegar DataSunrise con Plantilla de Terraform en Azure Integra DataSunrise con SQL Server Always On Cluster Cómo Desplegar DataSunrise en Microsoft Azure Usando Azure Resource Manager Cómo Realizar el Enmascaramiento de Datos Estáticos con DataSunrise para MongoDB Cómo Configurar Rastros de Auditoría en BD para MS Azure MySQL Configure el Seguimiento de Auditoría en la Base de Datos para MS Azure PostgreSQL Cómo Configurar DataSunrise para Enmascarar Datos para Amazon Athena Cómo Actualizar la Versión del SO RHEL de Servidores Existentes con DataSunrise Cómo Integrar DataSunrise con Streams de Actividad de Base de Datos de AWS para Obtener Resultados de Auditoría para AWS Aurora PostgreSQL Configurar Certificados SSL para el Proxy de Base de Datos DataSunrise Informes en DataSunrise: Sistema Crucial para una Mayor Seguridad en la Base de Datos Cómo Ocultar Esquemas a los Usuarios en Redshift Resumen de la Consola Centralizada de DataSunrise Registros de Auditoría de AWS RDS PostgreSQL en DataSunrise Enmascarando Texto No Estructurado en AWS S3 Enmascaramiento en su lugar Auditar Acciones Administrativas en Tu Oracle RDS y EC2 Mejores Prácticas de las Reglas de DataSunrise El script de Lua descubre datos sensibles en archivos JSON Cómo Verificar si DataSunrise Recibe Tráfico Eliminar un Procedimiento o una Función de una Base de Datos Principios Básicos del Enmascaramiento Dinámico Instalar DataSunrise desde el repositorio RPM (para RHEL, CentOS 8/9) Instalar DataSunrise desde el repositorio DEB (Debian, Ubuntu) Guía de Seguridad Reglas de Seguridad Contra Inyecciones SQL Guía de Auditoría Reglas de Aprendizaje y Auditoría Prioridad de Reglas Guía de Enmascaramiento Dinámico de Datos Guía de Enmascaramiento de Datos Estáticos

Para proporcionar a nuestros clientes una poderosa herramienta de descubrimiento de datos, hace algún tiempo presentamos la funcionalidad OCR (Reconocimiento Óptico de Caracteres) integrada en nuestro módulo de Descubrimiento de Datos. Esta característica le permite buscar datos sensibles como datos personales, números de tarjetas de crédito, licencias de conducir, etc., contenidos en archivos de imagen. El proceso de descubrimiento se realiza automáticamente sin necesidad de intervención humana. OCR Data Discovery funciona solo con AWS S3 por ahora.

El OCR DD de DataSunrise se basa en el motor Tesseract, el cual utiliza tecnología de red neuronal para el reconocimiento de caracteres. Tesseract usa la biblioteca Leptonica para leer imágenes con uno de estos formatos:

PNG
JPEG
TIFF
JPEG 2000
GIF
WebP (incluyendo WebP animado)
BMP
PNM

Cómo funciona

Una vez que se inicia una tarea de OCR Data Discovery, el proceso de descubrimiento pasa por las siguientes fases:

DataSunrise explora el contenido del bucket S3 especificado en busca de imágenes.
El preprocesador del motor OCR prepara las imágenes descubiertas para un procesamiento posterior, haciéndolas más contrastadas y nítidas.
Con la ayuda de la tecnología Tesseract OCR, DataSunrise reconoce el texto no estructurado en las imágenes y utiliza algoritmos de Descubrimiento de Datos en relación con este texto de acuerdo con la configuración de su tarea de Descubrimiento de Datos.

Como resultado, obtiene los nombres y la ubicación de los archivos de imagen que contienen datos sensibles y esos datos en un informe de DD.

Configurando una tarea OCR en DataSunrise

Ahora echemos un vistazo al proceso de creación de una tarea de OCR Data Discovery.

Primero, tenga en cuenta que OCR Data Discovery con NLP Data Discovery requiere Java 1.8+

Para utilizar OCR Data Discovery, debe hacer lo siguiente:

Antes de proceder al siguiente paso, cree una instancia de S3 DB en DataSunrise (consulte la Guía del usuario de DataSunrise para más detalles).
Navegue hasta Data Discovery → Periodic Data Discovery
Cree una tarea de Descubrimiento de Datos para su bucket S3:

Complete la sección de Configuración General:

Nombre de la tarea
Seleccione el servidor DS donde iniciar la tarea
Si desea realizar el Descubrimiento de Datos para múltiples instancias de BD, marque la casilla correspondiente y seleccione las instancias de interés
Marque la casilla Generar Informes para crear un informe en formato PDF o CSV.

En la sección de Parámetros de Búsqueda:

Seleccione su instancia de S3 DB en AWS. Proporcione credenciales para su S3
Elija la estrategia de selección: seleccionar todas las filas o solo las filas superiores
Seleccione la estrategia de coincidencia de columnas: tipo de filtrado de columnas
Establezca el porcentaje mínimo de coincidencia: es el porcentaje mínimo de filas en una columna que coinciden con las condiciones del filtro de búsqueda para considerar que la columna contiene los datos sensibles requeridos
Seleccione el número de filas analizadas: número de filas analizadas que se seleccionarán

En Parámetros Multiproceso:

Seleccione la estrategia de ejecución: servidor DS único o múltiples servidores DS para cálculo paralelo

Seleccione los objetos de BD para buscar:

Utilice el árbol de objetos para especificar los objetos que deben ser explorados durante la ejecución de la tarea

Puede excluir ciertos objetos de la búsqueda utilizando el árbol de objetos correspondiente:

En Configuración de Búsqueda:

Seleccione el tipo de información o los estándares de seguridad según los cuales buscar. Tenga en cuenta que también puede usar la búsqueda por atributos para encontrar un tipo de información o estándar de seguridad según el atributo.

En Frecuencia de Inicio:

Seleccione la frecuencia de ejecución de la tarea. Seleccione Manual para iniciar manualmente o establezca un horario.

Importante: necesita habilitar el parámetro adicional imageDataDiscovery antes de ejecutar la tarea. Puede hacerlo en Parámetros Adicionales (Configuración del Sistema -> Parámetros Adicionales) o en la subsección de Configuración Adicional Personalizada de la página de tareas.

Seleccione imageDataDiscovery en la lista y actívelo como se muestra a continuación:

Ejecute la tarea manualmente o según lo programado y DataSunrise realizará el descubrimiento OCR automáticamente:

Para los resultados de búsqueda, consulte la tabla de Resultados de Búsqueda:

Guía integral sobre cómo buscar datos sensibles en imágenes alojadas en AWS S3

Cómo funciona

Configurando una tarea OCR en DataSunrise

Did this guide help you?