Cómo Buscar Datos Sensibles en Imágenes Alojadas en AWS S3
Para proporcionar a nuestros clientes una poderosa herramienta de descubrimiento de datos, hace algún tiempo presentamos la funcionalidad OCR (Reconocimiento Óptico de Caracteres) integrada en nuestro Módulo de Descubrimiento de Datos. Esta característica te permite buscar datos sensibles como datos personales, números de tarjetas de crédito, licencias de conducir, etc. contenidos en archivos de imagen. El proceso de descubrimiento se realiza automáticamente sin necesidad de intervención humana. OCR Data Discovery funciona únicamente con AWS S3 por ahora.
La OCR DD de DataSunrise se basa en el motor Tesseract, que utiliza tecnología de red neuronal para el reconocimiento de caracteres. Tesseract utiliza la biblioteca Leptonica para leer imágenes en uno de estos formatos:
- PNG
- JPEG
- TIFF
- JPEG 2000
- GIF
- WebP (incluyendo WebP animado)
- BMP
- PNM
Cómo funciona
Una vez que se inicia una tarea de Descubrimiento de Datos OCR, el proceso de Descubrimiento pasa por las siguientes fases:
- DataSunrise examina el contenido del depósito S3 especificado en busca de imágenes.
- El preprocesador del motor OCR prepara las imágenes descubiertas para un posterior procesamiento, haciéndolas más contrastantes y nítidas.
- DataSunrise, con la ayuda de la tecnología OCR de Tesseract, reconoce texto no estructurado en las imágenes y utiliza algoritmos de Descubrimiento de Datos en relación a este texto de acuerdo con la configuración de tu Tarea de Descubrimiento de Datos.
Como resultado, obtienes los nombres y ubicaciones de los archivos de imagen que contienen datos sensibles y esos datos en un informe DD.
Configuración de una tarea OCR en DataSunrise
Ahora echemos un vistazo al proceso de creación de una tarea de Descubrimiento de Datos OCR.
Primero, ten en cuenta que OCR Data Discovery con NLP Data Discovery requiere Java 1.8+
Para utilizar OCR Data Discovery, necesitas hacer lo siguiente:
- Antes de proceder al siguiente paso, crea una instancia de BD S3 en DataSunrise (consulta la Guía del Usuario de DataSunrise para más detalles).
- Navega a Data Discovery → Periodic Data Discovery
- Crea una tarea de Descubrimiento de Datos para tu depósito S3:
Rellena los Ajustes Generales:
- Nombre la tarea
- Selecciona el Servidor DS para iniciar la tarea
- Si deseas realizar Descubrimiento de Datos para múltiples instancias de BD, marca la casilla correspondiente y selecciona las instancias de interés
- Marca la casilla de Generar Informes para crear un informe ya sea en formato PDF o CSV.
En la sección de Parámetros de Búsqueda:
- Selecciona tu instancia de BD S3 de AWS. Proporciona las credenciales de tu S3
- Elige la Estrategia de Selección: selecciona todas las filas o solo las filas principales
- Selecciona la Estrategia de Coincidencia de Columnas: tipo de filtrado de columnas
- Configura el Porcentaje Mínimo de Coincidencia: es el porcentaje mínimo de filas en una columna que coinciden con las condiciones del filtro de búsqueda para considerar la columna como contenedora de los datos sensibles requeridos
- Selecciona el Número de Filas Analizadas: número de filas analizadas a ser seleccionadas
En Parámetros de Multiproceso:
Selecciona Estrategia de Ejecución: Servidor DS Único o Múltiples Servidores DS para cálculo en paralelo
Selecciona Objetos de BD a través de los cuales buscar:
Utiliza el árbol de objetos para especificar los objetos que deben ser examinados durante la ejecución de la Tarea
Puedes excluir ciertos objetos de la búsqueda utilizando el árbol de objetos correspondiente:
En Ajustes de Búsqueda:
Selecciona el Tipo de Información o Estándares de Seguridad para buscar según. Ten en cuenta que también puedes utilizar Buscar Atributos para encontrar un Tipo de Información o Estándar de Seguridad que necesites por atributo.
En Frecuencia de Inicio:
Selecciona la frecuencia de ejecución de la Tarea. Selecciona Manual para inicio manual o establece un horario.
Importante: necesitas habilitar el parámetro adicional imageDataDiscovery antes de ejecutar la tarea. Puedes hacerlo en Parámetros Adicionales (Configuración del Sistema -> Parámetros Adicionales) o en la subsección de Configuraciones Adicionales Personalizadas de la página de la tarea.
Selecciona imageDataDiscovery en la lista y habilítalo como se muestra a continuación:
Ejecuta la tarea manualmente o según el horario y DataSunrise realizará el descubrimiento OCR automáticamente:
Para los resultados de la búsqueda, consulta la tabla de Resultados de la Búsqueda: