Descubrimiento de Datos Sensibles con Amazon Textract
El descubrimiento de datos sensibles es uno de los pasos fundamentales en la protección de datos. Con el crecimiento de la cantidad de datos, las empresas utilizan almacenamiento en la nube como Amazon S3. Para proteger los datos, es necesario saber dónde residen en tus buckets. Después, debes entender qué información necesitas proteger y cómo hacerlo. DataSunrise ya cuenta con una solución de Descubrimiento de Datos para almacenamiento AWS S3 con funcionalidad OCR.
Aquí te presentaremos el Descubrimiento de Datos Sensibles para Amazon S3 con el soporte de Amazon Textract para ampliar las posibilidades de reconocimiento de datos sensibles en imágenes y documentos.
Posibilidades del Descubrimiento de Datos Sensibles de DataSunrise
DataSunrise ya puede descubrir datos sensibles en S3. La gran cantidad de formatos de archivo compatibles incrementa el volumen posible de información descubierta. Aquí hay algunos de los formatos con los que trabajamos:
- Formato de archivo Apache Parquet
- Archivos semiestructurados como XML, JSON, CSV
- Formatos de texto no estructurados como documentos de Microsoft Word
- Imágenes (PNG, JPEG, TIFF, JPEG 2000, GIF, WebP, BMP, PNM)
Una de las características más importantes para descubrir datos sensibles en S3 es el descubrimiento de datos en imágenes. Para descubrir información sensible en imágenes, utilizamos el motor Tesseract basado en tecnología de redes neuronales para el reconocimiento de caracteres. Nuestro Descubrimiento de Datos Sensibles con OCR te permite detectar información sensible incluso si se menciona en diagramas y tablas. DataSunrise extrae información sensible incluso de documentos con texto y números mezclados.
Para mejorar nuestras posibilidades en el descubrimiento de datos sensibles, implementamos el soporte de Amazon Textract para S3 en la versión 8.4.
¿Qué es Amazon Textract?
Amazon tiene un servicio de aprendizaje automático que detecta y extrae texto impreso, texto manuscrito y tablas de imágenes y documentos escaneados. Amazon Textract es compatible con los siguientes formatos de archivo: PNG, JPEG y PDF. De lo contrario, necesitas convertir tu archivo en los siguientes formatos para poder usar Amazon Textract.
El principal beneficio para los negocios del servicio Textract es la posibilidad de detección y extracción de texto manuscrito de documentos como facturas, informes médicos, registros financieros, entre otros. Con la ayuda de Amazon Textract, puedes extraer datos sin recursos humanos. Esta posibilidad reduce el riesgo de errores que pueden causar daño a tu negocio durante el uso de datos, auditorías o en caso de fuga de datos.
DataSunrise y Amazon Textract
El descubrimiento de datos OCR tiene muchos beneficios para la protección de datos sensibles y el almacenamiento de datos. Nuestro objetivo es encontrar una solución conveniente y eficiente para nuestros clientes que trabajan con documentos impresos y manuscritos y almacenan estos documentos en S3. Por eso ahora podemos emplear Amazon Textract. Esta funcionalidad mejora las posibilidades de Descubrimiento de Datos con OCR en S3.
Para comenzar a usar el Descubrimiento de Datos para S3 solo necesitas seguir estos pasos:
- Navega a Data Discovery → Periodic Data Discovery.
- Crea una tarea de Descubrimiento de Datos para tu bucket de S3.
- Elige dos parámetros dedicados “DataDiscoveryUseAmazonTextractOCR” y “DataDiscoveryUseAmazonTextractS3Integration”.
- Ejecuta la tarea y DataSunrise realizará automáticamente el descubrimiento OCR.
Hemos implementado estos dos parámetros dedicados para configurar el Descubrimiento de Datos basado en Textract. Ten en cuenta que, para el funcionamiento adecuado, el OCR de Textract debe estar ubicado en la instancia de base de datos en la que vas a realizar el Descubrimiento de Datos.
Ten en cuenta que usar Amazon Textract conlleva un costo por el uso de la API de Detección de Texto en Documentos.
Gracias a esto, el proceso de descubrimiento de datos en S3 se vuelve más fácil y menos costoso en términos de tiempo. Prueba nuestra nueva posibilidad para el Descubrimiento de Datos Sensibles en S3. Asegúrate de saber dónde reside toda tu información sensible y protégela con la ayuda de DataSunrise.