
Descubrimiento de Datos Sensibles con Amazon Textract
El descubrimiento de datos sensibles es uno de los pasos fundamentales en la protección de datos. Con el crecimiento de la cantidad de datos, las empresas utilizan almacenamiento en la nube como Amazon S3. Para proteger los datos, es necesario saber dónde residen en tus buckets. Después de eso, necesitas entender qué información necesitas proteger y cómo. DataSunrise ya tiene una solución de Descubrimiento de Datos para almacenamiento en AWS S3 con funcionalidad OCR.
Aquí te presentaremos el Descubrimiento de Datos Sensibles para Amazon S3 con el soporte de Amazon Textract para ampliar las posibilidades de reconocimiento de datos sensibles en imágenes y documentos.
Posibilidades de Descubrimiento de Datos Sensibles de DataSunrise
DataSunrise ya puede descubrir datos sensibles en S3. La gran cantidad de formatos de archivo soportados aumenta el volumen posible de información descubierta. Aquí hay algunos de los formatos con los que estamos trabajando:
- Formato de archivo Apache Parquet
- Archivos semi-estructurados como XML, JSON, CSV
- Formatos de texto no estructurado como documentos de Microsoft Word
- Imágenes (PNG, JPEG, TIFF, JPEG 2000, GIF, WebP, BMP, PNM)
Una de las características más importantes para descubrir datos sensibles en S3 es el descubrimiento de datos en imágenes. Para descubrir información sensible en imágenes estamos utilizando el motor Tesseract basado en tecnología de redes neuronales para el reconocimiento de caracteres. Nuestro Descubrimiento de Datos Sensibles OCR te permite detectar información sensible incluso si está mencionada en diagramas y tablas. DataSunrise extrae información sensible incluso de documentos con texto y números mezclados.
Para mejorar nuestras posibilidades en el descubrimiento de datos sensibles, implementamos el soporte de Amazon Textract para S3 en la versión 8.4.
¿Qué es Amazon Textract?
Amazon tiene un servicio de aprendizaje automático que detecta y extrae texto impreso, texto manuscrito y tablas de imágenes y documentos escaneados. Amazon Textract soporta los siguientes formatos de archivo: PNG, JPEG y PDF. De lo contrario, necesitas convertir tu archivo a los siguientes formatos para poder usar Amazon Textract.
El principal beneficio para las empresas en el servicio de Textract es la posibilidad de detectar y extraer texto manuscrito de documentos como facturas, informes médicos, registros financieros y otros. Con la ayuda de Amazon Textract, puedes extraer datos sin recursos humanos. Esta posibilidad reduce el riesgo de errores que pueden causar daño a tu negocio durante el uso de datos, auditorías o en caso de fuga de datos.
DataSunrise y Amazon Textract
El descubrimiento de datos OCR tiene muchos beneficios para la protección de datos sensibles y el almacenamiento de datos. Nuestro objetivo es encontrar una solución conveniente y eficiente para nuestros clientes que trabajen con documentos impresos y manuscritos y almacenen estos documentos en S3. Por eso ahora podemos emplear Amazon Textract. Esta funcionalidad mejora las posibilidades del Descubrimiento de Datos OCR en S3.
Para comenzar a usar el Descubrimiento de Datos para S3 solo necesitas seguir los siguientes pasos:
- Navega a Data Discovery → Periodic Data Discovery.
- Crea una tarea de Descubrimiento de Datos para tu bucket de S3.
- Elige dos parámetros dedicados “DataDiscoveryUseAmazonTextractOCR” y “DataDiscoveryUseAmazonTextractS3Integration”.
- Ejecuta la tarea y DataSunrise realizará el descubrimiento OCR automáticamente.
Hemos implementado estos dos parámetros dedicados para configurar el Descubrimiento de Datos basado en Textract. Por favor, ten en cuenta que para el correcto funcionamiento, el OCR de Textract debe estar ubicado en la instancia de base de datos en la que vas a realizar el Descubrimiento de Datos.
Ten en cuenta que usar Amazon Textract conlleva una tarifa por el uso de la API de Detección de Texto en Documentos.
Gracias a esto, el proceso de descubrimiento de datos en S3 se vuelve más fácil y menos consumidor de tiempo. Prueba nuestra nueva posibilidad para el Descubrimiento de Datos Sensibles en S3. Asegúrate de saber dónde residen todos tus datos sensibles y protégelos con la ayuda de DataSunrise.