Comment Rechercher des Données Sensibles dans les Images Hébergées sur AWS S3
Pour fournir à nos clients un outil puissant de découverte de données, nous avons présenté il y a quelque temps la fonctionnalité OCR (Reconnaissance Optique de Caractères) intégrée dans notre module Data Discovery. Cette fonctionnalité vous permet de rechercher des données sensibles telles que des données personnelles, des numéros de carte de crédit, des permis de conduire, etc., contenues dans des fichiers d’images. Le processus de découverte est effectué automatiquement sans intervention humaine. OCR Data Discovery fonctionne pour l’instant uniquement avec AWS S3.
Le OCR DD de DataSunrise est basé sur le moteur Tesseract qui utilise la technologie des neurones pour la reconnaissance des caractères. Tesseract utilise la bibliothèque Leptonica pour lire des images dans l’un de ces formats :
- PNG
- JPEG
- TIFF
- JPEG 2000
- GIF
- WebP (y compris WebP animé)
- BMP
- PNM
Comment ça marche
Une fois qu’une tâche de Découverte de Données OCR est lancée, le processus de découverte suit les phases suivantes :
- DataSunrise parcourt le contenu du seau S3 spécifié à la recherche d’images.
- Le préprocesseur du moteur OCR prépare les images découvertes pour un traitement ultérieur en augmentant leur contraste et netteté.
- DataSunrise avec l’aide de la technologie OCR de Tesseract reconnaît le texte non structuré figurant dans les images et utilise les algorithmes de découverte de données en fonction de ce texte conformément aux réglages de votre tâche de découverte de données.
En conséquence, vous obtenez les noms et emplacements des fichiers d’images contenant des données sensibles et ces données dans un rapport DD.
Configurer une tâche OCR dans DataSunrise
Voyons maintenant le processus de création d’une tâche de Découverte de Données OCR.
Tout d’abord, notez que OCR Data Discovery avec NLP Data Discovery nécessite Java 1.8+
Pour utiliser OCR Data Discovery, vous devez procéder comme suit :
- Avant de passer à l’étape suivante, créez une Instance DB S3 dans DataSunrise (reportez-vous au guide utilisateur de DataSunrise pour plus de détails).
- Allez à Data Discovery → Periodic Data Discovery
- Créez une tâche de découverte de données pour votre seau S3 :
Remplissez les Paramètres Généraux :
- Nommer la tâche
- Sélectionner le serveur DS pour démarrer la tâche
- Si vous souhaitez effectuer la découverte de données pour plusieurs instances DB, cochez la case correspondante et sélectionnez les instances d’intérêt
- Cochez la case Générer des rapports pour créer un rapport soit au format PDF soit au format CSV.
Dans la section Paramètres de Recherche :
- Sélectionnez votre instance DB AWS S3. Fournissez les informations d’identification pour votre S3
- Choisir la stratégie de sélection : sélectionner toutes les lignes ou juste les premières
- Choisir la stratégie de correspondance des colonnes : type de filtrage des colonnes
- Définir le pourcentage minimum de correspondance : c’est le pourcentage minimal de lignes dans une colonne qui correspondent aux conditions de filtre de recherche pour considérer la colonne comme contenant les données sensibles requises
- Sélectionnez le nombre de lignes analysées : nombre de lignes analysées à sélectionner
Dans Paramètres Multiprocessus :
Sélectionnez la stratégie d’exécution : serveur DS unique ou plusieurs serveurs DS pour un calcul parallèle
Sélectionner les objets DB à travers lesquels effectuer la recherche :
Utilisez l’arborescence des objets pour spécifier les objets à parcourir pendant l’exécution de la tâche
Vous pouvez exclure certains objets de la recherche en utilisant l’arborescence d’objets correspondante :
Dans les Paramètres de Recherche :
Sélectionnez le type d’information ou les normes de sécurité à rechercher. Notez que vous pouvez également utiliser la recherche par attributs pour trouver un type d’information ou une norme de sécurité dont vous avez besoin par attribut.
Dans Fréquence de Démarrage :
Sélectionnez la fréquence d’exécution de la tâche. Sélectionnez Manuel pour un démarrage manuel ou définissez un calendrier.
Important : vous devez activer le paramètre additionnel imageDataDiscovery avant d’exécuter la tâche. Vous pouvez le faire dans les Paramètres Additionnels (Paramètres du Système -> Paramètres Additionnels) ou dans la sous-section Paramètres Additionnels Personnalisés de la page de la tâche.
Sélectionnez imageDataDiscovery dans la liste et activez-le comme indiqué ci-dessous :
Exécutez la tâche manuellement ou selon le calendrier et DataSunrise effectuera automatiquement la découverte OCR :
Pour les résultats de la recherche, reportez-vous au tableau des résultats de la recherche :