Guide complet sur la recherche de données sensibles dans les images hébergées sur AWS S3
Pour fournir à nos clients un outil puissant de découverte de données, il y a quelque temps, nous avons présenté la fonctionnalité OCR (Reconnaissance Optique de Caractères) intégrée à notre module Data Discovery. Cette fonctionnalité vous permet de rechercher des données sensibles telles que des données personnelles, des numéros de carte de crédit, des permis de conduire, etc. contenues dans des fichiers image. Le processus de découverte est effectué automatiquement sans aucune intervention humaine. La découverte de données OCR fonctionne uniquement avec AWS S3 pour l’instant.
L’OCR DD de DataSunrise est basé sur le moteur Tesseract qui utilise la technologie des réseaux de neurones pour la reconnaissance de caractères. Tesseract utilise la bibliothèque Leptonica pour lire des images dans l’un des formats suivants :
- PNG
- JPEG
- TIFF
- JPEG 2000
- GIF
- WebP (y compris WebP animé)
- BMP
- PNM
Comment ça marche
Une fois qu’une tâche de découverte de données OCR est démarrée, le processus de découverte passe par les phases suivantes :
- DataSunrise parcourt le contenu du compartiment S3 spécifié à la recherche d’images.
- Le préprocesseur du moteur OCR prépare les images découvertes pour un traitement ultérieur en les rendant plus contrastées et nettes.
- DataSunrise, avec l’aide de la technologie OCR Tesseract, reconnaît le texte non structuré figurant dans les images et utilise les algorithmes de Data Discovery en respectant ce texte selon les paramètres de votre tâche de découverte de données.
En conséquence, vous obtenez les noms et l’emplacement des fichiers image contenant des données sensibles et ces données dans un rapport DD.
Configurer une tâche OCR dans DataSunrise
Voyons maintenant le processus de création d’une tâche de découverte de données OCR.
Tout d’abord, notez que la découverte de données OCR avec la découverte de données NLP nécessite Java 1.8+.
Pour utiliser la découverte de données OCR, vous devez effectuer les opérations suivantes :
- Avant de passer à l’étape suivante, créez une instance de base de données S3 dans DataSunrise (reportez-vous au guide utilisateur de DataSunrise pour plus de détails).
- Accédez à Data Discovery → Periodic Data Discovery
- Créez une tâche de découverte de données pour votre compartiment S3 :
Remplissez les Paramètres généraux :

- Nommer la tâche
- Sélectionnez le serveur DS pour démarrer la tâche
- Si vous souhaitez effectuer une découverte de données pour plusieurs instances de base de données, cochez la case correspondante et sélectionnez les instances d’intérêt
- Cochez la case Générer des rapports pour créer un rapport soit en format PDF, soit en format CSV.
Dans la section Paramètres de recherche :

- Sélectionnez votre instance de base de données AWS S3. Fournissez les identifiants pour votre S3
- Choisissez Select Strategy : sélectionner toutes les lignes ou seulement les premières lignes
- Sélectionner la stratégie de correspondance des colonnes : type de filtrage des colonnes
- Définir le pourcentage minimum de correspondance : il s’agit du pourcentage minimum de lignes dans une colonne qui correspondent aux conditions du filtre de recherche pour considérer la colonne comme contenant les données sensibles requises
- Sélectionner le nombre de lignes analysées : nombre de lignes analysées à sélectionner
Dans la section Paramètres multi-processus :

Sélectionner la stratégie d’exécution : Serveur DS unique ou plusieurs serveurs DS pour un calcul parallèle
Sélectionnez les objets de la base de données à rechercher:

Utilisez l’arborescence des objets pour spécifier les objets qui doivent être parcourus pendant l’exécution de la tâche
Vous pouvez exclure certains objets de la recherche en utilisant l’arborescence d’objets correspondante :

Dans les Paramètres de recherche :

Sélectionnez le type d’information ou les normes de sécurité selon lesquelles chercher. Notez que vous pouvez également utiliser Rechercher des attributs pour trouver un type d’information ou une norme de sécurité dont vous avez besoin par attribut.
Dans la section Fréquence de démarrage :

Sélectionnez la fréquence d’exécution de la tâche. Sélectionnez Manuel pour un démarrage manuel ou définissez un calendrier.
Important : vous devez activer le paramètre supplémentaire imageDataDiscovery avant de lancer la tâche. Vous pouvez le faire dans les paramètres supplémentaires (Paramètres du système -> Paramètres supplémentaires) ou dans la sous-section Paramètres supplémentaires personnalisés de la page de la tâche.

Sélectionnez imageDataDiscovery dans la liste et activez-le comme indiqué ci-dessous :

Lancez la tâche manuellement ou selon un calendrier et DataSunrise effectuera automatiquement la découverte OCR :

Pour les résultats de recherche, reportez-vous à la table des résultats de recherche :
