Accueil
Guides
Guide complet sur la recherche de données sensibles dans les images hébergées sur AWS S3

Guide complet sur la recherche de données sensibles dans les images hébergées sur AWS S3

Installer le Package DataSunrise depuis le Répertoire DEB pour Ubuntu 24 Comment migrer le modèle CloudFormation DataSunrise de la configuration de lancement (LC) à la ressource de modèle de lancement (LT) dans le groupe Auto Scaling Comment Envoyer des Événements DataSunrise à un Canal Microsoft Teams via Webhook Entrant en Utilisant des Abonnés Comment délester les données de la base de données d’audit vers AWS S3 et les lire en utilisant le service AWS Athena Convertir la configuration d’essai ou BYOL de DataSunrise en facturation horaire PostgreSQL (RDS) vs Aurora PostgreSQL Comment dépanner les erreurs « La connexion a été interrompue » ou « La connexion a été interrompue de manière inattendue » dans les applications utilisant les proxys DataSunrise Les Performances de DataSunrise sous une Forte Charge de Trafic L’Approche de DataSunrise pour configurer les pénalités de détection d’injection SQL Comment bloquer des hôtes spécifiques dans DataSunrise pour améliorer la sécurité de la base de données Dépannage des problèmes de mesure et de facturation horaire AWS dans DataSunrise sur AWS Marketplace Comment effectuer la modification de la Formation Cloud Masquage Dynamique des Données avec DataSunrise : Masquage avec des scripts Lua Comment Choisir la Base de Données pour le Stockage d’Audit : Une Analyse de Performance Comment exécuter pgbench via le proxy DataSunrise sur PostgreSQL 14 avec l’authentification SCRAM Comment Contrôler la Visibilité des Noms de Tables Installer le package DataSunrise depuis le dépôt DEB (pour Debian 12/Ubuntu 22) Configuration de l’authentification SSO DataSunrise basée sur SAML (Okta) Configuration de l’authentification SSO DataSunrise basée sur OpenID (Okta) Guide complet sur la recherche de données sensibles dans les images hébergées sur AWS S3 Comment déployer DataSunrise avec un Template Terraform sur Azure Comment intégrer DataSunrise avec un cluster SQL Server Always On Comment déployer DataSunrise dans Microsoft Azure en utilisant Azure Resource Manager Comment effectuer le masquage statique des données pour MongoDB avec DataSunrise Comment Configurer le Suivi d’Audit des Bases de Données pour MS Azure MySQL Configurer le suivi d’audit de la base de données pour MS Azure PostgreSQL Comment Configurer DataSunrise pour Masquer les Données pour Amazon Athena Comment mettre à jour la version RHEL des serveurs DataSunrise existants Comment intégrer DataSunrise avec AWS Database Activity Streams pour obtenir des résultats d’audit pour AWS Aurora PostgreSQL Configurer des certificats SSL pour le proxy de base de données DataSunrise Rapports dans DataSunrise : Système Crucial pour une Sécurité Renforcée des Bases de Données Comment cacher les schémas des utilisateurs dans Redshift Présentation de la Console Centralisée DataSunrise Journaux d’audit AWS RDS PostgreSQL dans DataSunrise Masquage de Texte Non Structuré sur AWS S3 Masquage des Données sur Place Comment Auditer les Actions Administratives dans votre Oracle RDS et EC2 Meilleures pratiques des règles de DataSunrise Le script Lua découvre des données sensibles dans les fichiers JSON Comment vérifier si DataSunrise reçoit du trafic Supprimer une Procédure ou une Fonction d’une Base de Données Principes de Base du Masquage Dynamique Installer DataSunrise à partir du dépôt RPM (pour RHEL, CentOS 8/9) Installer DataSunrise depuis le dépôt DEB (Debian, Ubuntu) Guide de sécurité Règles de Sécurité Contre les Injections SQL Guide d’Audit Apprentissage des Règles et Audit Priorité des Règles Guide de Masquage Dynamique des Données Guide du Masquage Statique des Données

Pour fournir à nos clients un outil puissant de découverte de données, il y a quelque temps, nous avons présenté la fonctionnalité OCR (Reconnaissance Optique de Caractères) intégrée à notre module Data Discovery. Cette fonctionnalité vous permet de rechercher des données sensibles telles que des données personnelles, des numéros de carte de crédit, des permis de conduire, etc. contenues dans des fichiers image. Le processus de découverte est effectué automatiquement sans aucune intervention humaine. La découverte de données OCR fonctionne uniquement avec AWS S3 pour l’instant.

L’OCR DD de DataSunrise est basé sur le moteur Tesseract qui utilise la technologie des réseaux de neurones pour la reconnaissance de caractères. Tesseract utilise la bibliothèque Leptonica pour lire des images dans l’un des formats suivants :

PNG
JPEG
TIFF
JPEG 2000
GIF
WebP (y compris WebP animé)
BMP
PNM

Comment ça marche

Une fois qu’une tâche de découverte de données OCR est démarrée, le processus de découverte passe par les phases suivantes :

DataSunrise parcourt le contenu du compartiment S3 spécifié à la recherche d’images.
Le préprocesseur du moteur OCR prépare les images découvertes pour un traitement ultérieur en les rendant plus contrastées et nettes.
DataSunrise, avec l’aide de la technologie OCR Tesseract, reconnaît le texte non structuré figurant dans les images et utilise les algorithmes de Data Discovery en respectant ce texte selon les paramètres de votre tâche de découverte de données.

En conséquence, vous obtenez les noms et l’emplacement des fichiers image contenant des données sensibles et ces données dans un rapport DD.

Configurer une tâche OCR dans DataSunrise

Voyons maintenant le processus de création d’une tâche de découverte de données OCR.

Tout d’abord, notez que la découverte de données OCR avec la découverte de données NLP nécessite Java 1.8+.

Pour utiliser la découverte de données OCR, vous devez effectuer les opérations suivantes :

Avant de passer à l’étape suivante, créez une instance de base de données S3 dans DataSunrise (reportez-vous au guide utilisateur de DataSunrise pour plus de détails).
Accédez à Data Discovery → Periodic Data Discovery
Créez une tâche de découverte de données pour votre compartiment S3 :

Remplissez les Paramètres généraux :

Nommer la tâche
Sélectionnez le serveur DS pour démarrer la tâche
Si vous souhaitez effectuer une découverte de données pour plusieurs instances de base de données, cochez la case correspondante et sélectionnez les instances d’intérêt
Cochez la case Générer des rapports pour créer un rapport soit en format PDF, soit en format CSV.

Dans la section Paramètres de recherche :

Sélectionnez votre instance de base de données AWS S3. Fournissez les identifiants pour votre S3
Choisissez Select Strategy : sélectionner toutes les lignes ou seulement les premières lignes
Sélectionner la stratégie de correspondance des colonnes : type de filtrage des colonnes
Définir le pourcentage minimum de correspondance : il s’agit du pourcentage minimum de lignes dans une colonne qui correspondent aux conditions du filtre de recherche pour considérer la colonne comme contenant les données sensibles requises
Sélectionner le nombre de lignes analysées : nombre de lignes analysées à sélectionner

Dans la section Paramètres multi-processus :

Sélectionner la stratégie d’exécution : Serveur DS unique ou plusieurs serveurs DS pour un calcul parallèle

Sélectionnez les objets de la base de données à rechercher:

Utilisez l’arborescence des objets pour spécifier les objets qui doivent être parcourus pendant l’exécution de la tâche

Vous pouvez exclure certains objets de la recherche en utilisant l’arborescence d’objets correspondante :

Dans les Paramètres de recherche :

Sélectionnez le type d’information ou les normes de sécurité selon lesquelles chercher. Notez que vous pouvez également utiliser Rechercher des attributs pour trouver un type d’information ou une norme de sécurité dont vous avez besoin par attribut.

Dans la section Fréquence de démarrage :

Sélectionnez la fréquence d’exécution de la tâche. Sélectionnez Manuel pour un démarrage manuel ou définissez un calendrier.

Important : vous devez activer le paramètre supplémentaire imageDataDiscovery avant de lancer la tâche. Vous pouvez le faire dans les paramètres supplémentaires (Paramètres du système -> Paramètres supplémentaires) ou dans la sous-section Paramètres supplémentaires personnalisés de la page de la tâche.

Sélectionnez imageDataDiscovery dans la liste et activez-le comme indiqué ci-dessous :

Lancez la tâche manuellement ou selon un calendrier et DataSunrise effectuera automatiquement la découverte OCR :

Pour les résultats de recherche, reportez-vous à la table des résultats de recherche :

Guide complet sur la recherche de données sensibles dans les images hébergées sur AWS S3

Comment ça marche

Configurer une tâche OCR dans DataSunrise

Did this guide help you?