Nouvelles capacités pour la découverte de données sensibles sur Amazon S3
Introduction
Selon une récente enquête, plus de 50% des entreprises hébergent une grande quantité de données sensibles dans des stockages cloud, comme S3 d’Amazon.
DataSunrise Sensitive Data Discovery est disponible pour une recherche rapide, une classification et une gestion des données. La recherche et l’analyse des données dans vos stockages de données vous permettent de repérer les données sensibles sur Amazon S3 à temps, rapidement et sans effort. Nous avons amélioré notre outil. Auparavant, nous pouvions découvrir des données semi-structurées et non structurées sur S3 grâce à la fonctionnalité NLP, et maintenant nous pouvons encore plus.
DataSunrise Sensitive Data Discovery
Data Discovery pour Amazon S3 possède de nouvelles capacités pour détecter et protéger les données sensibles. Désormais, Data Discovery est disponible pour :
- Le format de fichier Apache Parquet;
- Les fichiers semi-structurés comme XML, JSON, CSV;
- Les formats de texte non structurés comme les documents Microsoft Word;
- Les images.
Data Discovery pour S3 analyse non seulement les objets mais aussi leurs noms et leurs chemins. DataSunrise relie les relations sémantiques avec le contexte de l’objet pour une découverte complète et exhaustive des données sensibles. Ainsi, vous n’avez pas besoin de vous préoccuper des noms spécifiques des objets contenant des informations sensibles et privées.
Modèles prédéfinis et personnalisation pour les PII. DataSunrise dispose de nombreux modèles prédéfinis pour la recherche de données sensibles comme les numéros de carte de crédit, les passeports, les permis de conduire. Pour une recherche plus flexible, vous pouvez utiliser des types d’informations personnalisés (qui peuvent être configurés à l’aide d’expressions régulières, de scripts Lua, etc.). Grâce à ces filtres, vous aurez une image exhaustive des données sensibles recueillies. Le réglage précis de la découverte vous fera gagner du temps et d’autres ressources. La chose la plus importante est que vous serez certain qu’il n’y a pas de données sensibles échappant à votre contrôle et pouvant mener à une exposition des données.
Découverte de données à la demande. Vous pouvez créer et exécuter la découverte de données non seulement manuellement via la console Web. Utilisez le terminal système avec l’interface en ligne de commande pour créer des systèmes automatisés qui répondent aux événements de sécurité sans intervention manuelle.
Découverte de données sensibles dans les images. Les entreprises qui stockent des données sensibles dans les images (permis de conduire, SSN, etc.) seront heureuses d’utiliser la découverte de données DataSunrise avec reconnaissance optique de caractères. L’utilisation de la découverte d’images vous permet de rechercher des données sensibles dans les images grâce au moteur OCR. Il extrait le texte des images, analyse ensuite ces informations et trouve les données privées des documents. Notre découverte de données d’images prend en charge les formats de fichiers suivants : JPG, PNG, GIF, TIFF, PSD.
Découverte de données dans des fichiers compressés et archivés. En plus des objets et des différents formats de fichiers, Data Discovery pour S3 peut également rechercher des données sensibles dans des formats compressés et archivés. Les fichiers compressés vous permettent de réduire l’espace utilisé, économisant ainsi les coûts. Les fichiers archivés vous permettent de collecter et de regrouper des fichiers en un seul endroit. Quelle que soit la taille de l’archive, les données sensibles seront découvertes.
Performance de découverte de données sensibles
La découverte de données sensibles fonctionne à différents niveaux dans S3. Tout d’abord, vous pouvez découvrir vos buckets et objets S3 pour y trouver des informations sensibles. C’est la manière la plus simple de trouver des informations privées qui doivent être protégées. Mais quand vous avez beaucoup de buckets S3 et d’objets à l’intérieur, cette tâche devient chronophage et fatigante. Avec DataSunrise, vous pourrez économiser votre temps, budget et autres ressources car DataSunrise supporte désormais plusieurs techniques pour augmenter les performances.
Inventaire AWS S3. Il conserve toutes les métadonnées sur vos buckets S3 en un seul endroit sous la forme d’un fichier CSV archivé. Pour réduire la consommation de trafic et le coût des opérations, DataSunrise peut obtenir ces métadonnées à l’aide de l’inventaire S3 sans appels API AWS.
Découverte incrémentielle des données. Avec la découverte incrémentielle des données, il n’est pas nécessaire de redécouvrir de manière répétitive les mêmes objets et buckets pour la présence de données sensibles. Le mode de scan incrémentiel ignore les buckets et objets découverts précédemment. Il scanne uniquement les nouveaux objets ou les objets mis à jour, en les comparant avec le dernier moment scanné. Cela vous aide à économiser du temps et de l’argent lors du traitement de grands volumes de données. De plus, le scan incrémentiel est optionnel, vous pouvez le désactiver à tout moment si nécessaire.
Découverte parallèle des données. Pour une recherche rapide de données sensibles dans des volumes de données massifs, vous pouvez utiliser le multiprocessus implémenté. Il permet l’utilisation de plusieurs serveurs DataSunrise pour une découverte de données parallèle. Avec la découverte parallèle, vous pourrez optimiser l’utilisation du CPU et de la mémoire. L’utilisation du multiprocessus simplifie le travail de découverte de données lorsque vous devez traiter une énorme quantité de données. De plus, il réduit la charge sur le serveur et n’impacte pas les processus parallèles que vous avez. Avec le multiprocessus, vous pouvez choisir de multiples attributs de recherche et exclure des objets spécifiques du scan.
Découverte aléatoire des données. Elle permet de scanner des fichiers aléatoires dans les buckets S3 pour accélérer le processus de découverte de données. Il est possible de choisir le pourcentage de données sensibles à découvrir parmi de grands volumes de données.
Division des gros fichiers en morceaux. Les gros objets consomment de l’espace additionnel en effectuant des calculs en mémoire. Maintenant, nous pouvons diviser tout objet en morceaux pour augmenter les performances et optimiser l’utilisation de la mémoire. Avec des paramètres supplémentaires tels que “DataDiscoveryChunkSize” et autres, nous pouvons facilement découvrir ces morceaux et trouver toute information sensible.
Paramètres et personnalisation de la découverte de données sensibles
Vous pouvez affiner le processus de découverte en ajustant certains paramètres supplémentaires.
DataSunrise dispose de plus de 25 paramètres personnalisables. Par exemple :
- “DataDiscoveryMatchesSaveStrategy” permet de sauvegarder les occurrences de la découverte de données dans le dictionnaire en fonction de vos besoins particuliers : sauvegarder les premières correspondances, toutes les correspondances, ou les correspondances uniques;
- “DataDiscoveryChunkSize” permet de télécharger partiellement les fichiers pour la découverte de données afin d’éviter le débordement de la mémoire. Vous pouvez définir la taille du chunk et la limite de somme des chunks;
- “DataDiscoveryMaxFileSizeForChunkProcessing” est pour la taille totale du fichier à scanner en tant que somme des chunks. Le traitement des chunks scanne jusqu’à ce que la valeur de ce paramètre soit atteinte;
- “DataDiscoveryS3FilePartToRead” est pour la taille maximale du fichier (en Mo) pour la découverte de données S3. Ce paramètre fonctionne en conjonction avec DataDiscoveryFilesThreadPools. Il définit le nombre de threads utilisés pour le traitement des fichiers. Chaque thread traite un fichier à la fois. Donc, la valeur de ce paramètre dépend des ressources système disponibles.
- “DataDiscoveryBatchSplitFactor” identifie en combien de parties le lot échoué sera divisé pour un nouveau lancement de la tâche de découverte de données.
Rapports de découverte de données sensibles
DataSunrise fournit une protection multicouche pour AWS S3. En conséquence, DataSunrise intervient sur une énorme quantité de données. Cela vous permet d’obtenir toutes les informations les plus détaillées sur vos bases de données et les données qu’elles contiennent en créant des rapports personnalisés au format CSV ou PDF.
Disponibilité des rapports. La génération de rapports est désormais possible pendant le processus de la tâche de découverte, il n’est plus nécessaire d’attendre la fin de la tâche. Cela vous permet de voir les résultats intermédiaires et de les utiliser pour l’analyse.
Utilisation des rapports. Grâce aux résultats des rapports, vous pouvez collecter des analyses et obtenir des statistiques sur la vitesse de traitement des données et les attributs et utiliser les données reçues à des fins spécifiques, y compris l’apprentissage de votre propre IA.
Avec un système flexible de rapports personnalisables, vous n’avez plus besoin de surveiller manuellement les informations sur les niveaux de protection de vos bases de données.
Conclusion
La découverte de données sensibles vous permet de savoir où se trouvent les données sensibles dans vos buckets AWS S3 et de mettre en œuvre des moyens de protection des données en conséquence.
DataSunrise offre une grande variété de formats et de méthodes pour découvrir des données sensibles sur AWS S3 où qu’elles se trouvent. Avec la performance améliorée, la découverte de données sera moins chronophage. Vous pouvez affiner la découverte des données sensibles de DataSunrise pour éviter les recherches répétées inutiles parmi de grands volumes de données. Des modèles de recherche éditables vous permettent de rechercher toute donnée spécifique. Avec des rapports, vous pouvez obtenir les informations les plus détaillées qui vous permettront de voir les résultats intermédiaires pour l’analyse, l’apprentissage de l’IA et d’autres processus métier.
Pour commencer avec DataSunrise avec Amazon, visitez DataSunrise sur AWS Marketplace.