Erkennung sensibler Daten für das Parquet-Dateiformat
DataSunrise Sensitive Data Discovery ist für das Parquet-Dateiformat verfügbar und ermöglicht eine schnelle Datensuche, -klassifizierung und -verwaltung. Parquet ist ein Open-Source-Dateiformat, das verschachtelte Datenstrukturen im spaltenbasierten Format speichert. Dieser Ansatz hat mehrere Vorteile, beispielsweise wenn Abfragen spezifische Spalten aus einer großen Tabelle lesen müssen. Parquet optimiert die Datenspeicherung, spart und komprimiert Daten schneller und effizienter, wodurch Speicherplatz gespart wird.
Aufgrund dieser Vorteile und Flexibilität wird Parquet häufig für die dauerhafte und temporäre Speicherung von Daten, für Import und Export aus verschiedenen Quellen und für den Datentransfer zwischen verschiedenen Anwendungen und Diensten verwendet. Jedes Jahr wächst die Menge solcher Daten rapide. Mit deren Zunahme werden Softwarelösungen für Datenanalyse und -schutz, wie etwa das Apache Hive Data Warehouse und der Amazon Athena interaktive Abfrageservice, immer verbreiteter. Diese ermöglichen die Analyse großer Datensätze, die in verteiltem Speicher liegen, mittels SQL.
DataSunrise Version 7.3 unterstützt das Parquet-Dateiformat sowie CSV, XML, JSON und unstrukturierte Textdateien bei der Erkennung sensibler Daten in AWS S3 Buckets.
Die Datensuche erfolgt durch eine Reihe vordefinierter Filter, die angepasst werden können. Standardmäßig sind die Filter so eingestellt, dass sie die folgenden Datentypen finden:
- Datumsangaben;
- E-Mail-Adressen;
- Finanzdaten (Codes, Kreditkartennummern, PIN-Codes usw.);
- Geografische Daten (Städte-, Ländernamen, Postleitzahlen usw.);
- Medizinische Daten (Suche nach Krankenakten);
- Namen;
- Zahlen (Kontonummern, Zertifikate, Kennzeichen usw.);
- Sozialversicherungsnummern;
- Telefon/Fax.
Die Suche und Analyse von Daten in Ihren Datenspeichern stellt sicher, dass Sie sensible Daten in Amazon S3 rechtzeitig, schnell und mühelos identifizieren können. Mit DataSunrise können Sie sicher sein, dass Ihre Daten vollständig vor Datenlecks geschützt sind.