Wie man nach sensiblen Daten in Bildern sucht, die auf AWS S3 gehostet werden
Um unseren Kunden ein leistungsstarkes Tool zur Datenentdeckung bereitzustellen, haben wir vor einiger Zeit die OCR (Optical Character Recognition)-Funktionalität in unser Data Discovery-Modul integriert. Diese Funktion ermöglicht Ihnen das Suchen nach sensiblen Daten wie persönlichen Daten, Kreditkartennummern, Führerscheinen usw., die in Bilddateien enthalten sind. Der Erkennungsprozess wird automatisch ohne menschliches Eingreifen durchgeführt. Der OCR Data Discovery funktioniert vorerst nur mit AWS S3.
DataSunrise’s OCR DD basiert auf der Tesseract-Engine, die neuronale Netzwerke zur Zeichenerkennung verwendet. Tesseract nutzt die Leptonica-Bibliothek, um Bilder in einem der folgenden Formate zu lesen:
- PNG
- JPEG
- TIFF
- JPEG 2000
- GIF
- WebP (einschließlich animiertem WebP)
- BMP
- PNM
Wie es funktioniert
Sobald eine OCR Data Discovery-Aufgabe gestartet wird, durchläuft der Erkennungsprozess die folgenden Phasen:
- DataSunrise durchsucht den Inhalt des angegebenen S3-Buckets nach Bildern.
- Der Vorprozessor der OCR-Engine bereitet die gefundenen Bilder für die weitere Verarbeitung vor, indem er sie kontrastreicher und schärfer macht.
- DataSunrise erkennt mit Hilfe der Tesseract OCR-Technologie unstrukturierten Text auf den Bildern und nutzt die Data Discovery-Algorithmen entsprechend den Einstellungen Ihrer Data Discovery-Aufgabe.
Als Ergebnis erhalten Sie die Namen und Positionen der Bilddateien, die sensible Daten enthalten, sowie diese Daten in einem DD-Bericht.
Konfigurieren einer OCR-Aufgabe in DataSunrise
Schauen wir uns nun den Prozess der Erstellung einer OCR Data Discovery-Aufgabe an.
Beachten Sie zunächst, dass für OCR Data Discovery mit NLP Data Discovery Java 1.8+ erforderlich ist
Um OCR Data Discovery zu nutzen, müssen Sie Folgendes tun:
- Bevor Sie mit dem nächsten Schritt fortfahren, erstellen Sie eine S3-DB-Instanz in DataSunrise (siehe Benutzerhandbuch von DataSunrise für Details).
- Navigieren Sie zu Data Discovery → Periodic Data Discovery
- Erstellen Sie eine Data Discovery-Aufgabe für Ihren S3-Bucket:
Füllen Sie die Allgemeinen Einstellungen aus:
- Nennen Sie die Aufgabe
- Wählen Sie den DS-Server, auf dem die Aufgabe gestartet werden soll
- Wenn Sie eine Data Discovery für mehrere DB-Instanzen durchführen möchten, aktivieren Sie das entsprechende Kontrollkästchen und wählen Sie die interessierenden Instanzen aus
- Aktivieren Sie das Kontrollkästchen “Berichte erstellen”, um einen Bericht entweder im PDF- oder CSV-Format zu erstellen.
Im Abschnitt Suchparameter:
- Wählen Sie Ihre AWS S3 DB-Instanz aus. Geben Sie Anmeldeinformationen für Ihr S3 ein
- Wählen Sie Auswahlstrategie: Alle Zeilen oder nur obere Zeilen auswählen
- Wählen Sie Spaltenabgleichstrategie: Spaltenfiltertyp
- Setzen Sie das minimale Prozentsatz des Abgleichs: Es ist der minimale Prozentsatz der Zeilen in einer Spalte, die die Suchfilterbedingungen erfüllen müssen, um die Spalte als enthaltend die erforderlichen sensiblen Daten zu betrachten
- Wählen Sie die Anzahl der analysierten Zeilen: Anzahl der analysierten Zeilen, die ausgewählt werden sollen
Im Multiprozess-Parameter:
Wählen Sie die Ausführungsstrategie: Einzelner DS-Server oder mehrere DS-Server für parallele Berechnung
Wählen Sie die DB-Objekte aus, die durchsucht werden sollen:
Verwenden Sie den Objektbaum, um Objekte anzugeben, die während der Ausführung der Aufgabe durchsucht werden sollen
Sie können bestimmte Objekte von der Suche ausschließen, indem Sie den entsprechenden Objektbaum verwenden:
In Sucheinstellungen:
Wählen Sie den Informationstyp oder die Sicherheitsstandards aus, nach denen gesucht werden soll. Beachten Sie, dass Sie auch “Suche nach Attributen” verwenden können, um den Informationstyp oder Sicherheitsstandard, den Sie benötigen, nach Attribut zu finden.
In Startfrequenz:
Wählen Sie die Häufigkeit der Aufgabenausführung aus. Wählen Sie manuell für manuelles Starten oder legen Sie einen Zeitplan fest.
Wichtig: Sie müssen den zusätzlichen Parameter imageDataDiscovery aktivieren, bevor Sie die Aufgabe ausführen. Sie können dies in den zusätzlichen Parametern (Systemeinstellungen -> Zusätzliche Parameter) oder im Abschnitt Benutzerdefinierte zusätzliche Einstellungen auf der Seite der Aufgabe tun.
Wählen Sie imageDataDiscovery in der Liste aus und aktivieren Sie es wie unten gezeigt:
Führen Sie die Aufgabe manuell oder nach Zeitplan aus und DataSunrise wird die OCR-Erkennung automatisch durchführen:
Für Suchergebnisse, siehe die Tabelle Suchergebnisse: