Come Cercare Dati Sensibili in Immagini Ospitate su AWS S3
Per fornire ai nostri clienti un potente strumento di scoperta dei dati, qualche tempo fa abbiamo presentato la funzionalità OCR (Optical Character Recognition) integrata nel nostro modulo di Data Discovery. Questa funzione consente di cercare dati sensibili quali dati personali, numeri di carte di credito, patenti di guida, ecc. contenuti nei file di immagine. Il processo di scoperta viene eseguito automaticamente senza la necessità di alcuna interferenza umana. OCR Data Discovery funziona solo con AWS S3 per ora.
Il sistema OCR DD di DataSunrise si basa sul motore Tesseract che utilizza la tecnologia neurale per il riconoscimento dei caratteri. Tesseract utilizza la libreria Leptonica per leggere immagini con uno dei seguenti formati:
- PNG
- JPEG
- TIFF
- JPEG 2000
- GIF
- WebP (incluso WebP animato)
- BMP
- PNM
Come Funziona
Una volta iniziata un’attività OCR Data Discovery, il processo di scoperta attraversa le seguenti fasi:
- DataSunrise scansiona i contenuti del bucket S3 specificato per le immagini.
- Il preprocessore del motore OCR prepara le immagini scoperte per un’elaborazione ulteriore rendendole più contrastanti e nitide.
- DataSunrise, con l’aiuto della tecnologia OCR Tesseract, riconosce il testo non strutturato rappresentato nelle immagini e utilizza algoritmi di Data Discovery in rispetto di questo testo secondo le impostazioni dell’attività di Data Discovery.
Di conseguenza, si ottengono i nomi e la posizione dei file di immagine che contengono dati sensibili e quei dati in un rapporto DD.
Configurare un’Attività OCR in DataSunrise
Ora esaminiamo il processo di creazione di un’attività OCR Data Discovery.
Prima di tutto, nota che OCR Data Discovery con NLP Data Discovery richiede Java 1.8+
Per utilizzare OCR Data Discovery, si devono seguire i seguenti passaggi:
- Prima di procedere al prossimo passaggio, crea un’istanza DB S3 in DataSunrise (fare riferimento alla Guida Utente di DataSunrise per i dettagli).
- Naviga a Data Discovery → Periodic Data Discovery
- Crea un’attività di Data Discovery per il bucket S3:
Compila le Impostazioni Generali:
- Nomina l’attività
- Seleziona il Server DS su cui iniziare l’attività
- Se vuoi eseguire Data Discovery per più istanze DB, seleziona la relativa casella di controllo e seleziona le istanze di interesse
- Seleziona la casella Genera Rapporti per creare un rapporto in formato PDF o CSV.
Nella sezione Parametri di Ricerca:
- Seleziona la tua istanza DB AWS S3. Fornisci le credenziali per il tuo S3
- Scegli la Strategia di Selezione: seleziona tutte le righe o solo le righe principali
- Seleziona la Strategia di Corrispondenza delle Colonne: tipo di filtro delle colonne
- Imposta la Percentuale Minima di Corrispondenza: è la percentuale minima di righe in una colonna che corrispondono alle condizioni del filtro di ricerca per considerare la colonna come contenente i dati sensibili richiesti
- Seleziona il Numero di Righe Analizzate: numero di righe analizzate da SELECT
In Parametri Multi-processo:
Seleziona la Strategia di Esecuzione: Server DS singolo o più Server DS per il calcolo parallelo
Seleziona gli Oggetti DB su cui cercare:
Usa l’albero degli oggetti per specificare gli oggetti che devono essere sfogliati durante l’esecuzione dell’attività
Puoi escludere determinati oggetti dalla ricerca utilizzando l’albero degli oggetti corrispondente:
In Impostazioni di Ricerca:
Seleziona il Tipo di Informazione o gli Standard di Sicurezza secondo i quali cercare. Nota che puoi anche usare Cerca per Attributi per trovare un Tipo di Informazione o uno Standard di Sicurezza che ti serve tramite attributo.
In Frequenza di Avvio:
Seleziona la frequenza di esecuzione dell’attività. Seleziona Manuale per l’avvio manuale o imposta un programma.
Importante: è necessario abilitare il parametro aggiuntivo imageDataDiscovery prima di eseguire l’attività. Puoi farlo in Parametri Aggiuntivi (Impostazioni di Sistema -> Parametri Aggiuntivi) o nella sottosezione Impostazioni Aggiuntive Personalizzate della pagina dell’attività.
Seleziona imageDataDiscovery dall’elenco e abilitalo come mostrato di seguito:
Esegui manualmente l’attività o pianificala e DataSunrise effettuerà automaticamente la scoperta OCR:
Per i risultati della ricerca, consulta la tabella dei Risultati di Ricerca: