Homepage
Guide
Guida Completa su Come Cercare Dati Sensibili nelle Immagini Ospitate su AWS S3

Guida Completa su Come Cercare Dati Sensibili nelle Immagini Ospitate su AWS S3

Come Migrare il Modello DataSunrise CloudFormation da Launch Configuration (LC) a Risorsa Launch Template (LT) nel Gruppo Auto Scaling Come Inviare Eventi di DataSunrise a un Canale di Microsoft Teams tramite Webhook in Entrata utilizzando gli Abbonati Come Spostare i Dati del Database di Audit su AWS S3 e Leggerli Utilizzando il Servizio AWS Athena Convertire la Configurazione di DataSunrise da Prova o BYOL a Fatturazione Oraria PostgreSQL (RDS) vs Aurora PostgreSQL Come Risolvere gli Errori di “Connessione è stata Terminata” o “Connessione Terminata Inaspettatamente” nelle Applicazioni che Usano i Proxy di DataSunrise Le Prestazioni di DataSunrise Sotto Condizioni di Alto Traffico L’Approccio di DataSunrise alla Configurazione delle Penalità per la Rilevazione di SQL Injection Come Bloccare Host Specifici in DataSunrise per una Sicurezza del Database Migliorata Risoluzione dei Problemi di Misurazione e Fatturazione Oraria AWS in DataSunrise su AWS Marketplace Come Eseguire una Modifica a Cloud Formation Mascheramento Dinamico dei Dati con DataSunrise: Mascheramento con script Lua Come Scegliere il Database per la Memorizzazione Audit: Un’Analisi delle Prestazioni Come Eseguire pgbench tramite il Proxy DataSunrise su PostgreSQL 14 con Autenticazione SCRAM Come Controllare la Visibilità dei Nomi delle Tabelle Installare il pacchetto DataSunrise dal Repository DEB (per Debian 12/Ubuntu 22) DataSunrise SSO Autenticazione Basata su SAML (Okta) Autenticazione SSO di DataSunrise Basata su OpenID (Okta) Guida Completa su Come Cercare Dati Sensibili nelle Immagini Ospitate su AWS S3 Come Distribuire DataSunrise con il Modello Terraform su Azure Integrare DataSunrise con SQL Server Always On Cluster Come Distribuire DataSunrise in Microsoft Azure Utilizzando Azure Resource Manager Come Eseguire il Mascheramento Statico dei Dati di DataSunrise per MongoDB Come Configurare la Traccia di Audit del DB per MS Azure MySQL Configura la Traccia di Audit di Database per MS Azure PostgreSQL Come Configurare DataSunrise per Mascherare i Dati di Amazon Athena Come Aggiornare la Versione del Sistema Operativo RHEL sui Server Esistenti con DataSunrise Come Integrare DataSunrise con AWS Database Activity Streams per Ottenere i Risultati degli Audit per AWS Aurora PostgreSQL Configurare i Certificati SSL per il Proxy di Database DataSunrise Report in DataSunrise: Sistema Cruciale per Migliorare la Sicurezza del Database Come Nascondere Schemi agli Utenti in Redshift Panoramica della Console Centralizzata DataSunrise Audit Log di AWS RDS PostgreSQL in DataSunrise Mascheramento di Testi Non Strutturati su AWS S3 Mascheramento dei Dati in Situ Audit delle Azioni Amministrative nel Tuo Oracle RDS e EC2 Best Practices Regole DataSunrise Lo script Lua scopre dati sensibili nei file JSON Come Verificare se DataSunrise Riceve il Traffico Rimuovere una Procedura o una Funzione da un Database Principi di Base del Mascheramento Dinamico Installare DataSunrise dal Repository RPM (per RHEL, CentOS 8/9) Installare DataSunrise dal Repository DEB (Debian, Ubuntu) Guida alla Sicurezza Regole di Sicurezza Contro le Iniezioni SQL Guida all’Audit Imparare le Regole e Audit Priorità delle Regole Guida al Mascheramento Dinamico dei Dati Guida al Mascheramento Statico dei Dati

Per fornire ai nostri clienti un potente strumento di scoperta dei dati, tempo fa abbiamo presentato la funzionalità OCR (Optical Character Recognition) integrata nel nostro modulo Data Discovery. Questa funzionalità consente di cercare dati sensibili come dati personali, numeri di carte di credito, patenti di guida, ecc. contenuti nei file di immagini. Il processo di scoperta viene eseguito automaticamente senza bisogno di alcun intervento umano. OCR Data Discovery funziona solo con AWS S3 per il momento.

L’OCR DD di DataSunrise è basato sul motore Tesseract che utilizza la tecnologia delle reti neurali per il riconoscimento dei caratteri. Tesseract utilizza la libreria Leptonica per leggere le immagini con uno dei seguenti formati:

PNG
JPEG
TIFF
JPEG 2000
GIF
WebP (inclusi WebP animati)
BMP
PNM

Come Funziona

Una volta avviato un task di OCR Data Discovery, il processo di scoperta passa attraverso le seguenti fasi:

DataSunrise esamina i contenuti del bucket S3 specificato per le immagini.
Il preprocessore del motore OCR prepara le immagini scoperte per ulteriori elaborazioni rendendole più contrastate e nitide.
DataSunrise, con l’ausilio della tecnologia OCR di Tesseract, riconosce il testo non strutturato presente nelle immagini e applica algoritmi di Data Discovery in rispetto di tale testo secondo le impostazioni del Task di Data Discovery.

Come risultato, ottiene i nomi e la posizione dei file immagine che contengono dati sensibili e quei dati in un report DD.

Configurare un Task OCR in DataSunrise

Ora diamo uno sguardo al processo di creazione di un task OCR Data Discovery.

Innanzitutto, è importante notare che OCR Data Discovery con NLP Data Discovery richiede Java 1.8+

Per utilizzare OCR Data Discovery, è necessario seguire i seguenti passaggi:

Prima di procedere al passaggio successivo, crea un’istanza S3 DB in DataSunrise (fare riferimento alla Guida utente di DataSunrise per i dettagli).
Vai a Data Discovery → Periodic Data Discovery
Crea un task di Data Discovery per il tuo bucket S3:

Compila le Impostazioni Generali:

Nomina il task
Seleziona il Server DS su cui avviare il task
Se desidera eseguire Data Discovery per più istanze DB, seleziona la casella corrispondente e seleziona le istanze di interesse
Seleziona la casella Genera Report per creare un report in formato PDF o CSV.

Nella sezione Parametri di Ricerca:

Seleziona la tua istanza DB AWS S3. Fornisci le credenziali per il tuo S3
Scegli la Strategia di Selezione: seleziona tutte le righe o solo le righe principali
Seleziona la Strategia di Corrispondenza delle Colonne: tipo di filtraggio delle colonne
Imposta la Percentuale Minima di Corrispondenza: è la percentuale minima di righe in una colonna che corrispondono alle condizioni del filtro di ricerca per considerare la colonna contenente i dati sensibili richiesti
Seleziona il Numero di Righe Analizzate: numero di righe analizzate da scegliere come SELECTed

In Parametri di Multiprocessing:

Seleziona la Strategia di Esecuzione: singolo Server DS o più Server DS per il calcolo parallelo

Seleziona gli oggetti del DB attraverso cui cercare:

Utilizza l’albero degli oggetti per specificare gli oggetti che devono essere esaminati durante l’esecuzione del Task

Puoi escludere determinati oggetti dalla ricerca utilizzando l’albero degli oggetti corrispondente:

In Impostazioni di Ricerca:

Seleziona il Tipo di Informazione o gli Standard di Sicurezza da ricercare. Nota che puoi anche utilizzare la Ricerca per Attributi per trovare un Tipo di Informazione o una Normativa di Sicurezza necessario per attributo.

In Frequenza di Avvio:

Seleziona la frequenza di esecuzione del Task. Seleziona Manuale per l’avvio manuale o imposta una pianificazione.

Importante: è necessario abilitare il parametro aggiuntivo imageDataDiscovery prima di avviare il task. Puoi farlo nelle Impostazioni Aggiuntive (Impostazioni di Sistema -> Parametri Aggiuntivi) o nella sottosezione Impostazioni Aggiuntive Personalizzate della pagina del task.

Seleziona imageDataDiscovery nell’elenco e abilitalo come mostrato di seguito:

Esegui il task manualmente o secondo la pianificazione e DataSunrise eseguirà automaticamente la scoperta OCR:

Per i risultati della ricerca, fai riferimento alla tabella dei Risultati della Ricerca:

Guida Completa su Come Cercare Dati Sensibili nelle Immagini Ospitate su AWS S3

Come Funziona

Configurare un Task OCR in DataSunrise

Did this guide help you?