
Scoperta di Dati Sensibili con Amazon Textract
La scoperta di dati sensibili è uno dei passaggi fondamentali nella protezione dei dati. Con la crescita della quantità di dati, le aziende usano l’archiviazione cloud come Amazon S3. Per proteggere i dati, è necessario sapere dove risiedono nei suoi bucket. Dopodiché, è necessario capire quali informazioni proteggere e come farlo. DataSunrise ha già una soluzione di Scoperta dei Dati per l’archiviazione AWS S3 con funzionalità OCR.
Qui Le presenteremo la Scoperta di Dati Sensibili per Amazon S3 con il supporto di Amazon Textract per ampliare le possibilità di riconoscimento dei dati sensibili in immagini e documenti.
Possibilità della Scoperta di Dati Sensibili di DataSunrise
DataSunrise può già scoprire dati sensibili in S3. L’enorme quantità di formati di file supportati aumenta il volume possibile di informazioni scoperte. Ecco alcuni dei formati con cui lavoriamo:
- Formato file Apache Parquet
- File semi-strutturati come XML, JSON, CSV
- Formati di testo non strutturati come documenti Microsoft Word
- Immagini (PNG, JPEG, TIFF, JPEG 2000, GIF, WebP, BMP, PNM)
Una delle caratteristiche più importanti per la scoperta di dati sensibili in S3 è la scoperta di dati nelle immagini. Per scoprire informazioni sensibili nelle immagini utilizziamo il motore Tesseract basato su tecnologia di reti neurali per il riconoscimento dei caratteri. La nostra Scoperta di Dati Sensibili OCR Le consente di rilevare informazioni sensibili anche se sono menzionate in diagrammi e tabelle. DataSunrise estrae informazioni sensibili anche da documenti con testo e numeri mescolati.
Per migliorare le nostre possibilità nella scoperta di dati sensibili, abbiamo implementato il supporto di Amazon Textract per S3 nella versione 8.4.
Che Cos’è Amazon Textract?
Amazon dispone di un servizio di machine learning che rileva ed estrae testo stampato, testo scritto a mano e tabelle da immagini e documenti scansionati. Amazon Textract supporta i seguenti formati di file: PNG, JPEG e PDF. Altrimenti, è necessario convertire il file nei seguenti formati per poter utilizzare Amazon Textract.
Il principale vantaggio per le aziende nel servizio Textract è la possibilità di rilevare ed estrarre testo scritto a mano da documenti come fatture, referti medici, registri finanziari e altri. Con l’aiuto di Amazon Textract, è possibile estrarre dati senza risorse umane. Questa possibilità riduce il rischio di errori che possono causare danni alla Sua azienda durante l’utilizzo dei dati, audit o in caso di perdita di dati.
DataSunrise e Amazon Textract
La scoperta OCR dei dati ha molti vantaggi per la protezione e l’archiviazione dei dati sensibili. Miriamo a trovare una soluzione conveniente ed efficiente per i nostri clienti che lavorano con documenti stampati e scritti a mano e archiviano questi documenti in S3. Ecco perché ora possiamo impiegare Amazon Textract. Questa funzionalità migliora le possibilità di Scoperta dei Dati OCR in S3.
Per iniziare a usare la Scoperta dei Dati per S3 è sufficiente eseguire i seguenti passaggi:
- Passare a Scoperta dei Dati → Scoperta Periodica dei Dati.
- Creare un’attività di Scoperta dei Dati per il Suo bucket S3.
- Scegliere due parametri dedicati “DataDiscoveryUseAmazonTextractOCR” e “DataDiscoveryUseAmazonTextractS3Integranion”.
- Esegua l’attività e DataSunrise eseguirà automaticamente la scoperta OCR.
Abbiamo implementato questi due parametri dedicati per configurare la Scoperta dei Dati basata su Textract. Si prega di notare che per il corretto funzionamento, l’OCR Textract deve essere posizionato sull’istanza del database su cui sta effettuando la Scoperta dei Dati.
Si prega di notare che l’utilizzo di Amazon Textract comporta un costo per l’uso della API di Rilevamento Testo nel Documento.
Grazie a questa funzionalità, il processo di scoperta dei dati in S3 diventa più semplice e meno dispendioso in termini di tempo. Provi la nostra nuova possibilità di Scoperta di Dati Sensibili in S3. Si assicuri di sapere dove sono archiviati tutti i Suoi dati sensibili e di proteggerli con l’aiuto di DataSunrise.