
Trasformare la Sicurezza nel Database con Tecnologie LLM, ML, NLP e OCR
Introduzione
Poiché le violazioni dei dati e gli attacchi informatici diventano sempre più comuni, le organizzazioni si rivolgono a tecnologie avanzate come i large language models (LLM), il machine learning (ML), il natural language processing (NLP) e il optical character recognition (OCR) per migliorare la loro postura di sicurezza nel database. Questi strumenti all’avanguardia LLM e ML possono automatizzare compiti di sicurezza chiave, rilevare comportamenti sospetti degli utenti e scoprire dati sensibili in database sia strutturati che non strutturati.
In questo articolo, esploreremo come gli LLM, ML, NLP e OCR stanno utilizzati per rivoluzionare la sicurezza nel database. Vedremo esempi reali di queste tecnologie in azione e discuteremo i benefici che offrono per proteggere i beni dati critici. Entro la fine, avrà una solida comprensione del ruolo che questi strumenti avanzati possono giocare in una strategia completa di sicurezza nel database.
LLM per l’Automazione delle Esperienze dei Clienti
Una delle applicazioni entusiasmanti dei large language models nella sicurezza del database è l’automazione delle attività di customer experience (CX). Gli LLM come GPT-4 hanno la capacità di impegnarsi in dialoghi simili a quelli umani, rispondere alle domande e persino assistere nella risoluzione di problemi.
Ad esempio, DataSunrise offre un assistente virtuale alimentato da LLM che può gestire molte richieste comuni dei clienti relative ai loro prodotti di sicurezza del database. Quando un cliente ha una domanda o incontra un problema, può semplicemente descrivere la questione in linguaggio naturale. L’assistente LLM quindi fornisce informazioni rilevanti o guida il cliente attraverso la risoluzione passo passo del problema.
Automatizzando le interazioni front-end con i clienti, gli LLM liberano il personale umano per concentrarsi su compiti di sicurezza di livello superiore. L’automazione CX basata su LLM può aiutare i fornitori di sicurezza del database a fornire un servizio clienti reattivo 24/7 in modo conveniente. Uno studio di caso di IBM ha scoperto che una società che utilizza un assistente LLM è stata in grado di gestire l’80% delle richieste di routine dei clienti senza intervento umano.
DataSunrise ha introdotto l’automazione CX direttamente nell’interfaccia utente, fornendo lo stesso livello di assistenza sul nostro sito web e nell’interfaccia della soluzione DataSunrise.

Figura 1 – DataSunrise Chat Bot è ora disponibile nell’interfaccia utente.
DataSunrise Chat Bot è una funzione conforme al GDPR. Il parametro “temperature” del suo LLM è impostato su 0 e il suo datastore contiene tutta la documentazione che accompagna l’installazione del software. Oltre alla documentazione, il datastore del chatbot include una vasta base di domande e risposte compilata dai nostri ingegneri di supporto.
L’LLM è limitato alle informazioni provenienti dal datastore e un prompt. Questo per garantire che l’utente possa essere sicuro che la risposta non contenga informazioni generali o immaginarie sull’argomento.
ML per il Monitoraggio del Comportamento degli Utenti
Un altro ambito di applicazione chiave per le tecnologie avanzate nella sicurezza del database è il monitoraggio del comportamento degli utenti alla ricerca di segni di attività malevole. Gli algoritmi di machine learning possono essere addestrati sui modelli di accesso storici per sviluppare una linea di base del comportamento normale per ciascun utente. Il modello ML può quindi analizzare le azioni degli utenti in tempo reale e segnalare qualsiasi attività insolita o sospetta.
Il monitoraggio del comportamento basato su ML può rilevare problemi come:
- Ripetuti tentativi di accesso falliti che potrebbero indicare un attacco brute force
- Download o esportazioni di dati di grandi dimensioni al di fuori dei modelli normali di un utente
- Accesso a database o tabelle normalmente non utilizzati da quell’individuo
- Accessi da luoghi o dispositivi non familiari
Quando DataSunrise rileva comportamenti sospetti, il sistema ML può automaticamente avvisare il personale di sicurezza e persino adottare misure proattive come bloccare l’account in questione. Il monitoraggio del comportamento basato su ML agisce come una guardia di sicurezza sempre attiva, identificando e rispondendo alle minacce del database 24 ore su 24.

Figura 2 – L’attività di Rilevamento del Comportamento Sospetto degli Utenti si basa su modelli statistici NLP.
Le crescenti superfici di attacco e la crescente complessità delle minacce informatiche sono aggravate da una carenza persistente di professionisti della cybersecurity. Per affrontare il deficit globale di oltre 3 milioni di esperti di cybersecurity, la forza lavoro in questo campo dovrebbe espandersi di circa l’89%. Gli strumenti LLM e ML offrono una possibile soluzione per colmare questo divario di talento.
NLP per la Scoperta Complessa dei Dati
Scoprire e classificare i dati sensibili è una parte cruciale ma spesso dispendiosa in termini di tempo della sicurezza del database e della conformità. Le organizzazioni devono sapere dove risiedono le informazioni regolamentate come i dati personali, i dettagli finanziari e le cartelle cliniche in modo che possano essere messe in atto le protezioni appropriate.
Qui entra in gioco il natural language processing. NLP può analizzare ed estrarre informazioni significative da fonti di dati non strutturati come campi di testo, archivi di documenti e file di log. Comprendendo il contesto attorno agli elementi dati, NLP può identificare con precisione le informazioni sensibili che possono essere “nascoste in bella vista”.
In un caso reale, un fornitore di assistenza sanitaria ha utilizzato NLP per scansionare un enorme database di note di medici e cartelle cliniche dei pazienti. Lo strumento NLP è stato in grado di trovare istanze di informazioni sanitarie protette (PHI), consentendo al fornitore di proteggere quei dati e rispettare i requisiti di conformità HIPAA. Senza NLP, sarebbe stato quasi impossibile rivedere manualmente un volume così massiccio di informazioni non strutturate.
Lo scanner di scoperta dati alimentato da NLP di DataSunrise può cercare nei database 12 diversi tipi di informazioni personali – nomi, indirizzi, numeri ID e altro. Gli algoritmi NLP comprendono la semantica dei dati, non solo la sintassi, quindi possono trovare dettagli sensibili anche se non sono perfettamente formattati o etichettati.

Figura 3 – Metodo di Ricerca di Scoperta NLP nella definizione dell’Attributo del Tipo di Informazione.
OCR per la Sicurezza dei Documenti Scansionati
Non tutti i dati sensibili hanno origine in formato digitale. Molte organizzazioni fanno ancora affidamento su documenti fisici come contratti scansionati, fatture e moduli che possono contenere dettagli regolamentati. La sicurezza di questi documenti scansionati richiede prima l’estrazione del testo dalle immagini, ed è qui che entra in gioco il riconoscimento ottico dei caratteri.

Figura 4 – Abilitare OCR per la scoperta dati nei Parametri Aggiuntivi delle Impostazioni di Sistema.
Gli strumenti OCR analizzano i modelli dei pixel in un’immagine per identificare lettere e parole individuali. Le soluzioni OCR avanzate utilizzano il machine learning e la visione artificiale per migliorare l’accuratezza dell’estrazione del testo, anche per scansioni di bassa qualità o manoscritte. Una volta estratti i testi, possiamo inserirli in una pipeline NLP per scoprire eventuali dati sensibili contenuti nel documento.
DataSunrise ha integrato più tecnologie OCR nella sua piattaforma di sicurezza dei dati. Oltre ai modelli OCR basati sul ML classico, DataSunrise può sfruttare la libreria di visione artificiale OpenCV per un sofisticato pre-elaborazione delle immagini. Se gli utenti dispongono di documenti altamente complessi, DataSunrise supporta anche il servizio OCR Amazon Textract per la massima accuratezza.

Figura 5 – Risultati della scoperta dati sensibili basata su OCR.
Ad esempio, consideri una banca che ha bisogno di mettere in sicurezza un grande volume di domande di prestito scansionate risalenti a diverse decadi. Facendo passare questi documenti attraverso lo strumento OCR di DataSunrise, la banca può estrarre campi chiave di dati personali. Con queste informazioni identificate, l’utente può processare i file come necessario per rispettare le leggi sulla protezione dei dati finanziari.
NLP per la Mascheramento dei Dati Non Strutturati
Il 65 percento di tutti i dati non strutturati valorizzati è testo. Per prevenire perdite di dati e per eseguire il mascheramento dinamico dei dati che hanno bisogno di protezione, DataSunrise offre strumenti NLP per il mascheramento dei dati non strutturati.
La configurazione delle regole di Mascheramento Dinamico per i dati non strutturati è quasi la stessa di quella per i dati strutturati, tranne che per il Metodo di Mascheramento. Questo tipo di mascheramento è estremamente utile quando non conosce in anticipo il formato dei dati sensibili e non può semplicemente cercare corrispondenze di espressioni regolari in tutto il file.

Figura 6 – Configurazione delle regole di mascheramento dinamico. Può vedere che abbiamo selezionato il metodo di mascheramento non strutturato.
Il Metodo di Mascheramento Non Strutturato in DataSunrise supporta vari formati di dati non strutturati nel database come dati binari (ad esempio documenti Word o semplici file di testo). Quando accediamo a tali dati non strutturati attraverso la porta proxy di DataSunrise, DataSunrise maschera automaticamente le parti sensibili.

Figura 7 – DataSunrise maschera i dati mentre l’utente li accede attraverso la porta proxy. Qui abbiamo accesso ai dati con il software DBeaver. Noti gli asterischi invece di tutte le parti sensibili.
Sintesi e Conclusione
Come abbiamo visto, i large language models, il machine learning, il natural language processing e il riconoscimento ottico dei caratteri stanno tutti giocando un ruolo vitale nel futuro della sicurezza nel database. Questi strumenti LLM e ML consentono alle organizzazioni di:
- Automatizzare il supporto clienti per un servizio più reattivo
- Rilevare il comportamento malevolo degli utenti in tempo reale
- Scoprire e classificare i dati sensibili in fonti strutturate e non strutturate
- Proteggere le informazioni regolamentate presenti nei documenti scansionati
Sebbene implementare questi strumenti all’avanguardia possa sembrare impegnativo, piattaforme come DataSunrise li rendono accessibili per aziende di tutte le dimensioni. Combinando tecnologie complementari in una sola interfaccia user-friendly, DataSunrise semplifica e ottimizza le operazioni di sicurezza nel database. Gli strumenti flessibili e ricchi di funzionalità di DataSunrise possono aiutare qualsiasi organizzazione a migliorare la protezione dei dati, garantire la conformità e difendersi dalle minacce informatiche in continua evoluzione.
Per ulteriori informazioni su come DataSunrise può sfruttare il potere di LLM, ML, NLP e OCR per proteggere i suoi database, invii una richiesta per una dimostrazione online in un orario e una data che le sono più congeniali.
Successivo
