
Esplorare il Rilevamento Anomalie di Snowflake per l’Identificazione di Outlier nei Dati

Il rilevamento delle anomalie è una capacità critica per le aziende per identificare schemi insoliti e outlier nei loro dati che potrebbero indicare frodi, errori o opportunità. Snowflake, la principale piattaforma dati su Cloud, offre potenti capacità di rilevamento delle anomalie attraverso il Rilevamento Anomalie in Snowflake. In questo articolo, esploreremo che cos'è il Rilevamento Anomalie di Snowflake, come funziona sotto il cofano utilizzando il machine learning e alcuni esempi di come utilizzarlo.
Che Cos'è il Rilevamento Anomalie?
Il rilevamento delle anomalie è un processo cruciale nell'analisi dei dati che comporta l'identificazione e la segnalazione di occorrenze insolite o rare all'interno di un dataset. Le anomalie, come outlier o errori, possono influenzare l'analisi e l'interpretazione dei dati. Esse si presentano in varie forme e possono avere un grande impatto sui risultati complessivi.
Gli analisti possono garantire che le loro scoperte siano accurate e affidabili trovando e correggendo le anomalie. Questo può anche aiutarli a scoprire nuovi approfondimenti o opportunità che potrebbero aver perso.
Differenti tipi di dati richiedono differenti tecniche di rilevamento delle anomalie. Alcuni metodi comuni includono statistica, machine learning e visualizzazione. Complessivamente, il rilevamento delle anomalie gioca un ruolo vitale nel processo decisionale basato sui dati e aiuta le organizzazioni a comprendere e sfruttare meglio le informazioni a loro disposizione. Queste anomalie potrebbero rappresentare:
- Transazioni fraudolente nei dati finanziari
- Letture di attrezzature difettose nei dati dei sensori di produzione
- Tentativi di intrusione nei log di reti informatiche per la cybersecurity
- Sintomi o risultati di test irregolari nei dati sanitari
Mettere in evidenza queste anomalie può consentire alle organizzazioni di agire rapidamente per indagare e risolvere i problemi. Tuttavia, dati i volumi massicci di dati generati dalla maggior parte delle organizzazioni, esaminare manualmente i dati per trovare anomalie è come cercare un ago in un pagliaio. Qui entra in gioco il modello di rilevamento delle anomalie basato sul machine learning.
Capacità di Rilevamento Anomalie di Snowflake
Snowflake ha integrato il rilevamento delle anomalie come una capacità nativa direttamente nella sua piattaforma dati su Cloud. Con pochi semplici comandi SQL, è possibile addestrare un modello di rilevamento delle anomalie sui dati di Snowflake e utilizzarlo per assegnare punteggi di anomalia a nuovi punti dati.
Il cuore del rilevamento delle anomalie di Snowflake è il servizio Cortex. Cortex è la nuova piattaforma di machine learning di Snowflake che cambia il modo in cui i data scientist e gli analisti lavorano con i dati.
Gli utenti possono creare, addestrare e distribuire modelli di machine learning in Snowflake utilizzando Cortex. Non è necessario trasferire i dati su un’altra piattaforma o imparare nuovi strumenti. Cortex semplifica il processo di lavoro con i modelli di machine learning in Snowflake.
Questo processo semplificato consente uno sviluppo e un’implementazione dei modelli più rapidi, nonché una maggiore efficienza e collaborazione tra i membri del team. Cortex semplifica il machine learning per gli utenti utilizzando i comandi SQL.
Gli utenti non devono passare tra diversi strumenti o ambienti. Questo rende più facile per gli utenti lavorare con il machine learning. Complessivamente, Cortex fornisce una soluzione intuitiva ed efficiente per le organizzazioni che cercano di sfruttare le capacità di machine learning all’interno della loro infrastruttura dati esistente.
Benefici Chiave
Alcuni dei benefici chiave del Rilevamento Anomalie di Snowflake includono:
- Esperienza completamente basata su SQL – addestrare e valutare i modelli utilizzando SQL
- Ottimizzazione automatizzata dei modelli – Cortex regola automaticamente gli iperparametri del modello
- Scalabilità su dataset massivi – sfrutta l'elaborazione distribuita di Snowflake
- Valutazione in tempo reale – valutare le anomalie sui dati in streaming appena arrivano
- Integrazione con altri servizi di Snowflake come la condivisione dei dati e il controllo degli accessi
Come Funziona il Rilevamento delle Anomalie
Sotto il cofano, il Rilevamento Anomalie di Snowflake è alimentato da un modello di machine learning ottimizzato denominato Gradient Boosting Machine (GBM). Gradient Boosting Machine (GBM) è un potente modello di apprendimento automatico che appartiene alla famiglia dell'ensemble learning.
Funziona combinando più alberi decisionali in modo sequenziale per migliorare l'accuratezza predittiva del modello. Ogni nuovo albero decisionale impara dagli errori dei precedenti, con l'obiettivo di ridurre gli errori totali del modello.
GBM è efficace nel trovare schemi complessi nei dati che altri algoritmi di apprendimento automatico potrebbero non riuscire a scoprire. Questo modello utilizza molteplici alberi decisionali. Questi alberi vengono utilizzati per analizzare come le variabili interagiscono tra loro. Aiutano a scoprire relazioni che potrebbero non essere evidenti con solo un albero.
Il gradient boosting è eccellente perché può lavorare sia con numeri che con categorie, rendendolo utile per molte applicazioni. GBM è affidabile per i dataset del mondo reale poiché può gestire bene gli outlier e il rumore.
Questo modello è una scelta popolare per il machine learning grazie alla sua accuratezza, flessibilità e capacità di gestire schemi di dati complessi.
I passaggi principali sono:
- Addestrare il modello – utilizzare il comando CREATE SNOWFLAKE.ML.ANOMALY_DETECTION per addestrare GBM sui dati storici
- Usare il comando <model_name>!DETECT_ANOMALIES per eseguire il modello. L'output di questo metodo è una tabella. Nella tabella ogni riga di input viene etichettata come anomalia o no.
- Analizzare l'output.
Per salvare i risultati è necessario ottenere l'ID dell'ultimo comando SQL e salvare il risultato utilizzando RESULT_SCAN nella tabella ‘my_ad_results’:
LET ad_res := SQLID; CREATE TABLE my_ad_results AS SELECT * FROM TABLE(RESULT_SCAN(:ad_res));
Fare riferimento alla documentazione di Snowflake per un esempio di addestramento di un modello di rilevamento delle anomalie.
Limitazioni
Sebbene sia una tecnica potente, il rilevamento delle anomalie ha delle limitazioni di cui essere consapevoli:
- Richiede dati storici sufficienti per stabilire una linea di base “normale”
- Rileva le anomalie ma non spiega perché sono anomale
- Può generare falsi positivi per punti dati rari ma legittimi
- I modelli possono divergere nel tempo con l'evoluzione dei dati e potrebbero aver bisogno di essere riaddestrati
Inoltre, il modello GBM utilizzato da Snowflake è principalmente adatto per i casi d'uso di rilevamento delle anomalie piuttosto che per altri compiti di machine learning come la classificazione o la regressione.
Altre Capacità di Machine Learning di Snowflake
Oltre al rilevamento delle anomalie, Snowflake Cortex offre altre capacità di machine learning tra cui:
- Modelli di regressione lineare e logistica
- Previsioni di serie temporali
- Analisi del testo e del sentimento
- Importazione personalizzata di modelli tramite ONNX e Funzioni Esterne
I data scientist possono migliorare il rilevamento delle anomalie utilizzando soluzioni di machine learning personalizzate all'interno dell'ambiente Snowflake.
Conclusione
Il rilevamento delle anomalie è uno strumento potente per le organizzazioni per identificare proattivamente e affrontare gli outlier nei dati. Il Rilevamento Anomalie di Snowflake è una tecnica di machine learning che può essere facilmente accessibile tramite SQL. Questo lo rende semplice da aggiungere alle pipeline di dati esistenti e ai flussi di lavoro di BI.
Il rilevamento delle anomalie non è una soluzione per tutti i problemi. Tuttavia, può avvisare tempestivamente di problemi. Può anche completare altre pratiche relative alla qualità e alla sicurezza dei dati. Vi incoraggiamo a provare il Rilevamento Anomalie di Snowflake sui vostri dati e vedere quali approfondimenti potete scoprire.
DataSunrise utilizza il suo modello di rilevamento delle anomalie integrato per rilevare comportamenti sospetti degli utenti. Per saperne di più sul rilevamento delle anomalie per la sicurezza dei dati, l’audit e la conformità, richiedete una demo online.