Detección de Anomalías en Snowflake
La detección de anomalías es una capacidad crítica para que las empresas identifiquen patrones inusuales y valores atípicos en sus datos que podrían indicar fraudes, errores u oportunidades. Snowflake, la principal plataforma de datos en la nube, ofrece poderosas capacidades de detección de anomalías a través de Snowflake Anomaly Detection. En este artículo, profundizaremos en qué es Snowflake Anomaly Detection, cómo funciona utilizando aprendizaje automático y algunos ejemplos de cómo usarlo.
¿Qué es la Detección de Anomalías?
La detección de anomalías es un proceso crucial en el análisis de datos que implica identificar y señalar ocurrencias inusuales o raras dentro de un conjunto de datos. Las anomalías, como valores atípicos o errores, pueden afectar el análisis e interpretación de los datos. Vienen en varias formas y pueden tener un gran impacto en los resultados generales.
Los analistas pueden asegurarse de que sus hallazgos sean precisos y confiables encontrando y corrigiendo anomalías. Esto también puede ayudarles a descubrir nuevos conocimientos u oportunidades que pueden haber pasado por alto.
Diferentes tipos de datos requieren diferentes técnicas de detección de anomalías. Algunos métodos comunes incluyen estadísticas, aprendizaje automático y visualización. En general, la detección de anomalías juega un papel vital en la toma de decisiones basada en datos y ayuda a las organizaciones a comprender y aprovechar mejor la información a su disposición. Estas anomalías podrían representar:
- Transacciones fraudulentas en datos financieros
- Lecturas de equipos defectuosos en datos de sensores de fabricación
- Intentos de intrusión en registros de redes de ciberseguridad
- Síntomas irregulares o resultados de pruebas en datos de salud
Al hacer visible estas anomalías, las organizaciones pueden tomar acciones rápidas para investigar y remediar problemas. Sin embargo, dado el enorme volumen de datos que la mayoría de las organizaciones generan, examinar manualmente los datos para encontrar anomalías es como buscar una aguja en un pajar. Aquí es donde los modelos de detección de anomalías con aprendizaje automático entran en juego.
Capacidad de Detección de Anomalías de Snowflake
Snowflake ha construido la detección de anomalías como una capacidad nativa directamente en su plataforma de datos en la nube. Con unos pocos comandos SQL simples, puedes entrenar un modelo de detección de anomalías en tus datos de Snowflake y usarlo para asignar puntuaciones de anomalías a nuevos puntos de datos.
El núcleo de la detección de anomalías de Snowflake es el servicio Cortex. Cortex es la nueva plataforma de aprendizaje automático de Snowflake que cambia la forma en que los científicos de datos y analistas trabajan con los datos.
Los usuarios pueden crear, entrenar y desplegar modelos de aprendizaje automático en Snowflake usando Cortex. No necesitan transferir datos a otra plataforma ni aprender nuevas herramientas. Cortex simplifica el proceso de trabajar con modelos de aprendizaje automático en Snowflake.
Este proceso simplificado permite un desarrollo y despliegue de modelos más rápidos, así como una mayor eficiencia y colaboración entre los miembros del equipo. Cortex simplifica el aprendizaje automático para los usuarios utilizando comandos SQL.
Los usuarios no necesitan cambiar entre diferentes herramientas o entornos. Esto facilita el trabajo con aprendizaje automático. En general, Cortex proporciona una solución amigable y eficiente para las organizaciones que buscan aprovechar las capacidades de aprendizaje automático dentro de su infraestructura de datos existente.
Beneficios Clave
Algunos de los beneficios clave de Snowflake Anomaly Detection incluyen:
- Experiencia totalmente basada en SQL – entrenar y puntuar modelos utilizando SQL
- Optimización automática del modelo – Cortex ajusta automáticamente los hiperparámetros del modelo
- Escalable a través de conjuntos de datos masivos – aprovecha el procesamiento distribuido de Snowflake
- Puntuación en tiempo real – puntuar anomalías en datos en streaming a medida que llegan
- Integración con otros servicios de Snowflake como compartición de datos y control de acceso
Cómo Funciona la Detección de Anomalías
Bajo el capó, Snowflake Anomaly Detection es impulsado por un modelo optimizado de máquina de boosting de gradiente (GBM). La Máquina de Boosting de Gradiente (GBM) es un potente modelo de aprendizaje automático que pertenece a la familia de aprendizaje de conjuntos.
Funciona combinando múltiples árboles de decisión de manera secuencial para mejorar la precisión predictiva del modelo. Cada nuevo árbol de decisión aprende de los errores de los anteriores. El objetivo es disminuir los errores totales del modelo.
GBM es bueno para encontrar patrones complicados en los datos que otros algoritmos de aprendizaje automático pueden tener dificultades para descubrir. Este modelo utiliza múltiples árboles de decisión. Estos árboles se utilizan para analizar cómo las variables interactúan entre sí. Ayudan a descubrir relaciones que pueden no ser obvias con solo un árbol.
El boosting de gradiente es genial porque puede trabajar con números y categorías, haciéndolo útil para muchas cosas diferentes. GBM es confiable para conjuntos de datos del mundo real porque maneja bien los valores atípicos y el ruido.
Este modelo es una opción popular para el aprendizaje automático porque es preciso, flexible y puede manejar patrones de datos complejos.
- Entrenar el modelo – usa CREA SNOWFLAKE.ML.ANOMALY_DETECTION comando para entrenar GBM en datos históricos
- Usa <model_name>!DETECT_ANOMALIES para ejecutar el modelo. La salida del método es una tabla. En la tabla, cada fila de entrada está etiquetada como anomalía o no.
- Analiza la salida.
Para guardar los resultados debes obtener el ID del último comando SQL y guardar el resultado utilizando RESULT_SCAN en la tabla ‘my_ad_results’:
LET ad_res := SQLID; CREATE TABLE my_ad_results AS SELECT * FROM TABLE(RESULT_SCAN(:ad_res));
Consulta la documentación de Snowflake para un ejemplo de entrenamiento de un modelo de detección de anomalías.
Limitaciones
Aunque es una técnica poderosa, la detección de anomalías tiene algunas limitaciones que debes tener en cuenta:
- Requiere suficientes datos históricos para establecer una línea base “normal”
- Detecta anomalías pero no explica por qué son anómalas
- Puede tener falsos positivos para puntos de datos raros pero legítimos
- Los modelos pueden desviarse con el tiempo a medida que los datos evolucionan y pueden necesitar reentrenamiento
Además, el modelo GBM utilizado por Snowflake está principalmente diseñado para casos de uso de detección de anomalías en lugar de otras tareas de ML como clasificación o regresión.
Otras Capacidades de ML de Snowflake
Más allá de la detección de anomalías, Snowflake Cortex ofrece otras capacidades de ML, incluyendo:
- Modelos de regresión lineal y logística
- Pronóstico de series de tiempo
- Análisis de texto y sentimiento
- Importación de modelos personalizados a través de ONNX y Funciones Externas
Los científicos de datos pueden mejorar la detección de anomalías utilizando soluciones personalizadas de aprendizaje automático dentro del entorno de Snowflake.
Conclusión
La detección de anomalías es una herramienta poderosa para que las organizaciones identifiquen y aborden proactivamente los valores atípicos de datos. Snowflake Anomaly Detection es una técnica de aprendizaje automático que se puede acceder fácilmente a través de SQL. Esto hace que sea simple de agregar a las actuales tuberías de datos y flujos de trabajo de BI.
La detección de anomalías no es una solución para todos los problemas. Sin embargo, puede notificarte temprano sobre problemas. También puede complementar otras prácticas relacionadas con la calidad y seguridad de los datos. Te animamos a probar Snowflake Anomaly Detection en tus propios datos y ver qué descubrimientos haces.
DataSunrise utiliza su modelo incorporado de detección de anomalías para detectar comportamiento sospechoso de usuarios. Para aprender más sobre la detección de anomalías para la seguridad de datos, auditoría y cumplimiento, por favor solicita una demostración en línea.