
Explorer la Détection d’Anomalies de Snowflake pour l’Identification des Outliers de Données

La détection d’anomalies est une capacité critique pour les entreprises afin d’identifier des motifs inhabituels et des outliers dans leurs données qui pourraient indiquer des fraudes, des erreurs ou des opportunités. Snowflake, la principale plateforme de données dans le cloud, offre de puissantes capacités de détection des anomalies grâce à Snowflake Anomaly Detection. Dans cet article, nous allons examiner ce qu’est la détection d’anomalies avec Snowflake, son fonctionnement en interne utilisant l’apprentissage automatique, et des exemples d’utilisation.
Qu’est-ce que la Détection d’Anomalies ?
La détection d’anomalies est un processus crucial en analyse de données visant à identifier et signaler des occurrences inhabituelles ou rares au sein d’un jeu de données. Les anomalies, comme les outliers ou les erreurs, peuvent affecter l’analyse et l’interprétation des données. Elles se présentent sous diverses formes et peuvent avoir un impact considérable sur les résultats globaux.
Les analystes peuvent s’assurer que leurs conclusions sont précises et fiables en détectant et corrigeant les anomalies. Cela peut également les aider à découvrir de nouvelles perspectives ou opportunités qu’ils auraient autrement manquées.
Différents types de données nécessitent différentes techniques de détection d’anomalies. Certaines méthodes courantes incluent les statistiques, l’apprentissage automatique et la visualisation. Globalement, la détection d’anomalies joue un rôle vital dans la prise de décisions basées sur les données et aide les organisations à mieux comprendre et exploiter les informations à leur disposition. Ces anomalies peuvent représenter :
- Transactions frauduleuses dans les données financières
- Lectures d’équipements défectueux dans les données des capteurs de fabrication
- Tentatives d’intrusion dans les journaux de sécurité réseau
- Symptômes ou résultats de tests irréguliers dans les données de santé
En mettant en avant ces anomalies, les organisations peuvent entreprendre rapidement des actions pour enquêter et remédier aux problèmes. Cependant, compte tenu de l’énorme volume de données générées par la plupart des organisations, passer manuellement au crible les données pour trouver des anomalies revient à chercher une aiguille dans une botte de foin. C’est là que les modèles de détection d’anomalies basés sur l’apprentissage automatique entrent en jeu.
Capacité de Détection des Anomalies de Snowflake
Snowflake a intégré la détection d’anomalies comme une capacité native directement dans sa plateforme de données cloud. Avec quelques commandes SQL simples, vous pouvez entraîner un modèle de détection d’anomalies sur vos données Snowflake et l’utiliser pour attribuer des scores d’anomalies à de nouveaux points de données.
Le cœur de la détection d’anomalies de Snowflake est le service Cortex. Cortex est la nouvelle plateforme d’apprentissage automatique de Snowflake qui change la manière dont les data scientists et les analystes travaillent avec les données.
Les utilisateurs peuvent créer, entraîner et déployer des modèles d’apprentissage automatique dans Snowflake en utilisant Cortex. Ils n’ont pas besoin de transférer les données vers une autre plateforme ou d’apprendre de nouveaux outils. Cortex simplifie le processus de travail avec les modèles d’apprentissage automatique dans Snowflake.
Ce processus rationalisé permet un développement et un déploiement plus rapides des modèles, ainsi qu’une efficacité accrue et une meilleure collaboration entre les membres de l’équipe. Cortex simplifie l’apprentissage automatique pour les utilisateurs en utilisant des commandes SQL.
Les utilisateurs n’ont pas besoin de passer entre différents outils ou environnements, ce qui facilite leur travail avec l’apprentissage automatique. Globalement, Cortex fournit une solution conviviale et efficace pour les organisations cherchant à exploiter les capacités d’apprentissage automatique au sein de leur infrastructure de données existante.
Principaux Avantages
Voici quelques-uns des principaux avantages de la détection d’anomalies avec Snowflake :
- Une expérience entièrement basée sur SQL – entraîner et scorer les modèles en utilisant SQL
- Optimisation automatique des modèles – Cortex ajuste automatiquement les hyperparamètres des modèles
- Scalable sur des ensembles de données massifs – utilise le traitement distribué de Snowflake
- Scoring en temps réel – évaluer les anomalies sur les données de streaming à mesure qu’elles arrivent
- Intégration avec d’autres services de Snowflake comme le partage et le contrôle d’accès aux données
Fonctionnement de la Détection d’Anomalies
Sous le capot, la détection d’anomalies de Snowflake est alimentée par un modèle optimisé de machine à gradient boosting (GBM). La machine à gradient boosting (GBM) est un modèle d’apprentissage automatique puissant appartenant à la famille de l’apprentissage ensembliste.
Elle fonctionne en combinant plusieurs arbres de décision de manière séquentielle pour améliorer la précision prédictive du modèle. Chaque nouvel arbre de décision apprend des erreurs des précédents, dans le but de réduire les erreurs totales du modèle.
Le GBM est excellent pour trouver des motifs complexes dans les données que d’autres algorithmes d’apprentissage automatique peuvent avoir du mal à découvrir. Ce modèle utilise plusieurs arbres de décision. Ces arbres sont utilisés pour analyser comment les variables interagissent entre elles, aidant à découvrir des relations qui peuvent ne pas être évidentes avec un seul arbre.
Le gradient boosting est génial car il peut fonctionner avec des chiffres et des catégories, le rendant utile pour de nombreuses applications différentes. Le GBM est fiable pour les ensembles de données réels car il peut bien gérer les outliers et le bruit.
Ce modèle est un choix populaire pour l’apprentissage automatique car il est précis, flexible et peut gérer des schémas de données complexes.
Les étapes de haut niveau sont :
- Entraîner le modèle – utiliser la commande CREATE SNOWFLAKE.ML.ANOMALY_DETECTION pour entraîner le GBM sur des données historiques
- Utiliser <model_name>!DETECT_ANOMALIES pour exécuter le modèle. La sortie de la méthode est un tableau dans lequel chaque ligne d’entrée est étiquetée comme une anomalie ou non.
- Analyser la sortie.
Pour enregistrer les résultats, vous devez obtenir l’ID de la dernière commande SQL et enregistrer le résultat en utilisant RESULT_SCAN dans la table ‘my_ad_results’ :
LET ad_res := SQLID; CREATE TABLE my_ad_results AS SELECT * FROM TABLE(RESULT_SCAN(:ad_res));
Référez-vous à la documentation de Snowflake pour un exemple d’entraînement d’un modèle de détection d’anomalies.
Limitations
Bien que ce soit une technique puissante, la détection d’anomalies présente certaines limitations à prendre en compte :
- Nécessite des données historiques suffisantes pour établir une ligne de base “normale”
- Détecte les anomalies mais n’explique pas pourquoi elles sont anormales
- Peut générer des faux positifs pour des points de données rares mais légitimes
- Les modèles peuvent dériver dans le temps à mesure que les données évoluent et peuvent nécessiter un réentraînement
De plus, le modèle GBM utilisé par Snowflake est principalement adapté aux cas d’utilisation de la détection d’anomalies plutôt qu’à d’autres tâches d’apprentissage automatique comme la classification ou la régression.
Autres Capacités ML de Snowflake
Au-delà de la détection d’anomalies, Snowflake Cortex offre d’autres capacités ML incluant :
- Modèles de régression linéaire et logistique
- Prévisions de séries temporelles
- Analyse de texte et de sentiment
- Importation de modèle personnalisé via ONNX et Fonctions Externes
Les data scientists peuvent améliorer la détection d’anomalies en utilisant des solutions d’apprentissage automatique personnalisées dans l’environnement Snowflake.
Conclusion
La détection d’anomalies est un outil puissant pour permettre aux organisations d’identifier et de traiter de manière proactive les outliers de données. La détection d’anomalies avec Snowflake est une technique d’apprentissage automatique qui peut être facilement utilisée via SQL. Cela la rend simple à intégrer dans les pipelines de données actuels et les workflows de BI.
La détection d’anomalies n’est pas une solution universelle, mais elle peut vous alerter tôt sur les problèmes et compléter d’autres pratiques liées à la qualité des données et à la sécurité. Nous vous encourageons à essayer la détection d’anomalies avec Snowflake sur vos propres données et à voir quelles idées vous pouvez découvrir.
DataSunrise utilise son modèle de détection d’anomalies intégré pour détecter les comportements utilisateur suspects. Pour en savoir plus sur la détection d’anomalies pour la sécurité des données, l’audit et la conformité, veuillez demander une démo en ligne.
Suivant
