DataSunrise sponsorise AWS re:Invent 2024 à Las Vegas, veuillez nous rendre visite au stand n°2158 de DataSunrise

Détection d’anomalies avec Snowflake

Détection d’anomalies avec Snowflake

Détection d'anomalies avec Snowflake

La détection d’anomalies est une capacité essentielle pour les entreprises afin d’identifier des schémas inhabituels et des valeurs aberrantes dans leurs données, qui pourraient indiquer des fraudes, des erreurs ou des opportunités. Snowflake, la principale plateforme de données dans le cloud, offre des capacités puissantes de détection d’anomalies grâce à Snowflake Anomaly Detection. Dans cet article, nous approfondirons ce qu’est la détection d’anomalies avec Snowflake, son fonctionnement sous le capot à l’aide de l’apprentissage automatique et quelques exemples d’utilisation.

Qu’est-ce que la détection d’anomalies ?

La détection d’anomalies est un processus crucial en analyse de données qui consiste à identifier et signaler les occurrences inhabituelles ou rares dans un ensemble de données. Les anomalies, telles que les valeurs aberrantes ou les erreurs, peuvent affecter l’analyse et l’interprétation des données. Elles se présentent sous diverses formes et peuvent avoir un impact considérable sur les résultats globaux.

En repérant et en corrigeant les anomalies, les analystes peuvent s’assurer que leurs conclusions sont précises et fiables. Cela peut également les aider à découvrir de nouvelles perspectives ou opportunités qu’ils pourraient avoir manquées.

Différents types de données nécessitent différentes techniques de détection d’anomalies. Parmi les méthodes courantes figurent les statistiques, l’apprentissage automatique et la visualisation. Dans l’ensemble, la détection d’anomalies joue un rôle vital dans la prise de décision basée sur les données et aide les organisations à mieux comprendre et exploiter les informations dont elles disposent. Ces anomalies pourraient représenter :

  • Des transactions frauduleuses dans les données financières
  • Des relevés d’équipements défectueux dans les données de capteurs de fabrication
  • Des tentatives d’intrusion dans les journaux réseau de cybersécurité
  • Des symptômes ou résultats de tests irréguliers dans les données de santé

En mettant en lumière ces anomalies, les organisations peuvent agir rapidement pour enquêter et résoudre les problèmes. Cependant, étant donné l’échelle massive des données que la plupart des organisations génèrent, trier manuellement les données pour trouver des anomalies revient à chercher une aiguille dans une botte de foin. C’est là que les modèles de détection d’anomalies par apprentissage automatique entrent en jeu.

Capacité de détection d’anomalies de Snowflake

Snowflake a intégré la détection d’anomalies comme une fonctionnalité native directement dans sa plateforme de données cloud. Avec quelques commandes SQL simples, vous pouvez entraîner un modèle de détection d’anomalies sur vos données Snowflake et l’utiliser pour attribuer des scores d’anomalie à de nouveaux points de données.

Le cœur de la détection d’anomalies de Snowflake est le service Cortex. Cortex est la nouvelle plateforme d’apprentissage automatique de Snowflake qui change la façon dont les data scientists et les analystes travaillent avec les données.

Les utilisateurs peuvent créer, entraîner et déployer des modèles d’apprentissage automatique dans Snowflake en utilisant Cortex. Ils n’ont pas besoin de transférer les données vers une autre plateforme ou d’apprendre de nouveaux outils. Cortex simplifie le processus de travail avec des modèles d’apprentissage automatique dans Snowflake.

Cet processus rationalisé permet un développement et un déploiement de modèles plus rapides, ainsi qu’une efficacité accrue et une collaboration entre les membres de l’équipe. Cortex simplifie l’apprentissage automatique pour les utilisateurs en utilisant des commandes SQL.

Les utilisateurs n’ont pas besoin de passer d’un outil ou d’un environnement à l’autre. Cela facilite la tâche des utilisateurs de travailler avec l’apprentissage automatique. Dans l’ensemble, Cortex fournit une solution conviviale et efficace pour les organisations cherchant à exploiter les capacités de l’apprentissage automatique au sein de leur infrastructure de données existante.

Principaux avantages

Parmi les principaux avantages de la détection d’anomalies de Snowflake, on peut citer :

  1. Expérience entièrement basée sur SQL – entraînez et évaluez les modèles en utilisant SQL
  2. Optimisation automatique des modèles – Cortex ajuste automatiquement les hyperparamètres du modèle
  3. Evolutif sur des ensembles de données massifs – utilise le traitement distribué de Snowflake
  4. Score en temps réel – évalue les anomalies sur les données en streaming à leur arrivée
  5. Intégration avec d’autres services Snowflake tels que le partage de données et le contrôle de l’accès

Comment fonctionne la détection d’anomalies

Sous le capot, la détection d’anomalies de Snowflake est alimentée par un modèle optimisé de machine à gradient boosting (GBM). La machine à gradient boosting (GBM) est un modèle d’apprentissage automatique puissant appartenant à la famille des apprentissages ensemblistes.

Elle fonctionne en combinant plusieurs arbres de décision de manière séquentielle pour améliorer la précision prédictive du modèle. Chaque nouvel arbre de décision apprend des erreurs de ceux qui le précèdent. L’objectif est de réduire le total des erreurs du modèle.

Le GBM est excellent pour trouver des schémas complexes dans les données que d’autres algorithmes d’apprentissage automatique peuvent avoir du mal à découvrir. Ce modèle utilise plusieurs arbres de décision. Ces arbres sont utilisés pour analyser comment les variables interagissent les unes avec les autres. Ils aident à découvrir des relations qui ne seraient pas évidentes avec un seul arbre.

Le gradient boosting est fantastique car il peut fonctionner avec des chiffres et des catégories, ce qui le rend utile pour de nombreuses applications différentes. Le GBM est fiable pour les ensembles de données du monde réel car il gère bien les valeurs aberrantes et le bruit.

Ce modèle est un choix populaire pour l’apprentissage automatique en raison de sa précision, sa flexibilité et sa capacité à traiter des schémas de données complexes.

Les étapes de haut niveau sont :

  1. Entraîner le modèle – utilisez la commande CREATE SNOWFLAKE.ML.ANOMALY_DETECTION pour entraîner le modèle GBM sur des données historiques
  2. Utilisez <model_name>!DETECT_ANOMALIES pour exécuter le modèle. La sortie de la méthode est une table. Dans la table, chaque ligne d’entrée est étiquetée comme une anomalie ou non.
  3. Analysez la sortie.

Pour sauvegarder les résultats, vous devez obtenir l’ID de la dernière commande SQL et sauvegarder le résultat en utilisant RESULT_SCAN dans la table «my_ad_results» :

LET ad_res := SQLID;
CREATE TABLE my_ad_results AS SELECT * FROM TABLE(RESULT_SCAN(:ad_res));

Référez-vous à la documentation de Snowflake pour un exemple d’entraînement d’un modèle de détection d’anomalies.

Limites

Bien que puissante, la détection d’anomalies présente certaines limites à connaître :

  • Nécessite des données historiques suffisantes pour établir une base de référence “normale”
  • Détecte les anomalies mais n’explique pas pourquoi elles sont anormales
  • Peut produire de faux positifs pour des points de données rares mais légitimes
  • Les modèles peuvent dériver avec le temps à mesure que les données évoluent et peuvent nécessiter un réentraînement

De plus, le modèle GBM utilisé par Snowflake est principalement adapté aux cas d’utilisation de détection d’anomalies, plutôt qu’à d’autres tâches d’apprentissage automatique comme la classification ou la régression.

Autres capacités d’apprentissage automatique de Snowflake

Au-delà de la détection d’anomalies, Snowflake Cortex offre d’autres capacités d’apprentissage automatique, notamment :

  • Modèles de régression linéaire et logistique
  • Prévisions de séries chronologiques
  • Analyse de texte et de sentiment
  • Import de modèles personnalisés via ONNX et fonctions externes

Les data scientists peuvent améliorer la détection d’anomalies en utilisant des solutions personnalisées d’apprentissage automatique au sein de l’environnement Snowflake.

Conclusion

La détection d’anomalies est un outil puissant pour permettre aux organisations d’identifier et de traiter de manière proactive les valeurs aberrantes des données. La détection d’anomalies de Snowflake est une technique d’apprentissage automatique facilement accessible via SQL. Cela la rend simple à ajouter aux pipelines de données et aux flux de travail BI existants.

La détection d’anomalies n’est pas une solution à tous les problèmes. Cependant, elle peut vous alerter en amont sur des problèmes. Elle peut aussi compléter d’autres pratiques liées à la qualité et à la sécurité des données. Nous vous encourageons à essayer la détection d’anomalies de Snowflake sur vos propres données et à voir quelles perspectives vous pouvez découvrir.

DataSunrise utilise son modèle intégré de détection d’anomalies pour détecter un comportement utilisateur suspect. Pour en savoir plus sur la détection d’anomalies pour la sécurité des données, l’audit et la conformité, veuillez demander une démo en ligne.

Suivant

Services de Données Sécurisées

Services de Données Sécurisées

En savoir plus

Besoin de l'aide de notre équipe de support ?

Nos experts seront ravis de répondre à vos questions.

Informations générales :
[email protected]
Service clientèle et support technique :
support.datasunrise.com
Demandes de partenariat et d'alliance :
[email protected]