DataSunrise sponsorise AWS re:Invent 2024 à Las Vegas, veuillez nous rendre visite au stand n°2158 de DataSunrise

Audit des Données pour Impala

Introduction

Avant de plonger dans les spécificités de l’audit des données dans Impala, il est essentiel de d’abord considérer le contexte plus large de l’audit des données et de la conformité en général. L’audit des données à son coeur est le processus de surveillance systématique et d’enregistrement des activités de la base de données qui affectent l’intégrité, la confidentialité, et la disponibilité des données. Il implique de mettre en place et de maintenir des registres détaillés des actions des utilisateurs et des événements du système, y compris l’exécution des requêtes, les changements de schéma, et les modèles d’accès aux données. Cela comprend la capture des tentatives d’authentification réussies et échouées, les opérations DDL, et les événements spécifiques d’accès aux données basés sur les règles d’audit configurées et les exigences de conformité.

Dans le paysage des données d’aujourd’hui, où les organisations opèrent des systèmes distribués à grande échelle, l’audit joue un rôle crucial dans la sécurité des bases de données et la gouvernance. Selon le Rapport sur les Menaces aux Données de Thales 2024, environ 70% des entreprises sont incapables de classer plus de 50% de leurs données sensibles, soulignant le besoin critique pour un audit robuste et une gouvernance des données. De plus, les organisations qui ont passé les audits de conformité n’ont eu un historique de violation de données que dans 21% des cas, avec seulement 3% signalant une violation au cours des 12 derniers mois, démontrant l’efficacité des mesures d’audit et de conformité appropriées.

Audit dans Apache Impala

Impala, étant un moteur de requête SQL distribué pour Apache Hadoop, présente des défis et des opportunités uniques pour la journalisation de l’audit et la surveillance de la conformité. Opérant à travers des clusters distribués et gérant le traitement des données à grande échelle, Impala requiert des mécanismes d’audit robustes pour suivre l’exécution des requêtes, l’utilisation des ressources, et les modèles d’accès aux données à travers son architecture distribuée. Comprendre comment mettre en œuvre et gérer efficacement la journalisation de l’audit dans Impala est crucial pour les organisations qui ont besoin de maintenir la conformité tout en exploitant la puissance du traitement SQL distribué.

Comprendre les capacités de journalisation intégrées d’Impala fournit une base pour répondre aux exigences d’audit de base. Dans ce contexte, nous explorerons comment ces journaux peuvent être accessibles et quels types d’information ils peuvent fournir pour des objectifs d’audit.

Accès à l’Audit de Base des Données pour Impala avec les journaux impalad

Avant de plonger dans les capacités d’audit avancées, il est utile de comprendre comment Impala fournit une fonctionnalité de journalisation de base par défaut. Les journaux d’Impala, accessibles à la fois par son interface web et via le système de fichiers, offrent un moyen fondamental de surveiller des activités telles que l’exécution de requêtes SQL et les événements du système.

Accès aux Journaux via l’Interface Web

Une fois qu’Impala est opérationnel, vous pouvez aller à l’interface web impalad et accéder aux journaux sous la section /logs:


https://<ip_address>:25000/logs
Vue de l’Interface Web des Journaux Impala

Cette interface fournit une vue centralisée des journaux du système, y compris les requêtes SQL, les détails de connexion, et les événements internes.

Accès aux Journaux via la Ligne de Commande

Les journaux sont également accessibles à l’emplacement spécifié dans la configuration log_path. Vous pouvez voir le impalad.INFO en vous rendant directement au fichier de journal à l’aide des utilitaires système Linux comme cat ou grep:


cat /var/lib/impala/logs/impalad.INFO

Ce fichier contient des journaux mixtes, y compris les messages du système, les états du service, et les requêtes SQL exécutées sur la base de données.

Exemple: Enregistrement de Requêtes SQL

Vous pouvez observer le comportement d’enregistrement en action en exécutant quelques requêtes SQL de base. Commencez par entrer dans le shell Impala et en exécutant quelques requêtes simples:


CREATE DATABASE test;
CREATE TABLE test.sample (id INT);
INSERT INTO test.sample VALUES (1), (2), (3);
SELECT * FROM test.sample;

Vérification des Journaux dans l’Interface Web

En ouvrant l’interface web, vous pouvez utiliser la fonction de recherche (par exemple, Ctrl+F) pour trouver les requêtes enregistrées telles que les requêtes effectuées sur la table test.sample

Recherche de Journaux Impala dans l’Interface Web

Vérification des Journaux via la Ligne de Commande

De même, vous pouvez filtrer les requêtes directement à partir du fichier de journal avec des utilitaires système comme grep. Ci-dessous est un exemple filtrant les requêtes de la table ‘test.sample’:


grep "test.sample" /var/lib/impala/logs/impalad.INFO
Résultats de Recherche du Fichier de Journal Impala

Comprendre les Détails du Journal

Par défaut, Impala enregistre tout au niveau de journalisation ALL. Cela comprend :

  • Les événements du système et les messages d’état
  • Les détails de connexion et de session
  • L’exécution des requêtes SQL

Niveaux de Journalisation

Impala prend en charge divers niveaux de journalisation (par exemple, INFO, WARN, ERROR, ALL), qui peuvent être configurés pour contrôler la verbosité des journaux. Au niveau ALL, les journaux sont complets et incluent les requêtes SQL, mais tout de même l’information qu’ils fournissent est assez basique. Vous pouvez en savoir plus sur la journalisation du système et les niveaux de journalisation en lisant la documentation officielle sur ce sujet.

Pertinence pour l’Audit

Les journaux par défaut sont utiles pour :

  • Suivre l’exécution des requêtes pour le débogage ou le dépannage.
  • Surveiller les connexions et les activités de session.
  • Observer le comportement général du système.

Journaux d’Audit Séparés dans Impala

Il convient également de mentionner que Impala propose une fonctionnalité pour générer des journaux d’audit séparés spécialement conçus pour le suivi détaillé et les objectifs de conformité. Ces journaux d’audit peuvent être activés en démarrant impalad avec des flags spécifiques. Pour plus d’information détaillée, vous pouvez vous référer à la documentation officielle d’Impala.

Information Capturée dans les Journaux d’Audit

Ces journaux d’audit fournissent des traces plus détaillées des activités des utilisateurs, comparées aux journaux du système. De plus, contrairement aux journaux du système, les journaux d’audit sont stockés en format JSON, ce qui les rend interrogeables à l’aide d’outils comme jq pour une meilleure lisibilité des résultats.


jq '.[] | select(.sql_statement | test("test.sample"))' /var/lib/impala/audit/impala_audit_event_log_1.0*
Sortie des Journaux d’Audit dans Impala

Limitations de l’Audit des Données pour Impala avec les Journaux par Défaut:

Alors que les journaux système par défaut d’Impala et les journaux d’audit peuvent fournir des aperçus utiles, ils comportent tous deux certaines limites, ce qui les rend moins viables et évolutifs comme solutions à long terme pour un audit et une surveillance globale. Ces limites comprennent :

  1. Pas de Support Natif de Requête ou de Filtrage : Les journaux par défaut ne peuvent être interrogés ou filtrés à l’aide de SQL ou de mécanismes de filtrage intégrés. Cette limitation nécessite le recours à des outils externes comme jq ou des utilitaires système pour la visualisation et l’analyse, ce qui peut compliquer les workflows et entraver l’intégration fluide avec d’autres systèmes.

  2. Granularité Limitée : Le système de journalisation par défaut capture largement tous les événements, sans la capacité de définir des règles d’audit spécifiques. Cela rend le suivi des activités spécifiques des utilisateurs ou la surveillance des changements de données sensibles moins efficace.

  3. Surcharge de Stockage et de Performance : La journalisation continue à un niveau détaillé, surtout dans des environnements à haut trafic, peut entraîner une utilisation significative de stockage et une dégradation des performances, nécessitant une gestion prudente des ressources et une rotation périodique des journaux.

DataSunrise: Audit Avancé des Données pour Impala

Création de Règles d’Audit Impala dans DataSunrise

Alors que la journalisation native d’Impala répond à des besoins de base en matière d’audit des données pour Impala, ses contraintes soulignent le besoin de solutions d’audit spécialisées, surtout dans les environnements d’entreprise de grande taille. DataSunrise aborde ces limites en fournissant des capacités de surveillance et d’analyse complètes, offrant une interrogabilité améliorée, un contrôle granulaire, et une gestion optimisée des ressources.

Avantages de DataSunrise pour l’Audit d’Impala

  • Easy Implementation: Des options de déploiement rapides et une interface intuitive signifient un temps de valeur plus rapide comparé à la configuration des journaux natifs. Les équipes peuvent commencer à surveiller les activités de la base de données avec un temps de configuration minimal.
Connexion à l’Instance Impala dans DataSunrise
  • Automatisation de la Conformité : DataSunrise simplifie les processus d’audit en automatisant la rapport de conformité et les tâches de surveillance. Cette automatisation réduit considérablement l’effort manuel par rapport à l’analyse traditionnelle des journaux.
Normes de Sécurité DataSunrise pour Impala
  • Outils de Sécurité Avancés : Allant au-delà de la simple journalisation et de l’audit, DataSunrise propose des fonctionnalités sophistiquées incluant des notifications instantanées, des politiques de sécurité hautement personnalisables, et l’analyse de schéma pour les menaces de sécurité.
Création de Règles de Sécurité pour Impala dans DataSunrise

Avancer avec DataSunrise

DataSunrise offre une alternative puissante à l’audit des données pour Impala en utilisant des outils natifs en fournissant un déploiement plus rapide, des fonctionnalités améliorées, et une complexité opérationnelle réduite. Avec une surveillance des activités en temps réel, des analyses avancées, et un support de plateforme large, DataSunrise aide les organisations à répondre aux exigences de conformité et à sécuriser efficacement leurs bases de données.

Choisissez DataSunrise pour transformer la manière dont vous gérez les audits et la sécurité dans Impala, en assurant l’évolutivité, la conformité, et la simplicité. Pour explorer comment DataSunrise peut optimiser l’audit dans Impala et renforcer la sécurité de la base de données, planifiez une démo en ligne et découvrez ses fonctionnalités avancées et son approche simplifiée.

Suivant

Audit de Base de Données pour Impala

Audit de Base de Données pour Impala

En savoir plus

Besoin de l'aide de notre équipe de support ?

Nos experts seront ravis de répondre à vos questions.

Informations générales :
[email protected]
Service clientèle et support technique :
support.datasunrise.com
Demandes de partenariat et d'alliance :
[email protected]