DataSunrise Obtient le Statut Compétence DevOps AWS dans AWS DevSecOps et Surveillance, Journalisation, Performance

Masquage Dynamique des Données pour Apache Hive

Introduction

Dans le monde axé sur les données d’aujourd’hui, protéger les informations personnelles et sensibles est une priorité pour les organisations qui cherchent à se conformer à des réglementations telles que le RGPD et le CCPA. Le masquage dynamique des données pour Apache Hive (et d’autres bases de données) offre une solution robuste pour sécuriser vos données sans sacrifier l’accessibilité ou les performances.

Pour souligner l’importance de mettre en œuvre des mesures de sécurité de base de données appropriées, telles que le masquage des données, considérez cette statistique alarmante : la Base Nationale des Vulnérabilités (NVD) a enregistré plus de 279 000 vulnérabilités et continue de croître. Ce chiffre croissant met en évidence le besoin urgent de solides stratégies de protection des données, où le masquage dynamique des données joue un rôle crucial dans la sauvegarde des informations sensibles.

Avec la montée des menaces, protéger vos données sensibles à travers les bases de données et les environnements Apache Hive est plus critique que jamais. Dans cet article, nous explorerons comment le masquage dynamique des données peut améliorer votre stratégie de sécurité des données Hive.

Comprendre les Capacités de Masquage des Données de Hive

Hive offre des fonctionnalités de masquage des données de base via ses fonctions SQL, qui peuvent servir de première couche de protection. Cependant, ces options natives peuvent manquer de profondeur et de flexibilité nécessaires pour une sécurité globale.

Données d’Échantillon (pour les tests)

Pour tester les capacités de masquage intégrées, vous pouvez créer une petite table avec des valeurs d’échantillon comme suit :

CREATE TABLE SAMPLE_DATA (
id INT,
first_name STRING,
last_name STRING,
email STRING
);

INSERT INTO TABLE SAMPLE_DATA
VALUES
(9, 'Natalia', 'Chen', 'nataliac66@gmail.com'),
(10, 'Rafael', 'Anderson', 'rafaela77@outlook.com'),
(11, 'Lucas', 'Garcia', 'lucasg20@example.net');

1. Utilisation de regexp_replace

La fonction regexp_replace de Hive permet un masquage simple des données en substituant des parties d’une chaîne en fonction d’un modèle regex.

SELECT regexp_replace(email, '(.{4}).*@.*', '$1****@****.com') AS masked_email
FROM SAMPLE_DATA;

Cette requête masque les adresses e-mail, révélant uniquement les quatre premiers caractères et l’extension de domaine.

Exemple de l'utilisation de regexp_replace dans Hive
Exemple de l’utilisation de regexp_replace dans Hive

2. Création de Vues Masquées

Vous pouvez créer des vues dans Hive pour présenter des données masquées sans modifier les tables originales.

CREATE VIEW masked_users AS
SELECT
    id,
    CONCAT(SUBSTRING(email, 1, 1), '****@****.com') AS masked_email,
    CONCAT(SUBSTRING(first_name, 1, 1), '****') AS masked_first_name
FROM SAMPLE_DATA;

Vous pouvez interroger cette vue pour vérifier comment le masquage est appliqué :

SELECT * FROM masked_users;

L’interrogation de cette vue masque les adresses e-mail et les noms, ne montrant que le premier caractère des e-mails et des prénoms et remplaçant le reste par des astérisques, tout en gardant l’extension de domaine pour les e-mails visible.

Exemple de l'utilisation de regexp_replace dans Hive
Exemple de l’utilisation de regexp_replace dans Hive

3. Utilisation des Fonctions UDF Intégrées de Hive pour le Masquage des Données

Hive prend en charge plusieurs fonctions UDF intégrées pour le masquage des données, offrant un moyen simple de protéger les données sensibles sans implémenter de fonctions personnalisées.

  • Masquage de l’E-mail (Conserver la première lettre visible) :
SELECT 
  id,
  mask_show_first_n(first_name, 1) AS masked_first_name,
  mask_show_first_n(email, 1) AS masked_email
FROM SAMPLE_DATA;

Cela utilise mask_show_first_n() pour révéler le premier caractère de first_name et email, tout en masquant le reste.

  • Masquage Complet des Données :
SELECT 
  id,
  mask(first_name) AS masked_first_name,
  mask(email) AS masked_email
FROM SAMPLE_DATA;

Ici, mask() masque entièrement les données, remplaçant les caractères selon des règles par défaut (majuscules par X, minuscules par x, et chiffres par n).

Vous pouvez voir un exemple du résultat obtenu pour ces deux requêtes ci-dessous.

Exemple de l'utilisation de l'UDF intégré pour le masquage dans Hive
Exemple de l’utilisation de l’UDF intégré pour le masquage dans Hive

Vous pouvez également implémenter vos propres fonctions UDF pour le masquage des données. Pour en savoir plus sur ce sujet, visitez la page de documentation des UDF d’Apache Hive.

Limitations du Masquage Intégré de Hive

Bien que Hive offre des options de masquage des données simples, elles présentent des limitations inhérentes :

  1. Masquage Statique des Données : Le masquage de Hive est fixe et ne s’adapte pas aux rôles des utilisateurs ou au contexte. Les fonctions telles que mask(), mask_show_first_n() et regexp_replace() appliquent la même transformation à tous les utilisateurs, contrairement au Masquage Dynamique des Données (MDD), qui s’adapte en fonction des contrôles d’accès.

  2. Pas de Masquage Basé sur les Rôles : Les méthodes intégrées de Hive appliquent un masquage identique pour tous les utilisateurs, ce qui signifie que même les utilisateurs privilégiés voient les données masquées, sauf si des contrôles d’accès séparés sont appliqués.

  3. Personnalisation Limitée : Les fonctions de masquage suivent des modèles prédéfinis (X, x, n), et regexp_replace() ne prend en charge que la correspondance de modèles statiques. Un masquage plus avancé, tel que les transformations conditionnelles ou basées sur les rôles, nécessite des UDF personnalisées ou des outils externes.

Pour des besoins de masquage avancés, envisagez d’intégrer des solutions de masquage dynamique des données ou d’implémenter des UDF personnalisées adaptées à vos besoins spécifiques.

Masquage Dynamique des Données pour Apache Hive avec DataSunrise

Pour surmonter les limitations du masquage intégré de Hive, DataSunrise offre un Masquage Dynamique des Données (MDD) complet qui permet de protéger les données sensibles en temps réel en fonction des rôles et du contexte des utilisateurs. Contrairement aux méthodes statiques de Hive, DataSunrise contrôle dynamiquement la visibilité des données grâce à des règles de sécurité prédéfinies.

Avantages Clés du Masquage Dynamique des Données de DataSunrise pour Apache Hive

  1. Sécurité Basée sur les Rôles – Applique le masquage en fonction des rôles des utilisateurs et des niveaux d’accès
  2. Protection Sensible au Contexte – Personnalise le masquage en fonction du contexte de la requête et des attributs des utilisateurs
  3. Mise en Œuvre Non Intrusive – Masque les données en temps réel sans modifier les données originales
  4. Options de Masquage Flexibles – Prend en charge diverses techniques, de l’obfuscation complète au masquage conservant le format
  5. Intégration avec Hive – Fonctionne parfaitement avec les déploiements Hive existants

Mise en Œuvre du Masquage Dynamique des Données dans DataSunrise pour Hive

Avec DataSunrise, le masquage dynamique des données peut être configuré en utilisant des règles et politiques prédéfinies. Le flux de travail typique comprend :

  1. Définir des Politiques de Masquage – Spécifiez quelles colonnes doivent être masquées et dans quelles conditions.
Créer une Règle de Masquage pour les Données Stockées dans Apache Hive dans DataSunrise
Créer une Règle de Masquage pour les Données Stockées dans Apache Hive dans DataSunrise
  1. Configurer les Rôles et Permissions des Utilisateurs – Assigner différents niveaux de masquage en fonction des rôles des utilisateurs.
Utilisateurs Implémentant une Règle Définie par l'Utilisateur pour Hive dans DataSunrise
Utilisateurs Implémentant une Règle Définie par l’Utilisateur pour Hive dans DataSunrise
  1. Configurer la Planification et les Notifications – Configurer des alertes en temps réel pour les événements de sécurité, et définir qui est averti, comment et quand.
Configurer les Notifications et les Paramètres de Planification pour le Masquage des Données dans DataSunrise
Configurer les Notifications et les Paramètres de Planification pour le Masquage des Données dans DataSunrise
  1. Tester la Règle de Masquage Dynamique des Données – Les données sont dynamiquement masquées en fonction des politiques de sécurité actives à chaque exécution d’une requête.
Exemple de Sortie Masquée Définie par la Règle de Masquage DataSunrise
Exemple de Sortie Masquée Définie par la Règle de Masquage DataSunrise

Conclusion

Le masquage dynamique des données pour Apache Hive est un élément important des stratégies de sécurité des données modernes. En exploitant des outils comme DataSunrise, les organisations peuvent protéger les données sensibles, atteindre la conformité réglementaire, et réduire le risque de violations de données sans compromettre l’utilité des données.

Le masquage dynamique des données de DataSunrise pour Apache Hive offre une solution robuste aux défis de protection des données modernes. Les organisations peuvent mettre en œuvre sans heurts une sécurité complète des données et maintenir la conformité réglementaire (RGPD, HIPAA) tout en préservant la pleine fonctionnalité des données.

Découvrez la puissance de la protection avancée des données grâce à notre démo en ligne et découvrez comment DataSunrise peut renforcer votre stratégie de sécurité des données.

Suivant

Configuration RBAC d’Apache Hive avec SQL

En savoir plus

Besoin de l'aide de notre équipe de support ?

Nos experts seront ravis de répondre à vos questions.

Countryx
United States
United Kingdom
France
Germany
Australia
Afghanistan
Islands
Albania
Algeria
American Samoa
Andorra
Angola
Anguilla
Antarctica
Antigua and Barbuda
Argentina
Armenia
Aruba
Austria
Azerbaijan
Bahamas
Bahrain
Bangladesh
Barbados
Belarus
Belgium
Belize
Benin
Bermuda
Bhutan
Bolivia
Bosnia and Herzegovina
Botswana
Bouvet
Brazil
British Indian Ocean Territory
Brunei Darussalam
Bulgaria
Burkina Faso
Burundi
Cambodia
Cameroon
Canada
Cape Verde
Cayman Islands
Central African Republic
Chad
Chile
China
Christmas Island
Cocos (Keeling) Islands
Colombia
Comoros
Congo, Republic of the
Congo, The Democratic Republic of the
Cook Islands
Costa Rica
Cote D'Ivoire
Croatia
Cuba
Cyprus
Czech Republic
Denmark
Djibouti
Dominica
Dominican Republic
Ecuador
Egypt
El Salvador
Equatorial Guinea
Eritrea
Estonia
Ethiopia
Falkland Islands (Malvinas)
Faroe Islands
Fiji
Finland
French Guiana
French Polynesia
French Southern Territories
Gabon
Gambia
Georgia
Ghana
Gibraltar
Greece
Greenland
Grenada
Guadeloupe
Guam
Guatemala
Guernsey
Guinea
Guinea-Bissau
Guyana
Haiti
Heard Island and Mcdonald Islands
Holy See (Vatican City State)
Honduras
Hong Kong
Hungary
Iceland
India
Indonesia
Iran, Islamic Republic Of
Iraq
Ireland
Isle of Man
Israel
Italy
Jamaica
Japan
Jersey
Jordan
Kazakhstan
Kenya
Kiribati
Korea, Democratic People's Republic of
Korea, Republic of
Kuwait
Kyrgyzstan
Lao People's Democratic Republic
Latvia
Lebanon
Lesotho
Liberia
Libyan Arab Jamahiriya
Liechtenstein
Lithuania
Luxembourg
Macao
Madagascar
Malawi
Malaysia
Maldives
Mali
Malta
Marshall Islands
Martinique
Mauritania
Mauritius
Mayotte
Mexico
Micronesia, Federated States of
Moldova, Republic of
Monaco
Mongolia
Montserrat
Morocco
Mozambique
Myanmar
Namibia
Nauru
Nepal
Netherlands
Netherlands Antilles
New Caledonia
New Zealand
Nicaragua
Niger
Nigeria
Niue
Norfolk Island
North Macedonia, Republic of
Northern Mariana Islands
Norway
Oman
Pakistan
Palau
Palestinian Territory, Occupied
Panama
Papua New Guinea
Paraguay
Peru
Philippines
Pitcairn
Poland
Portugal
Puerto Rico
Qatar
Reunion
Romania
Russian Federation
Rwanda
Saint Helena
Saint Kitts and Nevis
Saint Lucia
Saint Pierre and Miquelon
Saint Vincent and the Grenadines
Samoa
San Marino
Sao Tome and Principe
Saudi Arabia
Senegal
Serbia and Montenegro
Seychelles
Sierra Leone
Singapore
Slovakia
Slovenia
Solomon Islands
Somalia
South Africa
South Georgia and the South Sandwich Islands
Spain
Sri Lanka
Sudan
Suriname
Svalbard and Jan Mayen
Swaziland
Sweden
Switzerland
Syrian Arab Republic
Taiwan, Province of China
Tajikistan
Tanzania, United Republic of
Thailand
Timor-Leste
Togo
Tokelau
Tonga
Trinidad and Tobago
Tunisia
Turkey
Turkmenistan
Turks and Caicos Islands
Tuvalu
Uganda
Ukraine
United Arab Emirates
United States Minor Outlying Islands
Uruguay
Uzbekistan
Vanuatu
Venezuela
Viet Nam
Virgin Islands, British
Virgin Islands, U.S.
Wallis and Futuna
Western Sahara
Yemen
Zambia
Zimbabwe
Choose a topicx
Informations générales
Ventes
Service clientèle et support technique
Demandes de partenariat et d'alliance
Informations générales :
info@datasunrise.com
Service clientèle et support technique :
support.datasunrise.com
Demandes de partenariat et d'alliance :
partner@datasunrise.com