Snowflake Stage
Dans le monde axé sur les données d’aujourd’hui, les organisations recherchent constamment des moyens de gérer et de traiter efficacement de vastes quantités de données. Snowflake, une plateforme d’entrepôt de données basée sur le cloud, offre une solution puissante pour mettre en scène et préparer les données pour le traitement. Cet article décrira Snowflake Stage. Nous expliquerons ses avantages et comment il simplifie le processus d’importation et de gestion des données provenant de diverses sources.
Qu’est-ce que Snowflake Stage ?
Snowflake Stage est un composant fondamental de la plateforme d’entrepôt de données Snowflake. Il stocke temporairement les données avant de les charger dans les tables Snowflake. Les stages permettent aux utilisateurs de charger et de gérer efficacement les données provenant de diverses sources. Ces sources peuvent être des fichiers, des bases de données externes ou des services de stockage en cloud comme Amazon S3 ou Azure Blob Storage.
Mise en scène des données dans Snowflake
Snowflake Stage joue un rôle crucial dans le processus de mise en scène des données. Il fournit un moyen flexible et évolutif d’ingérer et de préparer les données pour un traitement ultérieur. Avec Snowflake Stage, vous pouvez :
1. Charger des données de diverses sources
Snowflake est une plateforme d’entrepôt de données basée sur le cloud qui permet aux utilisateurs de charger des données à partir d’une variété de sources. Cela inclut des fichiers dans des formats tels que CSV, JSON et Avro, ce qui facilite l’ingestion de données provenant de différents types de fichiers. De plus, Snowflake peut également se connecter à des bases de données externes, permettant aux utilisateurs d’extraire des données d’autres systèmes de manière fluide.
Snowflake facilite la connexion des utilisateurs aux services de stockage en cloud comme Amazon S3 et Google Cloud Storage. Les utilisateurs peuvent directement charger des données à partir de ces plateformes. Cette flexibilité dans les options de chargement de données fait de Snowflake un outil polyvalent pour la gestion et l’analyse de données provenant de multiples sources.
2. Effectuer des transformations de données
Snowflake offre aux utilisateurs la possibilité de manipuler et de transformer les données avant de les charger dans les tables. Cela peut être fait à l’aide de requêtes SQL ou d’autres outils au sein de la plateforme Snowflake. Snowflake permet aux utilisateurs de modifier les données avant de les sauvegarder. Cela leur permet de nettoyer, enrichir et organiser les données en fonction de leurs besoins.
Cette flexibilité dans la préparation des données aide à garantir que les données sont précises, cohérentes et optimisées pour le reporting. Snowflake supporte différentes techniques de manipulation de données. Cela rend facile pour les utilisateurs de gérer des transformations de données complexes. Les utilisateurs peuvent formater correctement les données en fonction de leurs besoins spécifiques.
3. Gérer de grands volumes de données
Le design de Snowflake peut gérer de grandes quantités de données pendant le processus de mise en scène en montant et descendant en échelle selon les besoins. Cela signifie que Snowflake peut ajuster sa capacité pour accueillir des charges de données variables. Cette flexibilité permet à Snowflake de gérer efficacement les données sans être submergé.
La capacité de Snowflake à s’adapter en échelle en fait une option fiable pour gérer les tâches de traitement des données. Snowflake peut facilement ajuster ses ressources pour traiter les données de manière efficace et précise. Le système effectue cet ajustement au fur et à mesure qu’il charge les données. Cette évolutivité est cruciale pour les organisations traitant de grandes quantités de données, car elle leur permet de gérer facilement les pics dans le volume de données sans rencontrer de problèmes de performance.
En outre, la conception de Snowflake est flexible, permettant aux organisations de facilement ajuster leurs ressources selon leurs besoins. Cela assure que nous pouvons organiser et gérer les informations rapidement. Cela aide également à obtenir des informations plus rapidement et à prendre de meilleures décisions.
Aspects de sécurité de la mise en scène des données dans Snowflake
Lorsqu’il s’agit de mettre en scène des données dans Snowflake, la sécurité est une priorité absolue. Snowflake fournit plusieurs fonctionnalités pour garantir la sécurité et l’intégrité de vos données mises en scène :
- Contrôle d’accès : Snowflake vous permet d’accorder des permissions spécifiques aux utilisateurs et aux rôles, assurant que seules les personnes autorisées peuvent accéder et manipuler les données mises en scène.
- Chiffrement : Toutes les données dans Snowflake Stage sont automatiquement chiffrées au repos et en transit, protégeant les informations sensibles contre tout accès non autorisé.
- Validation des données : Snowflake fournit des mécanismes pour valider l’intégrité et la cohérence des données mises en scène avant de les charger dans les tables.
Exemple
Ici, nous utilisons une stage par défaut de Snowflake en utilisant l’interface en ligne de commande (CLI). La stage est pour un environnement de test et les fausses données CSV ont été générées aléatoirement sur mockaroo.com. Pour utiliser une stage par défaut de Snowflake pour le fichier MOCK_DATA_1.csv, suivez ces étapes :
Connectez-vous à votre compte Snowflake en utilisant le CLI de Snowflake. La sortie devrait ressembler à ceci :
C:\Users\user>snowsql -a xz13yxx.eu-central-1 User: DAN Password:******* * SnowSQL * v1.2.32 Type SQL statements or !help DAN#COMPUTE_WH@(no database).(no schema)>
Créez une nouvelle base de données (si elle n’est pas déjà créée). Utilisez la base de données :
DAN#COMPUTE_WH@(no database).(no schema)>CREATE DATABASE mock_database; +----------------------------------------------+ | status | |----------------------------------------------| | Database MOCK_DATABASE successfully created. | +----------------------------------------------+ 1 Row(s) produced. Time Elapsed: 1.062s
DAN#COMPUTE_WH@MOCK_DATABASE.PUBLIC>use MOCK_DATABASE; +----------------------------------+ | status | |----------------------------------| | Statement executed successfully. | +----------------------------------+ 1 Row(s) produced. Time Elapsed: 0.156s
Charger les données dans la stage par défaut (nous ne créons pas de stage nommée ici) :
DAN#COMPUTE_WH@MOCK_DATABASE.PUBLIC>PUT 'file://C:/TmpDataSnowflake/MOCK_DATA_1.csv' @~ AUTO_COMPRESS=TRUE; +-----------------+--------------------+ ... +--------------------+----------+---------+ | source | target | ... | target_compression | status | message | |-----------------+--------------------+ ... +--------------------+----------+---------| | MOCK_DATA_1.csv | MOCK_DATA_1.csv.gz | ... | GZIP | UPLOADED | | +-----------------+--------------------+ ... +--------------------+----------+---------+ 1 Row(s) produced. Time Elapsed: 1.922s
Vérifiez les données mises en scène :
DAN#COMPUTE_WH@MOCK_DATABASE.PUBLIC>LS @~; +--------------------+-------+...+-------------------------------+ | name | size |...| last_modified | |--------------------+-------+...+-------------------------------| | MOCK_DATA_1.csv.gz | 29456 |...| Fri, 22 Mar 2024 10:49:54 GMT | +--------------------+-------+...+-------------------------------+ 1 Row(s) produced. Time Elapsed: 1.071s
La sortie affichera les fichiers mis en scène avec succès dans Snowflake. Notez que vous ne pouvez pas utiliser la stage interne par défaut pour une table externe. De plus, si vous voulez créer une table pour des données mises en scène, vous pouvez utiliser soit la CLI et la commande CREATE ou REPLACE EXTERNAL TABLE mock_table_1 ou simplement créer une table externe dans Snowflake Worksheet. Utiliser le Worksheet basé sur le web est plus pratique pour la création de tables en raison des problèmes de copier-coller dans le client de console.
USE DATABASE MOCK_DATABASE; CREATE or REPLACE TABLE mock_table_1 ( id INT, first_name VARCHAR, last_name VARCHAR, email VARCHAR, gender VARCHAR, ip_address VARCHAR, card_num VARCHAR ); CREATE OR REPLACE FILE FORMAT my_csv_format TYPE = 'CSV' FIELD_OPTIONALLY_ENCLOSED_BY = '"' SKIP_HEADER = 1; COPY INTO mock_table_1 FROM @~/MOCK_DATA_1.csv.gz FILE_FORMAT = (FORMAT_NAME = my_csv_format) ON_ERROR = 'CONTINUE';
Exemple
Créer une Snowflake Stage en utilisant l’interface web Snowflake :
- Connectez-vous à votre compte Snowflake via l’interface web.
- Accédez à l’onglet “Bases de données” et sélectionnez ou créez la base de données et le schéma souhaités.
- Cliquez sur l’onglet “Stages” et sélectionnez “Créer”.
- Donnez un nom à votre stage et configurez les paramètres nécessaires, tels que l’intégration de stockage et le format de fichier.
- Cliquez sur “Créer” pour créer la stage.
- Pour charger des données dans la stage, accédez à l’onglet “Stages”, sélectionnez votre stage et cliquez sur “Charger des données”.
- Spécifiez l’emplacement et le format des fichiers de données et cliquez sur “Charger”.
Les données mises en scène seront disponibles pour un traitement ultérieur et un chargement dans les tables Snowflake.
Conclusion
Snowflake Stage facilite la préparation des données pour l’analyse dans le cloud. Snowflake aide les organisations à gérer et traiter de nombreuses données provenant de différentes sources de manière sûre et flexible. Avec son architecture basée sur le cloud et son évolutivité, Snowflake Stage simplifie le processus de mise en scène des données. Cela permet aux entreprises de prendre des décisions basées sur les données plus rapidement et plus efficacement.
DataSunrise offre des outils exceptionnels et flexibles pour Snowflake, y compris des fonctionnalités de sécurité, des règles d’audit, du masquage et de la conformité. Pour en savoir plus sur la façon dont DataSunrise peut améliorer votre expérience avec Snowflake, visitez notre site web et programmez une démo en ligne.