DataSunrise sponsert AWS re:Invent 2024 in Las Vegas, bitte besuchen Sie uns am Stand #2158 von DataSunrise

Redshift-Datentypen

Redshift-Datentypen

Redshift Data Types

In der Welt der Datenlagerung und Analytik hat sich Amazon Redshift als leistungsstarke und skalierbare Lösung etabliert. Als spaltenorientierte Datenbank bietet Redshift eine Vielzahl von Datentypen, um große Mengen strukturierter Daten effizient zu speichern und zu verarbeiten. Das Verständnis der Redshift-Datentypen ist entscheidend, um die Abfrageleistung zu optimieren und die Datenintegrität zu gewährleisten. In diesem Artikel werden wir die Grundlagen der Redshift-Datentypen erkunden, sie mit SQL-Beispielen vergleichen und das Konzept der Maskierung dieser Datentypen diskutieren.

Was ist Redshift?

Amazon Redshift ist ein vollständig verwalteter, petabyte-skalierbarer Data-Warehouse-Service, der von Amazon Web Services (AWS) bereitgestellt wird. Es ermöglicht Unternehmen, massive Datenmengen mit SQL-basierten Tools und Standard-BI-Anwendungen zu speichern und zu analysieren. Die Cluster-Architektur, bestehend aus Knoten, verteilt die Daten und die Verarbeitung auf mehrere Maschinen, was hohe Leistung und Skalierbarkeit ermöglicht.

Redshift-Datentypen

Redshift unterstützt verschiedene Datentypen, um unterschiedliche Arten von Daten zu verarbeiten. Diese Typen können in mehrere Gruppen unterteilt werden.

1. Numerische Typen:

  • SMALLINT: 2-Byte vorzeichenbehafteter Integer
  • INTEGER: 4-Byte vorzeichenbehafteter Integer
  • BIGINT: 8-Byte vorzeichenbehafteter Integer
  • DECIMAL: Festkommazahl mit benutzerdefinierter Genauigkeit
  • REAL: Einfachgenaue Gleitkommazahl
  • DOUBLE PRECISION: Doppeltgenaue Gleitkommazahl

2. Zeichen-Typen:

  • CHAR: Zeichenkette fester Länge
  • VARCHAR: Zeichenkette variabler Länge
  • NVARCHAR: Zeichenkette variabler Länge in Unicode

3. Datum/Zeit-Typen:

  • DATE: Kalenderdatum (Jahr, Monat, Tag)
  • TIMESTAMP: Datum und Uhrzeit (ohne Zeitzone)
  • TIMESTAMPTZ: Datum und Uhrzeit (mit Zeitzone)

4. Boolescher Typ:

  • BOOL: Logischer Boolean (wahr/falsch)

5. Andere Typen:

  • GEOMETRY: Räumlicher Datentyp zur Darstellung geometrischer Objekte
  • HLLSKETCH: HyperLogLog-Skizze zur ungefähren Zählung unterschiedlicher Werte
  • SUPER: Halbstrukturierter Datentyp zur Speicherung von JSON-ähnlichen Daten

Redshift-Datentypen vs. SQL-Beispiele

Vergleichen wir einige Redshift-Datentypen mit ihren SQL-Gegenstücken anhand von Code-Beispielen.

Beispiel 1: Erstellen einer Tabelle mit verschiedenen Datentypen

CREATE TABLE employees (
id INTEGER,
name VARCHAR(100),
age SMALLINT,
salary DECIMAL(10, 2),
hire_date DATE
);

In diesem Beispiel erstellen wir eine Tabelle mit dem Namen “employees” mit Spalten verschiedener Datentypen. Die Spalte “id” ist vom Typ INTEGER, “name” ist VARCHAR(100), “age” ist SMALLINT, “salary” ist DECIMAL(10, 2) und “hire_date” ist DATE.

Beispiel 2: Einfügen von Daten in die Tabelle

INSERT INTO employees VALUES
(1, 'John Doe', 35, 5000.00, '2022-01-01'),
(2, 'Jane Smith', 28, 4500.50, '2023-03-15');

Hier fügen wir zwei Datenzeilen in die Tabelle “employees” ein. Die Werte entsprechen den definierten Datentypen für jede Spalte.

Maskierung von Redshift-Datentypen

Datenmaskierung ist eine Technik zum Schutz sensibler Informationen, indem diese durch fiktive, aber realistische Daten ersetzt werden. Redshift unterstützt verschiedene Maskierungsfunktionen, um Daten basierend auf spezifischen Regeln oder Mustern zu verschleiern.

Beispiel 3: Maskierung sensibler Daten mit den Maskierungsfunktionen von Redshift

SELECT
id,
name,
age,
firstname_mask(name) AS masked_name,
mask_number(salary, 'N', 2) AS masked_salary,
mask_date(hire_date, 'D') AS masked_hire_date
FROM employees;

In diesem Beispiel rufen wir Daten aus der “employees”-Tabelle ab und wenden dabei Maskierungsfunktionen auf sensible Spalten an. Die Funktion firstname_mask maskiert den Vornamen in der Spalte “name”. Die Funktion mask_number maskiert die Spalte “salary”, indem die letzten 2 Ziffern durch ‘N’ ersetzt werden. Die Funktion mask_date maskiert die Spalte “hire_date”, indem der Tagesanteil durch ‘D’ ersetzt wird.

Das Ergebnis könnte so aussehen:

id | name      | age | masked_name | masked_salary | masked_hire_date
---+-----------+-----+-------------+---------------+------------------
1  | John Doe  | 35  | J*** D**    | 5000.NN       | 2022-01-DD
2  | Jane Smith| 28  | J*** S****  | 4500.NN       | 2023-03-DD

Wie Sie sehen können, werden die sensiblen Informationen in den Spalten “name”, “salary” und “hire_date” maskiert, während das Format und der Datentyp beibehalten werden.

Fazit

Das Verständnis der Redshift-Datentypen ist entscheidend für eine effektive Datenverwaltung und Abfrageoptimierung in Amazon Redshift. Durch die Nutzung der geeigneten Datentypen und Maskierungstechniken können Sie die Datenintegrität gewährleisten, sensible Informationen schützen und die Abfrageleistung optimieren. Redshift bietet eine breite Palette von Datentypen und Maskierungsfunktionen, die es zu einer vielseitigen und sicheren Data-Warehouse-Lösung machen.

DataSunrise bietet außergewöhnliche und flexible Tools für Sicherheit, Audit-Regeln, Maskierung und Compliance in Redshift und anderen Datenbanken. Unsere Lösungen bieten umfassenden Datenschutz und helfen Organisationen, regulatorische Anforderungen zu erfüllen. Wir laden Sie ein, das DataSunrise-Team für eine Online-Demo zu besuchen, um zu erfahren, wie unsere Tools Ihre Datensicherheits- und Compliance-Anstrengungen verbessern können.

Nächste

Zugriff auf Cloud-Daten

Zugriff auf Cloud-Daten

Erfahren Sie mehr

Benötigen Sie die Hilfe unseres Support-Teams?

Unsere Experten beantworten gerne Ihre Fragen.

Allgemeine Informationen:
[email protected]
Kundenservice und technischer Support:
support.datasunrise.com
Partnerschafts- und Allianz-Anfragen:
[email protected]