Handbuch Data Engineering

Name: Handbuch Data Engineering | Robuste Datensysteme planen und erstellen
Brand: O'Reilly
Price: 39.9 EUR
Availability: OnlineOnly

Robuste Datensysteme planen und erstellen

Joe Reis Matt Housley(Author)

O'Reilly (Publisher)

Published on 1. August 2023

492 pages

E-Book

PDF with digital watermarking

System requirements

978-3-96010-768-2 (ISBN)

€39.90incl. 7% vat

System requirements

for PDF with digital watermarking

E-Book Single Licence to 17.06.2026

Available for download

Description

More details

Other editions

Persons

Content

Cover
Titel
Impressum
Inhalt
Vorwort
Teil I Grundlagen und Bausteine
1 Data Engineering - eine Beschreibung
Was ist Data Engineering?
Data Engineering - eine Definition
Der Data Engineering Lifecycle
Die Entwicklung des Data Engineers
Data Engineering und Data Science
Data Engineering - Fähigkeiten und Tätigkeiten
Datenreife und der Data Engineer
Der berufliche Werdegang und die Kompetenzen eines Data Engineers
Geschäftliche Verantwortlichkeiten
Technische Verantwortlichkeiten
Das Kontinuum der Rollen im Data Engineering - von A nach B
Data Engineers innerhalb eines Unternehmens
Nach innen gerichtete versus nach außen gerichtete Data Engineers
Data Engineers und andere technische Rollen
Data Engineers und die Unternehmensführung
Fazit
Weitere Quellen
2 Der Data Engineering Lifecycle
Was ist der Data Engineering Lifecycle?
Datenlebenszyklus versus Data Engineering Lifecycle
Generierung: Quellsysteme
Speicherung
Ingestion
Transformation
Bereitstellung
Die wesentlichen Unterströmungen innerhalb des Data Engineering Lifecycle
Sicherheit
Datenmanagement
DataOps
Datenarchitektur
Orchestrierung
Softwareentwicklung
Fazit
Weitere Quellen
3 Konzeption einer guten Datenarchitektur
Was ist Datenarchitektur?
Definition der Unternehmensarchitektur
Definition der Datenarchitektur
»Gute« Datenarchitektur
Die Grundsätze guter Datenarchitektur
Grundsatz 1: Wählen Sie gängige Komponenten mit Bedacht aus
Grundsatz 2: Planen Sie Ausfälle ein
Grundsatz 3: Planen Sie für Skalierbarkeit
Grundsatz 4: Architektur heißt Führung
Grundsatz 5: Seien Sie immer Architekt
Grundsatz 6: Entwickeln Sie lose gekoppelte Systeme
Grundsatz 7: Treffen Sie reversible Entscheidungen
Grundsatz 8: Priorisieren Sie das Thema Sicherheit
Grundsatz 9: Nutzen Sie FinOps
Wichtige Konzepte der Architektur
Domänen und Dienste
Verteilte Systeme, Skalierbarkeit und Ausfallsicherheit
Enge versus lockere Kopplung: Schichten, Monolithen und Microservices
Benutzerzugriff: Einzelmandant versus Mehrmandanten
Ereignisgesteuerte Architektur
Brownfield- versus Greenfield-Projekte
Beispiele und Arten der Datenarchitektur
Data Warehouse
Data Lake
Konvergenz, Data Lakes der nächsten Generation und die Datenplattform
Modern Data Stack
Lambda-Architektur
Kappa-Architektur
Das Dataflow-Modell und die Vereinheitlichung von Batch und Streaming
Architektur für IoT
Data Mesh
Weitere Beispiele von Datenarchitekturen
Wer ist an der Gestaltung einer Datenarchitektur beteiligt?
Fazit
Weitere Quellen
4 Wahl der Technologien für den kompletten Data Engineering Lifecycle
Größe und Fähigkeiten des Teams
Schnelle Markteinführung
Interoperabilität
Kostenoptimierung und Geschäftswert
Gesamtbetriebskosten
Total Opportunity Cost of Ownership
FinOps
Gegenwart versus Zukunft: unveränderliche versus vergängliche Technologien
Unser Rat
Standort
Vor Ort
Cloud
Hybride Cloud
Multicloud
Dezentralisiert: Blockchain und Edge
Unser Rat
Argumente für die Cloud-Rückführung
Eigenentwicklung oder Kauf
Open Source
Proprietäre geschlossene Systeme
Unser Rat
Monolithisch versus modular
Monolith
Modularität
Der verteilte Monolith
Unser Rat
Serverlos versus Server
Serverless
Container
Wie bewertet man Server versus Serverless?
Unser Rat
Optimierung, Leistung und Benchmarking
Big Data . für die 1990er
Absurde Kostenvergleiche
Asymmetrische Optimierung
Ausschluss der Gewährleistung
Die Unterströmungen und ihre Auswirkungen auf die Wahl der Technologien
Datenmanagement
DataOps
Datenarchitektur
Beispiel für Orchestrierung: Airflow
Softwareentwicklung
Fazit
Weitere Quellen
Teil II Der Data Engineering Lifecycle im Detail
5 Datengenerierung in den Quellsystemen
Datenquellen: Wie entstehen Daten?
Quellsysteme: zentrale Aspekte
Dateien und unstrukturierte Daten
APIs
Anwendungsdatenbanken (OLTP-Systeme)
Das OLAP-System
CDC
Protokolle
Datenbankprotokolle
CRUD
Insert-only
Nachrichten und Streams
Zeittypen
Quellsysteme - praktische Details
Datenbanken
APIs
Datenfreigabe
Datenquellen von Drittanbietern
Plattformen für das Streaming von Nachrichten und Ereignissen
Mit wem arbeiten Sie zusammen?
Die Bedeutung der Unterströmungen für Quellsysteme
Sicherheit
Datenmanagement
DataOps
Datenarchitektur
Orchestrierung
Softwareentwicklung
Fazit
Weitere Quellen
6 Speicherung
Komponenten der Datenspeicherung
Magnetische Festplatten
Solid State Drive
Direktzugriffsspeicher
Netzwerke und CPU
Serialisierung
Kompression
Caching
Datenspeichersysteme
Einzelner Rechner versus verteilte Speicherung
Eventuelle versus starke Konsistenz
Dateispeicher
Blockspeicher
Objektspeicher
Cache- und RAM-basierte Speichersysteme
Hadoop
Streaming-Storage
Indizes, Partitionen und Cluster
Speicherkonzepte im Data Engineering
Data Warehouse
Data Lake
Data Lakehouse
Datenplattformen
Stream-to-Batch-Speicherarchitektur
Große Ideen und Trends in der Speicherung
Datenkatalog
Datenfreigabe
Schema
Trennung von Verarbeitung und Speicherung
Lebenszyklus der Datenspeicherung und die Datenaufbewahrung
Mandantenfähiger versus mehrmandantenfähiger Speicher
Mit wem arbeiten Sie zusammen?
Unterströmungen
Sicherheit
Datenmanagement
DataOps
Datenarchitektur
Orchestrierung
Softwareentwicklung
Fazit
Weitere Quellen
7 Ingestion
Was versteht man unter Ingestion?
Wichtige technische Überlegungen für die Ingestionsphase
Begrenzte und nicht begrenzte Daten
Häufigkeit
Synchrone und asynchrone Ingestion
Serialisierung und Deserialisierung
Durchsatz und Skalierbarkeit
Zuverlässigkeit und Beständigkeit
Nutzdaten
Push, Pull und Polling
Überlegungen zur Batch-Ingestion
Snapshot oder differenzielle Extraktion
Dateibasierter Export und Ingestion
ETL und ELT
Inserts, Updates und Batch-Größe
Datenmigration
Überlegungen zur Ingestion von Nachrichten und Streams
Weiterentwicklung des Schemas
Verspätet eingegangene Daten
Reihenfolge und mehrfache Zustellung
Replay
Time to Live
Nachrichtengröße
Fehlerbehandlung und Dead-Letter-Queues
Pull und Push für Verbraucher
Standort
Möglichkeiten der Dateningestion
Direkte Datenbankverbindung
Change Data Capture
APIs
Nachrichtenwarteschlangen und Event-Streaming-Plattformen
Verwaltete Datenkonnektoren
Verschieben von Daten mithilfe des Objektspeichers
EDI
Datenbanken und Dateiexport
Probleme mit gängigen Dateiformaten
Shell
SSH
SFTP und SCP
Webhooks
Webinterface
Web Scraping
Transfer Appliances für die Datenmigration
Datenfreigabe
Mit wem arbeiten Sie zusammen?
Vorgelagerte Stakeholder
Nachgelagerte Stakeholder
Unterströmungen
Sicherheit
Datenmanagement
DataOps
Orchestrierung
Softwareentwicklung
Fazit
Weitere Quellen
8 Queries, Modellierung und Transformation
Queries
Was ist eine Query?
Ablauf einer Abfrage
Der Abfrageoptimierer
Die Abfrageleistung verbessern
Abfragen von Streaming-Daten
Datenmodellierung
Was ist ein Datenmodell?
Konzeptuelle, logische und physische Datenmodelle
Normalisierung
Methoden der Datenmodellierung für die Batch-Analyse
Modellierung von Streaming-Daten
Transformationen
Batch-Transformationen
Materialized Views, Federation und Query Virtualization
Transformationen und Verarbeitung von Datenströmen
Mit wem arbeiten Sie zusammen?
Vorgelagerte Stakeholder
Nachgelagerte Stakeholder
Unterströmungen
Sicherheit
Datenmanagement
DataOps
Datenarchitektur
Orchestrierung
Softwareentwicklung
Fazit
Weitere Quellen
9 Bereitstellung von Daten für Analysen, Machine Learning und Reverse ETL
Allgemeine Überlegungen zur Bereitstellung von Daten
Vertrauen
Was ist der Anwendungsfall, und wer ist der Anwender?
Datenprodukte
Self-Service oder nicht?
Datendefinitionen und -logik
Data Mesh
Analytik
Business Analytics
Operational Analytics
Embedded Analytics
Machine Learning
Was ein Data Engineer über ML wissen sollte
Wege der Datenbereitstellung für Analyse und ML
Austausch von Dateien
Datenbanken
Streaming-Systeme
Abfrageverbund
Datenfreigabe
Semantische und metrische Schichten
Datenbereitstellung in Notebooks
Reverse ETL
Mit wem arbeiten Sie zusammen?
Unterströmungen
Sicherheit
Datenmanagement
DataOps
Datenarchitektur
Orchestrierung
Softwareentwicklung
Fazit
Weitere Quellen
Teil III Sicherheit, Datenschutz und die Zukunft des Data Engineering
10 Sicherheit und Datenschutz
Menschen
Die Kraft des negativen Denkens
Seien Sie stets paranoid
Prozesse
Sicherheitstheater versus Sicherheitsgewohnheit
Aktive Sicherheit
Das Prinzip der geringsten Privilegien
Gemeinsame Verantwortung in der Cloud
Sichern Sie stets Ihre Daten
Ein Beispiel für eine Sicherheitsrichtlinie
Technologie
Systeme für Patches und Updates
Verschlüsselung
Protokollieren, überwachen und warnen
Netzwerkzugriff
Sicherheit für einfaches Data Engineering
Fazit
Weitere Quellen
11 Die Zukunft des Data Engineering
Der Data Engineering Lifecycle bleibt
Geringere Komplexität und benutzerfreundliche Datenwerkzeuge
Daten-OS in der Cloud und verbesserte Interoperabilität
»Unternehmerisches« Data Engineering
Titel und Zuständigkeiten verändern sich
Vom Modern Data Stack zum Live Data Stack
Live Data Stack
Streaming-Pipelines und analytische Echtzeit-Datenbanken
Die Verschmelzung von Daten und Anwendungen
Enge Rückkopplung zwischen Anwendungen und ML
Dark Matter Data und der Aufstieg der . Spreadsheets?
Fazit
Anhang A Serialisierung und Kompression - technische Details
Anhang B Cloud-Vernetzung
Fußnoten
Index
Über die Autoren
Kolophon

System requirements

Save as PDF Copy link into clipboard

Schweitzer Fachinformationen

Handbuch Data Engineering

Description

More details

Other editions

Additional editions

Persons

Content

System requirements