
Handbuch Data Engineering
Description
Alles über E-Books | Antworten auf Fragen rund um E-Books, Kopierschutz und Dateiformate finden Sie in unserem Info- & Hilfebereich.
More details
Other editions
Additional editions


Persons
Content
- Cover
- Titel
- Impressum
- Inhalt
- Vorwort
- Teil I Grundlagen und Bausteine
- 1 Data Engineering - eine Beschreibung
- Was ist Data Engineering?
- Data Engineering - eine Definition
- Der Data Engineering Lifecycle
- Die Entwicklung des Data Engineers
- Data Engineering und Data Science
- Data Engineering - Fähigkeiten und Tätigkeiten
- Datenreife und der Data Engineer
- Der berufliche Werdegang und die Kompetenzen eines Data Engineers
- Geschäftliche Verantwortlichkeiten
- Technische Verantwortlichkeiten
- Das Kontinuum der Rollen im Data Engineering - von A nach B
- Data Engineers innerhalb eines Unternehmens
- Nach innen gerichtete versus nach außen gerichtete Data Engineers
- Data Engineers und andere technische Rollen
- Data Engineers und die Unternehmensführung
- Fazit
- Weitere Quellen
- 2 Der Data Engineering Lifecycle
- Was ist der Data Engineering Lifecycle?
- Datenlebenszyklus versus Data Engineering Lifecycle
- Generierung: Quellsysteme
- Speicherung
- Ingestion
- Transformation
- Bereitstellung
- Die wesentlichen Unterströmungen innerhalb des Data Engineering Lifecycle
- Sicherheit
- Datenmanagement
- DataOps
- Datenarchitektur
- Orchestrierung
- Softwareentwicklung
- Fazit
- Weitere Quellen
- 3 Konzeption einer guten Datenarchitektur
- Was ist Datenarchitektur?
- Definition der Unternehmensarchitektur
- Definition der Datenarchitektur
- »Gute« Datenarchitektur
- Die Grundsätze guter Datenarchitektur
- Grundsatz 1: Wählen Sie gängige Komponenten mit Bedacht aus
- Grundsatz 2: Planen Sie Ausfälle ein
- Grundsatz 3: Planen Sie für Skalierbarkeit
- Grundsatz 4: Architektur heißt Führung
- Grundsatz 5: Seien Sie immer Architekt
- Grundsatz 6: Entwickeln Sie lose gekoppelte Systeme
- Grundsatz 7: Treffen Sie reversible Entscheidungen
- Grundsatz 8: Priorisieren Sie das Thema Sicherheit
- Grundsatz 9: Nutzen Sie FinOps
- Wichtige Konzepte der Architektur
- Domänen und Dienste
- Verteilte Systeme, Skalierbarkeit und Ausfallsicherheit
- Enge versus lockere Kopplung: Schichten, Monolithen und Microservices
- Benutzerzugriff: Einzelmandant versus Mehrmandanten
- Ereignisgesteuerte Architektur
- Brownfield- versus Greenfield-Projekte
- Beispiele und Arten der Datenarchitektur
- Data Warehouse
- Data Lake
- Konvergenz, Data Lakes der nächsten Generation und die Datenplattform
- Modern Data Stack
- Lambda-Architektur
- Kappa-Architektur
- Das Dataflow-Modell und die Vereinheitlichung von Batch und Streaming
- Architektur für IoT
- Data Mesh
- Weitere Beispiele von Datenarchitekturen
- Wer ist an der Gestaltung einer Datenarchitektur beteiligt?
- Fazit
- Weitere Quellen
- 4 Wahl der Technologien für den kompletten Data Engineering Lifecycle
- Größe und Fähigkeiten des Teams
- Schnelle Markteinführung
- Interoperabilität
- Kostenoptimierung und Geschäftswert
- Gesamtbetriebskosten
- Total Opportunity Cost of Ownership
- FinOps
- Gegenwart versus Zukunft: unveränderliche versus vergängliche Technologien
- Unser Rat
- Standort
- Vor Ort
- Cloud
- Hybride Cloud
- Multicloud
- Dezentralisiert: Blockchain und Edge
- Unser Rat
- Argumente für die Cloud-Rückführung
- Eigenentwicklung oder Kauf
- Open Source
- Proprietäre geschlossene Systeme
- Unser Rat
- Monolithisch versus modular
- Monolith
- Modularität
- Der verteilte Monolith
- Unser Rat
- Serverlos versus Server
- Serverless
- Container
- Wie bewertet man Server versus Serverless?
- Unser Rat
- Optimierung, Leistung und Benchmarking
- Big Data . für die 1990er
- Absurde Kostenvergleiche
- Asymmetrische Optimierung
- Ausschluss der Gewährleistung
- Die Unterströmungen und ihre Auswirkungen auf die Wahl der Technologien
- Datenmanagement
- DataOps
- Datenarchitektur
- Beispiel für Orchestrierung: Airflow
- Softwareentwicklung
- Fazit
- Weitere Quellen
- Teil II Der Data Engineering Lifecycle im Detail
- 5 Datengenerierung in den Quellsystemen
- Datenquellen: Wie entstehen Daten?
- Quellsysteme: zentrale Aspekte
- Dateien und unstrukturierte Daten
- APIs
- Anwendungsdatenbanken (OLTP-Systeme)
- Das OLAP-System
- CDC
- Protokolle
- Datenbankprotokolle
- CRUD
- Insert-only
- Nachrichten und Streams
- Zeittypen
- Quellsysteme - praktische Details
- Datenbanken
- APIs
- Datenfreigabe
- Datenquellen von Drittanbietern
- Plattformen für das Streaming von Nachrichten und Ereignissen
- Mit wem arbeiten Sie zusammen?
- Die Bedeutung der Unterströmungen für Quellsysteme
- Sicherheit
- Datenmanagement
- DataOps
- Datenarchitektur
- Orchestrierung
- Softwareentwicklung
- Fazit
- Weitere Quellen
- 6 Speicherung
- Komponenten der Datenspeicherung
- Magnetische Festplatten
- Solid State Drive
- Direktzugriffsspeicher
- Netzwerke und CPU
- Serialisierung
- Kompression
- Caching
- Datenspeichersysteme
- Einzelner Rechner versus verteilte Speicherung
- Eventuelle versus starke Konsistenz
- Dateispeicher
- Blockspeicher
- Objektspeicher
- Cache- und RAM-basierte Speichersysteme
- Hadoop
- Streaming-Storage
- Indizes, Partitionen und Cluster
- Speicherkonzepte im Data Engineering
- Data Warehouse
- Data Lake
- Data Lakehouse
- Datenplattformen
- Stream-to-Batch-Speicherarchitektur
- Große Ideen und Trends in der Speicherung
- Datenkatalog
- Datenfreigabe
- Schema
- Trennung von Verarbeitung und Speicherung
- Lebenszyklus der Datenspeicherung und die Datenaufbewahrung
- Mandantenfähiger versus mehrmandantenfähiger Speicher
- Mit wem arbeiten Sie zusammen?
- Unterströmungen
- Sicherheit
- Datenmanagement
- DataOps
- Datenarchitektur
- Orchestrierung
- Softwareentwicklung
- Fazit
- Weitere Quellen
- 7 Ingestion
- Was versteht man unter Ingestion?
- Wichtige technische Überlegungen für die Ingestionsphase
- Begrenzte und nicht begrenzte Daten
- Häufigkeit
- Synchrone und asynchrone Ingestion
- Serialisierung und Deserialisierung
- Durchsatz und Skalierbarkeit
- Zuverlässigkeit und Beständigkeit
- Nutzdaten
- Push, Pull und Polling
- Überlegungen zur Batch-Ingestion
- Snapshot oder differenzielle Extraktion
- Dateibasierter Export und Ingestion
- ETL und ELT
- Inserts, Updates und Batch-Größe
- Datenmigration
- Überlegungen zur Ingestion von Nachrichten und Streams
- Weiterentwicklung des Schemas
- Verspätet eingegangene Daten
- Reihenfolge und mehrfache Zustellung
- Replay
- Time to Live
- Nachrichtengröße
- Fehlerbehandlung und Dead-Letter-Queues
- Pull und Push für Verbraucher
- Standort
- Möglichkeiten der Dateningestion
- Direkte Datenbankverbindung
- Change Data Capture
- APIs
- Nachrichtenwarteschlangen und Event-Streaming-Plattformen
- Verwaltete Datenkonnektoren
- Verschieben von Daten mithilfe des Objektspeichers
- EDI
- Datenbanken und Dateiexport
- Probleme mit gängigen Dateiformaten
- Shell
- SSH
- SFTP und SCP
- Webhooks
- Webinterface
- Web Scraping
- Transfer Appliances für die Datenmigration
- Datenfreigabe
- Mit wem arbeiten Sie zusammen?
- Vorgelagerte Stakeholder
- Nachgelagerte Stakeholder
- Unterströmungen
- Sicherheit
- Datenmanagement
- DataOps
- Orchestrierung
- Softwareentwicklung
- Fazit
- Weitere Quellen
- 8 Queries, Modellierung und Transformation
- Queries
- Was ist eine Query?
- Ablauf einer Abfrage
- Der Abfrageoptimierer
- Die Abfrageleistung verbessern
- Abfragen von Streaming-Daten
- Datenmodellierung
- Was ist ein Datenmodell?
- Konzeptuelle, logische und physische Datenmodelle
- Normalisierung
- Methoden der Datenmodellierung für die Batch-Analyse
- Modellierung von Streaming-Daten
- Transformationen
- Batch-Transformationen
- Materialized Views, Federation und Query Virtualization
- Transformationen und Verarbeitung von Datenströmen
- Mit wem arbeiten Sie zusammen?
- Vorgelagerte Stakeholder
- Nachgelagerte Stakeholder
- Unterströmungen
- Sicherheit
- Datenmanagement
- DataOps
- Datenarchitektur
- Orchestrierung
- Softwareentwicklung
- Fazit
- Weitere Quellen
- 9 Bereitstellung von Daten für Analysen, Machine Learning und Reverse ETL
- Allgemeine Überlegungen zur Bereitstellung von Daten
- Vertrauen
- Was ist der Anwendungsfall, und wer ist der Anwender?
- Datenprodukte
- Self-Service oder nicht?
- Datendefinitionen und -logik
- Data Mesh
- Analytik
- Business Analytics
- Operational Analytics
- Embedded Analytics
- Machine Learning
- Was ein Data Engineer über ML wissen sollte
- Wege der Datenbereitstellung für Analyse und ML
- Austausch von Dateien
- Datenbanken
- Streaming-Systeme
- Abfrageverbund
- Datenfreigabe
- Semantische und metrische Schichten
- Datenbereitstellung in Notebooks
- Reverse ETL
- Mit wem arbeiten Sie zusammen?
- Unterströmungen
- Sicherheit
- Datenmanagement
- DataOps
- Datenarchitektur
- Orchestrierung
- Softwareentwicklung
- Fazit
- Weitere Quellen
- Teil III Sicherheit, Datenschutz und die Zukunft des Data Engineering
- 10 Sicherheit und Datenschutz
- Menschen
- Die Kraft des negativen Denkens
- Seien Sie stets paranoid
- Prozesse
- Sicherheitstheater versus Sicherheitsgewohnheit
- Aktive Sicherheit
- Das Prinzip der geringsten Privilegien
- Gemeinsame Verantwortung in der Cloud
- Sichern Sie stets Ihre Daten
- Ein Beispiel für eine Sicherheitsrichtlinie
- Technologie
- Systeme für Patches und Updates
- Verschlüsselung
- Protokollieren, überwachen und warnen
- Netzwerkzugriff
- Sicherheit für einfaches Data Engineering
- Fazit
- Weitere Quellen
- 11 Die Zukunft des Data Engineering
- Der Data Engineering Lifecycle bleibt
- Geringere Komplexität und benutzerfreundliche Datenwerkzeuge
- Daten-OS in der Cloud und verbesserte Interoperabilität
- »Unternehmerisches« Data Engineering
- Titel und Zuständigkeiten verändern sich
- Vom Modern Data Stack zum Live Data Stack
- Live Data Stack
- Streaming-Pipelines und analytische Echtzeit-Datenbanken
- Die Verschmelzung von Daten und Anwendungen
- Enge Rückkopplung zwischen Anwendungen und ML
- Dark Matter Data und der Aufstieg der . Spreadsheets?
- Fazit
- Anhang A Serialisierung und Kompression - technische Details
- Anhang B Cloud-Vernetzung
- Fußnoten
- Index
- Über die Autoren
- Kolophon
System requirements
File format: PDF
Copy protection: Watermark-DRM (Digital Rights Management)
System requirements:
- Computer (Windows; MacOS X; Linux): Use the free software Adobe Reader, Adobe Digital Editions, or any other PDF viewer of your choice (see eBook Help).
- Tablet/Smartphone (Android; iOS): Install the free app Adobe Digital Editions or another reading app for eBooks, e.g., PocketBook (see eBook Help).
- E-reader: Bookeen, Kobo, Pocketbook, Sony, Tolino and many more (only limited: Kindle).
The file format PDF always displays a book page identically on any hardware. This makes PDF suitable for complex layouts such as those used in textbooks and reference books (images, tables, columns, footnotes). Unfortunately, on the small screens of e-readers or smartphones, PDFs are rather annoying, requiring too much scrolling.
This eBook uses Watermark-DRM, a „soft” copy protection. This means that there are no technical restrictions to prevent illegal distribution. However, there is a personalised watermark embedded in the eBook that can be used to identify the purchaser of the eBook in the event of misuse and to provide evidence for legal purposes.
For more information, see our eBook Help page.