Data-Science-Crashkurs

Name: Data-Science-Crashkurs | Eine interaktive und praktische Einführung
Brand: dpunkt
Price: 27.9 EUR
Availability: OnlineOnly

Eine interaktive und praktische Einführung

Steffen Herbold(Author)

dpunkt (Publisher)

Published on 8. January 2022

346 pages

E-Book

PDF with digital watermarking

System requirements

978-3-96910-618-1 (ISBN)

€27.90incl. 7% vat

System requirements

for PDF with digital watermarking

E-Book Single Licence to 17.06.2026

Available for download

Description

More details

Other editions

Person

Content

Cover
Über den Autor
Titel
Impressum
Vorwort
Inhaltsübersicht
Inhaltsverzeichnis
1 Big Data und Data Science
1.1 Einführung in Big Data
1.1.1 Volumen
1.1.2 Velocity/Geschwindigkeit
1.1.3 Variety/Vielfalt
1.1.4 Innovative Informationsverarbeitungsmethoden
1.1.5 Wissen generieren, Entscheidungen treffen, Prozesse automatisieren
1.1.6 Noch mehr Vs
1.2 Einführung in Data Science
1.2.1 Was gehört zu Data Science?
1.2.2 Beispielanwendungen
1.3 Fähigkeiten von Data Scientists
2 Der Prozess von Data-Science-Projekten
2.1 Der generische Data-Science-Prozess
2.1.1 Discovery
2.1.2 Datenvorbereitung
2.1.3 Modellplanung
2.1.4 Modellerstellung
2.1.5 Kommunikation der Ergebnisse
2.1.6 Operationalisierung
2.2 Rollen in Data-Science-Projekten
2.2.1 Anwenderin
2.2.2 Projektsponsorin
2.2.3 Projektmanagerin
2.2.4 Dateningenieurin
2.2.5 Datenbankadministratorin
2.2.6 Data Scientist
2.3 Deliverables
2.3.1 Sponsorenpräsentation
2.3.2 Analystenpräsentation
2.3.3 Quelltext
2.3.4 Technische Spezifikation
2.3.5 Daten
3 Allgemeines zur Datenanalyse
3.1 Das No-free-Lunch-Theorem
3.2 Definition von maschinellem Lernen
3.3 Merkmale
3.4 Trainings- und Testdaten
3.5 Kategorien von Algorithmen
3.6 Übung
4 Erkunden der Daten
4.1 Texteditoren und die Kommandozeile
4.2 Deskriptive Statistik
4.2.1 Lagemaße
4.2.2 Variabilität
4.2.3 Datenbereich
4.3 Visualisierung
4.3.1 Anscombes Quartett
4.3.2 Einzelne Merkmale
4.3.3 Beziehungen zwischen Merkmalen
4.3.4 Scatterplots für hochdimensionale Daten
4.3.5 Zeitliche Trends
4.4 Übung
5 Assoziationsregeln
5.1 Der Apriori-Algorithmus
5.1.1 Support und Frequent Itemsets
5.1.2 Ableiten von Regeln
5.1.3 Confidence, Lift und Leverage
5.1.4 Exponentielles Wachstum
5.1.5 Die Apriori-Eigenschaft
5.1.6 Einschränkungen für Regeln
5.2 Bewertung von Assoziationsregeln
5.3 Übung
6 Clusteranalyse
6.1 Ähnlichkeitsmaße
6.2 Städte und Häuser
6.3 k-Means-Algorithmus
6.3.1 Der Algorithmus
6.3.2 Bestimmen von k
6.3.3 Probleme des k-Means-Algorithmus
6.4 EM-Clustering
6.4.1 Der Algorithmus
6.4.2 Bestimmen von k
6.4.3 Probleme des EM-Clustering
6.5 DBSCAN
6.5.1 Der Algorithmus
6.5.2 Bestimmen von e und minPts
6.5.3 Probleme bei DBSCAN
6.6 Single Linkage Clustering
6.6.1 Der SLINK-Algorithmus
6.6.2 Dendrogramme
6.6.3 Probleme bei SLINK
6.7 Vergleich der Algorithmen
6.7.1 Clusterformen
6.7.2 Anzahl der Cluster
6.7.3 Ausführungszeit
6.7.4 Interpretierbarkeit und Darstellung
6.7.5 Kategorische Merkmale
6.7.6 Fehlende Merkmale
6.7.7 Korrelierte Merkmale
6.7.8 Zusammenfassung des Vergleichs
6.8 Übung
7 Klassifikation
7.1 Binäre Klassifikation und Grenzwerte
7.2 Gütemaße
7.2.1 Die Confusion Matrix
7.2.2 Die binäre Confusion Matrix
7.2.3 Binäre Gütemaße
7.2.4 Die Receiver Operator Characteristic (ROC)
7.2.5 Area Under the Curve (AUC)
7.2.6 Micro und Macro Averages
7.2.7 Jenseits der Confusion Matrix
7.3 Decision Surfaces
7.4 k-Nearest Neighbor
7.5 Entscheidungsbäume
7.6 Random Forests
7.7 Logistische Regression
7.8 Naive Bayes
7.9 Support Vector Machines (SVMs)
7.10 Neuronale Netzwerke
7.10.1 Exkurs: CNNs zum Erkennen von Zahlen
7.11 Vergleich der Klassifikationsalgorithmen
7.11.1 Grundidee
7.11.2 Decision Surfaces
7.11.3 Ausführungszeit
7.11.4 Interpretierbarkeit und Darstellung
7.11.5 Scoring
7.11.6 Kategorische Merkmale
7.11.7 Fehlende Merkmale
7.11.8 Korrelierte Merkmale
7.11.9 Zusammenfassung des Vergleichs
7.12 Übung
8 Regression
8.1 Güte von Regressionen
8.1.1 Visuelle Bewertung der Güte
8.1.2 Gütemaße
8.2 Lineare Regression
8.2.1 Ordinary Least Squares (OLS)
8.2.2 Ridge
8.2.3 Lasso
8.2.4 Elastic Net
8.2.5 Auswirkung der Regularisierung
8.3 Jenseits von linearer Regression
8.4 Übung
9 Zeitreihenanalyse
9.1 Box-Jenkins-Verfahren
9.2 Trends und saisonale Effekte
9.2.1 Regression und das saisonale Mittel
9.2.2 Differencing
9.2.3 Vergleich der Ansätze
9.3 Autokorrelationen mit ARMA
9.3.1 Autokorrelation und partielle Autokorrelation
9.3.2 AR, MA und ARMA
9.3.3 Auswahl von p und q
9.3.4 ARIMA
9.4 Jenseits von Box-Jenkins
9.5 Übung
10 Text Mining
10.1 Preprocessing
10.1.1 Erstellung eines Korpus
10.1.2 Relevanter Inhalt
10.1.3 Zeichensetzung und Großschreibung
10.1.4 Stoppwörter
10.1.5 Stemming und Lemmatisierung
10.1.6 Visualisierung des Preprocessing
10.1.7 Bag-of-Words
10.1.8 Inverse Document Frequency
10.1.9 Jenseits des Bag-of-Words
10.2 Herausforderungen des Text Mining
10.2.1 Dimensionalität
10.2.2 Mehrdeutigkeiten
10.2.3 Weitere Probleme
10.3 Übung
11 Statistik
11.1 Hypothesentests
11.1.1 t-Test
11.1.2 Das Signifikanzniveau
11.1.3 Wichtige Hypothesentests
11.1.4 Anwendung der Tests
11.1.5 Übliche Fehler bei Hypothesentests
11.2 Effektstärke
11.3 Konfidenzintervalle
11.4 Gute Beschreibung von Ergebnissen
11.5 Übung
12 Big Data Processing
12.1 Parallelisierung
12.2 Verteiltes Rechnen zur Datenanalyse
12.3 Datenlokalität
12.4 MapReduce
12.4.1 map()
12.4.2 shuffle()
12.4.3 reduce()
12.4.4 Worthäufigkeiten mit MapReduce
12.4.5 Parallelisierung
12.5 Apache Hadoop
12.5.1 HDFS
12.5.2 YARN
12.5.3 MapReduce mit Hadoop
12.5.4 Streaming Mode
12.5.5 Weitere Komponenten von Hadoop
12.5.6 Grenzen von Hadoop
12.6 Apache Spark
12.6.1 Architektur
12.6.2 Datenstrukturen
12.6.3 Infrastruktur
12.6.4 Worthäufigkeiten mit Spark
12.7 Jenseits von Hadoop und Spark
13 Weiterführende Konzepte
Anhang
A Selbst ausführen
B Notationen
C Abkürzungen
D Literatur
Fußnoten
Index

System requirements

Save as PDF Copy link into clipboard

Schweitzer Fachinformationen

Data-Science-Crashkurs

Description

More details

Other editions

Additional editions

Person

Content

System requirements