
Data-Science-Crashkurs
Description
Alles über E-Books | Antworten auf Fragen rund um E-Books, Kopierschutz und Dateiformate finden Sie in unserem Info- & Hilfebereich.
More details
Other editions
Additional editions


Person
Content
- Cover
- Über den Autor
- Titel
- Impressum
- Vorwort
- Inhaltsübersicht
- Inhaltsverzeichnis
- 1 Big Data und Data Science
- 1.1 Einführung in Big Data
- 1.1.1 Volumen
- 1.1.2 Velocity/Geschwindigkeit
- 1.1.3 Variety/Vielfalt
- 1.1.4 Innovative Informationsverarbeitungsmethoden
- 1.1.5 Wissen generieren, Entscheidungen treffen, Prozesse automatisieren
- 1.1.6 Noch mehr Vs
- 1.2 Einführung in Data Science
- 1.2.1 Was gehört zu Data Science?
- 1.2.2 Beispielanwendungen
- 1.3 Fähigkeiten von Data Scientists
- 2 Der Prozess von Data-Science-Projekten
- 2.1 Der generische Data-Science-Prozess
- 2.1.1 Discovery
- 2.1.2 Datenvorbereitung
- 2.1.3 Modellplanung
- 2.1.4 Modellerstellung
- 2.1.5 Kommunikation der Ergebnisse
- 2.1.6 Operationalisierung
- 2.2 Rollen in Data-Science-Projekten
- 2.2.1 Anwenderin
- 2.2.2 Projektsponsorin
- 2.2.3 Projektmanagerin
- 2.2.4 Dateningenieurin
- 2.2.5 Datenbankadministratorin
- 2.2.6 Data Scientist
- 2.3 Deliverables
- 2.3.1 Sponsorenpräsentation
- 2.3.2 Analystenpräsentation
- 2.3.3 Quelltext
- 2.3.4 Technische Spezifikation
- 2.3.5 Daten
- 3 Allgemeines zur Datenanalyse
- 3.1 Das No-free-Lunch-Theorem
- 3.2 Definition von maschinellem Lernen
- 3.3 Merkmale
- 3.4 Trainings- und Testdaten
- 3.5 Kategorien von Algorithmen
- 3.6 Übung
- 4 Erkunden der Daten
- 4.1 Texteditoren und die Kommandozeile
- 4.2 Deskriptive Statistik
- 4.2.1 Lagemaße
- 4.2.2 Variabilität
- 4.2.3 Datenbereich
- 4.3 Visualisierung
- 4.3.1 Anscombes Quartett
- 4.3.2 Einzelne Merkmale
- 4.3.3 Beziehungen zwischen Merkmalen
- 4.3.4 Scatterplots für hochdimensionale Daten
- 4.3.5 Zeitliche Trends
- 4.4 Übung
- 5 Assoziationsregeln
- 5.1 Der Apriori-Algorithmus
- 5.1.1 Support und Frequent Itemsets
- 5.1.2 Ableiten von Regeln
- 5.1.3 Confidence, Lift und Leverage
- 5.1.4 Exponentielles Wachstum
- 5.1.5 Die Apriori-Eigenschaft
- 5.1.6 Einschränkungen für Regeln
- 5.2 Bewertung von Assoziationsregeln
- 5.3 Übung
- 6 Clusteranalyse
- 6.1 Ähnlichkeitsmaße
- 6.2 Städte und Häuser
- 6.3 k-Means-Algorithmus
- 6.3.1 Der Algorithmus
- 6.3.2 Bestimmen von k
- 6.3.3 Probleme des k-Means-Algorithmus
- 6.4 EM-Clustering
- 6.4.1 Der Algorithmus
- 6.4.2 Bestimmen von k
- 6.4.3 Probleme des EM-Clustering
- 6.5 DBSCAN
- 6.5.1 Der Algorithmus
- 6.5.2 Bestimmen von e und minPts
- 6.5.3 Probleme bei DBSCAN
- 6.6 Single Linkage Clustering
- 6.6.1 Der SLINK-Algorithmus
- 6.6.2 Dendrogramme
- 6.6.3 Probleme bei SLINK
- 6.7 Vergleich der Algorithmen
- 6.7.1 Clusterformen
- 6.7.2 Anzahl der Cluster
- 6.7.3 Ausführungszeit
- 6.7.4 Interpretierbarkeit und Darstellung
- 6.7.5 Kategorische Merkmale
- 6.7.6 Fehlende Merkmale
- 6.7.7 Korrelierte Merkmale
- 6.7.8 Zusammenfassung des Vergleichs
- 6.8 Übung
- 7 Klassifikation
- 7.1 Binäre Klassifikation und Grenzwerte
- 7.2 Gütemaße
- 7.2.1 Die Confusion Matrix
- 7.2.2 Die binäre Confusion Matrix
- 7.2.3 Binäre Gütemaße
- 7.2.4 Die Receiver Operator Characteristic (ROC)
- 7.2.5 Area Under the Curve (AUC)
- 7.2.6 Micro und Macro Averages
- 7.2.7 Jenseits der Confusion Matrix
- 7.3 Decision Surfaces
- 7.4 k-Nearest Neighbor
- 7.5 Entscheidungsbäume
- 7.6 Random Forests
- 7.7 Logistische Regression
- 7.8 Naive Bayes
- 7.9 Support Vector Machines (SVMs)
- 7.10 Neuronale Netzwerke
- 7.10.1 Exkurs: CNNs zum Erkennen von Zahlen
- 7.11 Vergleich der Klassifikationsalgorithmen
- 7.11.1 Grundidee
- 7.11.2 Decision Surfaces
- 7.11.3 Ausführungszeit
- 7.11.4 Interpretierbarkeit und Darstellung
- 7.11.5 Scoring
- 7.11.6 Kategorische Merkmale
- 7.11.7 Fehlende Merkmale
- 7.11.8 Korrelierte Merkmale
- 7.11.9 Zusammenfassung des Vergleichs
- 7.12 Übung
- 8 Regression
- 8.1 Güte von Regressionen
- 8.1.1 Visuelle Bewertung der Güte
- 8.1.2 Gütemaße
- 8.2 Lineare Regression
- 8.2.1 Ordinary Least Squares (OLS)
- 8.2.2 Ridge
- 8.2.3 Lasso
- 8.2.4 Elastic Net
- 8.2.5 Auswirkung der Regularisierung
- 8.3 Jenseits von linearer Regression
- 8.4 Übung
- 9 Zeitreihenanalyse
- 9.1 Box-Jenkins-Verfahren
- 9.2 Trends und saisonale Effekte
- 9.2.1 Regression und das saisonale Mittel
- 9.2.2 Differencing
- 9.2.3 Vergleich der Ansätze
- 9.3 Autokorrelationen mit ARMA
- 9.3.1 Autokorrelation und partielle Autokorrelation
- 9.3.2 AR, MA und ARMA
- 9.3.3 Auswahl von p und q
- 9.3.4 ARIMA
- 9.4 Jenseits von Box-Jenkins
- 9.5 Übung
- 10 Text Mining
- 10.1 Preprocessing
- 10.1.1 Erstellung eines Korpus
- 10.1.2 Relevanter Inhalt
- 10.1.3 Zeichensetzung und Großschreibung
- 10.1.4 Stoppwörter
- 10.1.5 Stemming und Lemmatisierung
- 10.1.6 Visualisierung des Preprocessing
- 10.1.7 Bag-of-Words
- 10.1.8 Inverse Document Frequency
- 10.1.9 Jenseits des Bag-of-Words
- 10.2 Herausforderungen des Text Mining
- 10.2.1 Dimensionalität
- 10.2.2 Mehrdeutigkeiten
- 10.2.3 Weitere Probleme
- 10.3 Übung
- 11 Statistik
- 11.1 Hypothesentests
- 11.1.1 t-Test
- 11.1.2 Das Signifikanzniveau
- 11.1.3 Wichtige Hypothesentests
- 11.1.4 Anwendung der Tests
- 11.1.5 Übliche Fehler bei Hypothesentests
- 11.2 Effektstärke
- 11.3 Konfidenzintervalle
- 11.4 Gute Beschreibung von Ergebnissen
- 11.5 Übung
- 12 Big Data Processing
- 12.1 Parallelisierung
- 12.2 Verteiltes Rechnen zur Datenanalyse
- 12.3 Datenlokalität
- 12.4 MapReduce
- 12.4.1 map()
- 12.4.2 shuffle()
- 12.4.3 reduce()
- 12.4.4 Worthäufigkeiten mit MapReduce
- 12.4.5 Parallelisierung
- 12.5 Apache Hadoop
- 12.5.1 HDFS
- 12.5.2 YARN
- 12.5.3 MapReduce mit Hadoop
- 12.5.4 Streaming Mode
- 12.5.5 Weitere Komponenten von Hadoop
- 12.5.6 Grenzen von Hadoop
- 12.6 Apache Spark
- 12.6.1 Architektur
- 12.6.2 Datenstrukturen
- 12.6.3 Infrastruktur
- 12.6.4 Worthäufigkeiten mit Spark
- 12.7 Jenseits von Hadoop und Spark
- 13 Weiterführende Konzepte
- Anhang
- A Selbst ausführen
- B Notationen
- C Abkürzungen
- D Literatur
- Fußnoten
- Index
System requirements
File format: PDF
Copy protection: Watermark-DRM (Digital Rights Management)
System requirements:
- Computer (Windows; MacOS X; Linux): Use the free software Adobe Reader, Adobe Digital Editions, or any other PDF viewer of your choice (see eBook Help).
- Tablet/Smartphone (Android; iOS): Install the free app Adobe Digital Editions or another reading app for eBooks, e.g., PocketBook (see eBook Help).
- E-reader: Bookeen, Kobo, Pocketbook, Sony, Tolino and many more (only limited: Kindle).
The file format PDF always displays a book page identically on any hardware. This makes PDF suitable for complex layouts such as those used in textbooks and reference books (images, tables, columns, footnotes). Unfortunately, on the small screens of e-readers or smartphones, PDFs are rather annoying, requiring too much scrolling.
This eBook uses Watermark-DRM, a „soft” copy protection. This means that there are no technical restrictions to prevent illegal distribution. However, there is a personalised watermark embedded in the eBook that can be used to identify the purchaser of the eBook in the event of misuse and to provide evidence for legal purposes.
For more information, see our eBook Help page.