
Einführung in Data Science
Description
Alles über E-Books | Antworten auf Fragen rund um E-Books, Kopierschutz und Dateiformate finden Sie in unserem Info- & Hilfebereich.
More details
Other editions
Additional editions


Persons
Content
- Cover
- Titel
- Impressum
- Inhalt
- Vorwort zur 2. Auflage
- Vorwort zur 1. Auflage
- 1 Einführung
- Der Aufstieg der Daten
- Was ist Data Science?
- Ein motivierendes Szenario: DataSciencester
- Finden von Schlüsselpersonen
- Data Scientists, die Sie kennen könnten
- Gehälter und Erfahrung
- Bezahlte Nutzerkonten
- Interessante Themen
- Weiter geht's!
- 2 Ein Crashkurs in Python
- Zen und Python
- Python installieren
- Virtuelle Umgebungen
- Formatieren durch Leerzeichen
- Module
- Funktionen
- Strings
- Exceptions
- Listen
- Tupel
- Dictionaries
- defaultdict
- Counter
- Sets
- Kontrollfluss
- Wahrheitswerte
- Sortieren
- List Comprehensions
- Automatisierte Tests und assert
- Objektorientierte Programmierung
- Iterables und Generatoren
- Zufall
- Reguläre Ausdrücke
- Funktionale Programmierung
- zip und Entpacken von Argumenten
- args und kwargs
- Type Annotations
- Wie man Type Annotations schreibt
- Willkommen bei DataSciencester!
- Weiterführendes Material
- 3 Daten visualisieren
- matplotlib
- Balkendiagramme
- Liniendiagramme
- Scatterplots
- Weiterführendes Material
- 4 Lineare Algebra
- Vektoren
- Matrizen
- Weiterführendes Material
- 5 Statistik
- Einen einzelnen Datensatz beschreiben
- Lagemaße
- Streuung
- Korrelation
- Das Simpson-Paradoxon
- Weitere Fallstricke von Korrelationen
- Korrelation und Kausalität
- Weiterführendes Material
- 6 Wahrscheinlichkeit
- Abhängigkeit und Unabhängigkeit
- Bedingte Wahrscheinlichkeit
- Der Satz von Bayes
- Zufallsvariablen
- Kontinuierliche Wahrscheinlichkeitsverteilungen
- Die Normalverteilung
- Der zentrale Grenzwertsatz
- Weiterführendes Material
- 7 Hypothesen und Schlussfolgerungen
- Testen statistischer Hypothesen
- Beispiel: Münzwürfe
- p-Werte
- Konfidenzintervalle
- p-Hacking
- Beispiel: Durchführen eines A/B-Tests
- Bayessche Inferenz
- Weiterführendes Material
- 8 Die Gradientenmethode
- Die Idee hinter der Gradientenmethode
- Abschätzen des Gradienten
- Den Gradienten verwenden
- Auswahl der richtigen Schrittweite
- Mit der Gradientenmethode Modelle anpassen
- Minibatch und stochastische Gradientenmethode
- Weiterführendes Material
- 9 Daten sammeln
- stdin und stdout
- Einlesen von Dateien
- Grundlagen von Textdateien
- Dateien mit Feldtrennern
- Auslesen von Webseiten
- Parsen von HTML-Dokumenten
- Beispiel: Den Kongress im Auge behalten
- Verwenden von APIs
- JSON und XML
- Eine nicht authentifizierte API verwenden
- APIs finden
- Beispiel: Verwenden der Twitter-APIs
- Zugriff auf die APIs erhalten
- Weiterführendes Material
- 10 Arbeiten mit Daten
- Erkunden Ihrer Daten
- Erkunden eindimensionaler Daten
- Zwei Dimensionen
- Mehrere Dimensionen
- NamedTuples
- Datenklassen
- Bereinigen und Umformen
- Manipulieren von Daten
- Umskalieren
- Exkurs: tqdm
- Hauptkomponentenanalyse
- Weiterführendes Material
- 11 Maschinelles Lernen
- Modellieren
- Was ist maschinelles Lernen?
- Overfitting und Underfitting
- Genauigkeit
- Der Kompromiss zwischen Bias und Varianz
- Extraktion und Auswahl von Eigenschaften
- Weiterführendes Material
- 12 k-Nächste-Nachbarn
- Das Modell
- Beispiel: Der Iris-Datensatz
- Der Fluch der Dimensionalität
- Weiterführendes Material
- 13 Naive Bayes-Klassifikatoren
- Ein wirklich primitiver Spam-Filter
- Ein anspruchsvollerer Spam-Filter
- Implementierung
- Das Modell testen
- Das Modell verwenden
- Weiterführendes Material
- 14 Einfache lineare Regression
- Das Modell
- Anwenden des Gradientenverfahrens
- Maximum-Likelihood-Methode
- Weiterführendes Material
- 15 Multiple Regression
- Das Modell
- Weitere Annahmen bei der Methode der kleinsten Quadrate
- Anpassen des Modells
- Interpretation des Modells
- Anpassungsgüte
- Exkurs: Bootstrapping
- Standardfehler von Regressionskoeffizienten
- Regularisierung
- Weiterführendes Material
- 16 Logistische Regression
- Die Aufgabe
- Die logistische Funktion
- Anwendung des Modells
- Anpassungsgüte
- Support Vector Machines
- Weiterführendes Material
- 17 Entscheidungsbäume
- Was ist ein Entscheidungsbaum?
- Entropie
- Die Entropie einer Partition
- Einen Entscheidungsbaum erzeugen
- Verallgemeinerung des Verfahrens
- Random Forests
- Weiterführendes Material
- 18 Neuronale Netzwerke
- Perzeptrons
- Feed-forward-Netze
- Backpropagation
- Beispiel: Fizz Buzz
- Weiterführendes Material
- 19 Deep Learning
- Der Tensor
- Die Layer-Abstrahierung
- Der lineare Layer
- Neuronale Netzwerke als Abfolge von Layern
- Verlust und Optimierung
- Beispiel XOR überarbeitet
- Andere Aktivierungsfunktionen
- Beispiel: Fizz Buzz überarbeitet
- Softmaxes und Kreuz-Entropie
- Dropout
- Beispiel: MNIST
- Modelle sichern und laden
- Weiterführendes Material
- 20 Clustering
- Die Idee
- Das Modell
- Beispiel: Meet-ups
- Die Auswahl von k
- Beispiel: Clustern von Farben
- Agglomeratives hierarchisches Clustering
- Weiterführendes Material
- 21 Linguistische Datenverarbeitung
- Wortwolken
- N-Gramm-Sprachmodelle
- Grammatiken
- Exkurs: Gibbs-Sampling
- Themenmodellierung
- Wortvektoren
- Rekurrente neuronale Netzwerke
- Beispiel: Ein RNN auf Zeichenebene verwenden
- Weiterführendes Material
- 22 Graphenanalyse
- Betweenness-Zentralität
- Eigenvektor-Zentralität
- Matrizenmultiplikation
- Zentralität
- Gerichtete Graphen und PageRank
- Weiterführendes Material
- 23 Empfehlungssysteme
- Manuelle Pflege
- Empfehlen, was beliebt ist
- Nutzerbasiertes kollaboratives Filtern
- Gegenstandsbasiertes kollaboratives Filtern
- Matrixfaktorisierung
- Weiterführendes Material
- 24 Datenbanken und SQL
- CREATE TABLE und INSERT
- UPDATE
- DELETE
- SELECT
- GROUP BY
- ORDER BY
- JOIN
- Subqueries
- Indexstrukturen
- Optimierung von Anfragen
- NoSQL
- Weiterführendes Material
- 25 MapReduce
- Beispiel: Wörter zählen
- Warum MapReduce?
- MapReduce verallgemeinert
- Beispiel: Statusmeldungen analysieren
- Beispiel: Matrizenmultiplikation
- Eine Randbemerkung: Combiners
- Weiterführendes Material
- 26 Datenethik
- Was ist Datenethik?
- Jetzt aber wirklich: Was ist Datenethik?
- Sollte ich mir über Datenethik Gedanken machen?
- Schlechte Produkte bauen
- Genauigkeit und Fairness abwägen
- Zusammenarbeit
- Interpretierbarkeit
- Empfehlungen
- Tendenziöse Daten
- Datenschutz
- Zusammenfassung
- Weiterführendes Material
- 27 Gehet hin und praktizieret Data Science
- IPython
- Mathematik
- Nicht bei null starten
- NumPy
- pandas
- scikit-learn
- Visualisierung
- R
- Deep Learning
- Finden Sie Daten
- Data Science in der Praxis
- Hacker News
- Feuerwehrautos
- T-Shirts
- Tweets on a Globe
- Und Sie?
- Index
- Über den Autor
- Über die Übersetzer
- Kolophon
System requirements
File format: PDF
Copy protection: Watermark-DRM (Digital Rights Management)
System requirements:
- Computer (Windows; MacOS X; Linux): Use the free software Adobe Reader, Adobe Digital Editions, or any other PDF viewer of your choice (see eBook Help).
- Tablet/Smartphone (Android; iOS): Install the free app Adobe Digital Editions or another reading app for eBooks, e.g., PocketBook (see eBook Help).
- E-reader: Bookeen, Kobo, Pocketbook, Sony, Tolino and many more (only limited: Kindle).
The file format PDF always displays a book page identically on any hardware. This makes PDF suitable for complex layouts such as those used in textbooks and reference books (images, tables, columns, footnotes). Unfortunately, on the small screens of e-readers or smartphones, PDFs are rather annoying, requiring too much scrolling.
This eBook uses Watermark-DRM, a „soft” copy protection. This means that there are no technical restrictions to prevent illegal distribution. However, there is a personalised watermark embedded in the eBook that can be used to identify the purchaser of the eBook in the event of misuse and to provide evidence for legal purposes.
For more information, see our eBook Help page.