Einführung in Data Science

Grundprinzipien der Datenanalyse mit Python
 
 
O'Reilly (Verlag)
  • 2. Auflage
  • |
  • erschienen am 20. November 2019
  • |
  • 401 Seiten
 
E-Book | PDF mit Wasserzeichen-DRM | Systemvoraussetzungen
978-3-96010-336-3 (ISBN)
 
Neuauflage des Standardwerks, jetzt zu Python 3.6

- Der idealer Einstieg in Data Science - didaktisch klug angelegt und gut nachvollziehbar
- Bietet mathematisches Hintergrundwissen und einen Crashkurs für Python
- Enthält neues Material zu Deep Learning, Statistik und Natural Language Processing
Dieses Buch führt Sie in Data Science ein, indem es grundlegende Prinzipien der Datenanalyse erläutert und Ihnen geeignete Techniken und Werkzeuge vorstellt. Sie lernen nicht nur, wie Sie Bibliotheken, Frameworks, Module und Toolkits konkret einsetzen, sondern implementieren sie auch selbst. Dadurch entwickeln Sie ein tieferes Verständnis für die Zusammenhänge und erfahren, wie essenzielle Tools und Algorithmen der Datenanalyse im Kern funktionieren.
Falls Sie Programmierkenntnisse und eine gewisse Sympathie für Mathematik mitbringen, unterstützt Joel Grus Sie dabei, mit den mathematischen und statistischen Grundlagen der Data Science vertraut zu werden und sich Programmierfähigkeiten anzueignen, die Sie für die Praxis benötigen. Dabei verwendet er Python: Die weit verbreitete Sprache ist leicht zu erlernen und bringt zahlreiche Bibliotheken für Data Science mit.
Auflage
  • Deutsch
  • Heidelberg
  • |
  • Deutschland
  • 8,64 MB
978-3-96010-336-3 (9783960103363)
weitere Ausgaben werden ermittelt
Joel Grus ist Forschungsingenieur am Allen Institute for Artificial Intelligence. Zuvor arbeitete er als Softwareentwickler bei Google und als Data Scientist für eine Reihe von Start-ups. Er lebt in Seattle, wo er regelmäßig an Treffen zu Datenanalysethemen teilnimmt. Er schreibt gelegentlich Artikel für sein Blog joelgrus.com und twittert täglich unter @joelgrus ("twitter.com/joelgrus").
1 - Inhalt [Seite 4]
2 - Vorwort zur 2. Auflage [Seite 12]
3 - Vorwort zur 1. Auflage [Seite 16]
4 - Kapitel 1: Einführung [Seite 20]
4.1 - Der Aufstieg der Daten [Seite 20]
4.2 - Was ist Data Science? [Seite 20]
4.3 - Ein motivierendes Szenario: DataSciencester [Seite 22]
4.3.1 - Finden von Schlüsselpersonen [Seite 22]
4.3.2 - Data Scientists, die Sie kennen könnten [Seite 25]
4.3.3 - Gehälter und Erfahrung [Seite 27]
4.3.4 - Bezahlte Nutzerkonten [Seite 30]
4.3.5 - Interessante Themen [Seite 30]
4.3.6 - Weiter geht's! [Seite 32]
5 - Kapitel 2: Ein Crashkurs in Python [Seite 34]
5.1 - Zen und Python [Seite 34]
5.2 - Python installieren [Seite 35]
5.3 - Virtuelle Umgebungen [Seite 35]
5.4 - Formatieren durch Leerzeichen [Seite 37]
5.5 - Module [Seite 38]
5.6 - Funktionen [Seite 39]
5.7 - Strings [Seite 40]
5.8 - Exceptions [Seite 41]
5.9 - Listen [Seite 41]
5.10 - Tupel [Seite 42]
5.11 - Dictionaries [Seite 43]
5.11.1 - defaultdict [Seite 44]
5.12 - Counter [Seite 45]
5.13 - Sets [Seite 46]
5.14 - Kontrollfluss [Seite 46]
5.15 - Wahrheitswerte [Seite 47]
5.16 - Sortieren [Seite 48]
5.17 - List Comprehensions [Seite 49]
5.18 - Automatisierte Tests und assert [Seite 50]
5.19 - Objektorientierte Programmierung [Seite 50]
5.20 - Iterables und Generatoren [Seite 52]
5.21 - Zufall [Seite 54]
5.22 - Reguläre Ausdrücke [Seite 55]
5.23 - Funktionale Programmierung [Seite 56]
5.24 - zip und Entpacken von Argumenten [Seite 56]
5.25 - args und kwargs [Seite 56]
5.26 - Type Annotations [Seite 58]
5.26.1 - Wie man Type Annotations schreibt [Seite 60]
5.27 - Willkommen bei DataSciencester! [Seite 62]
5.28 - Weiterführendes Material [Seite 62]
6 - Kapitel 3: Daten visualisieren [Seite 64]
6.1 - matplotlib [Seite 64]
6.2 - Balkendiagramme [Seite 66]
6.3 - Liniendiagramme [Seite 69]
6.4 - Scatterplots [Seite 70]
6.5 - Weiterführendes Material [Seite 72]
7 - Kapitel 4: Lineare Algebra [Seite 74]
7.1 - Vektoren [Seite 74]
7.2 - Matrizen [Seite 78]
7.3 - Weiterführendes Material [Seite 81]
8 - Kapitel 5: Statistik [Seite 82]
8.1 - Einen einzelnen Datensatz beschreiben [Seite 82]
8.1.1 - Lagemaße [Seite 84]
8.1.2 - Streuung [Seite 86]
8.2 - Korrelation [Seite 87]
8.3 - Das Simpson-Paradoxon [Seite 90]
8.4 - Weitere Fallstricke von Korrelationen [Seite 91]
8.5 - Korrelation und Kausalität [Seite 92]
8.6 - Weiterführendes Material [Seite 93]
9 - Kapitel 6: Wahrscheinlichkeit [Seite 94]
9.1 - Abhängigkeit und Unabhängigkeit [Seite 94]
9.2 - Bedingte Wahrscheinlichkeit [Seite 95]
9.3 - Der Satz von Bayes [Seite 97]
9.4 - Zufallsvariablen [Seite 98]
9.5 - Kontinuierliche Wahrscheinlichkeitsverteilungen [Seite 99]
9.6 - Die Normalverteilung [Seite 100]
9.7 - Der zentrale Grenzwertsatz [Seite 103]
9.8 - Weiterführendes Material [Seite 105]
10 - Kapitel 7: Hypothesen und Schlussfolgerungen [Seite 106]
10.1 - Testen statistischer Hypothesen [Seite 106]
10.2 - Beispiel: Münzwürfe [Seite 106]
10.3 - p-Werte [Seite 109]
10.4 - Konfidenzintervalle [Seite 111]
10.5 - p-Hacking [Seite 112]
10.6 - Beispiel: Durchführen eines A/B-Tests [Seite 113]
10.7 - Bayessche Inferenz [Seite 115]
10.8 - Weiterführendes Material [Seite 118]
11 - Kapitel 8: Die Gradientenmethode [Seite 120]
11.1 - Die Idee hinter der Gradientenmethode [Seite 120]
11.2 - Abschätzen des Gradienten [Seite 121]
11.3 - Den Gradienten verwenden [Seite 124]
11.4 - Auswahl der richtigen Schrittweite [Seite 125]
11.5 - Mit der Gradientenmethode Modelle anpassen [Seite 125]
11.6 - Minibatch und stochastische Gradientenmethode [Seite 127]
11.7 - Weiterführendes Material [Seite 128]
12 - Kapitel 9: Daten sammeln [Seite 130]
12.1 - stdin und stdout [Seite 130]
12.2 - Einlesen von Dateien [Seite 132]
12.2.1 - Grundlagen von Textdateien [Seite 132]
12.2.2 - Dateien mit Feldtrennern [Seite 133]
12.3 - Auslesen von Webseiten [Seite 135]
12.3.1 - Parsen von HTML-Dokumenten [Seite 135]
12.3.2 - Beispiel: Den Kongress im Auge behalten [Seite 137]
12.4 - Verwenden von APIs [Seite 140]
12.4.1 - JSON und XML [Seite 140]
12.4.2 - Eine nicht authentifizierte API verwenden [Seite 141]
12.4.3 - APIs finden [Seite 142]
12.5 - Beispiel: Verwenden der Twitter-APIs [Seite 143]
12.5.1 - Zugriff auf die APIs erhalten [Seite 143]
12.6 - Weiterführendes Material [Seite 147]
13 - Kapitel 10: Arbeiten mit Daten [Seite 148]
13.1 - Erkunden Ihrer Daten [Seite 148]
13.1.1 - Erkunden eindimensionaler Daten [Seite 148]
13.1.2 - Zwei Dimensionen [Seite 151]
13.1.3 - Mehrere Dimensionen [Seite 152]
13.2 - NamedTuples [Seite 153]
13.3 - Datenklassen [Seite 155]
13.4 - Bereinigen und Umformen [Seite 156]
13.5 - Manipulieren von Daten [Seite 158]
13.6 - Umskalieren [Seite 160]
13.7 - Exkurs: tqdm [Seite 162]
13.8 - Hauptkomponentenanalyse [Seite 163]
13.9 - Weiterführendes Material [Seite 169]
14 - Kapitel 11: Maschinelles Lernen [Seite 170]
14.1 - Modellieren [Seite 170]
14.2 - Was ist maschinelles Lernen? [Seite 171]
14.3 - Overfitting und Underfitting [Seite 172]
14.4 - Genauigkeit [Seite 174]
14.5 - Der Kompromiss zwischen Bias und Varianz [Seite 177]
14.6 - Extraktion und Auswahl von Eigenschaften [Seite 178]
14.7 - Weiterführendes Material [Seite 179]
15 - Kapitel 12: k-Nächste-Nachbarn [Seite 180]
15.1 - Das Modell [Seite 180]
15.2 - Beispiel: Der Iris-Datensatz [Seite 182]
15.3 - Der Fluch der Dimensionalität [Seite 185]
15.4 - Weiterführendes Material [Seite 189]
16 - Kapitel 13: Naive Bayes-Klassifikatoren [Seite 190]
16.1 - Ein wirklich primitiver Spam-Filter [Seite 190]
16.2 - Ein anspruchsvollerer Spam-Filter [Seite 191]
16.3 - Implementierung [Seite 193]
16.4 - Das Modell testen [Seite 195]
16.5 - Das Modell verwenden [Seite 196]
16.6 - Weiterführendes Material [Seite 199]
17 - Kapitel 14: Einfache lineare Regression [Seite 200]
17.1 - Das Modell [Seite 200]
17.2 - Anwenden des Gradientenverfahrens [Seite 204]
17.3 - Maximum-Likelihood-Methode [Seite 205]
17.4 - Weiterführendes Material [Seite 205]
18 - Kapitel 15: Multiple Regression [Seite 206]
18.1 - Das Modell [Seite 206]
18.2 - Weitere Annahmen bei der Methode der kleinsten Quadrate [Seite 207]
18.3 - Anpassen des Modells [Seite 208]
18.4 - Interpretation des Modells [Seite 210]
18.5 - Anpassungsgüte [Seite 211]
18.6 - Exkurs: Bootstrapping [Seite 211]
18.7 - Standardfehler von Regressionskoeffizienten [Seite 213]
18.8 - Regularisierung [Seite 215]
18.9 - Weiterführendes Material [Seite 217]
19 - Kapitel 16: Logistische Regression [Seite 218]
19.1 - Die Aufgabe [Seite 218]
19.2 - Die logistische Funktion [Seite 221]
19.3 - Anwendung des Modells [Seite 223]
19.4 - Anpassungsgüte [Seite 224]
19.5 - Support Vector Machines [Seite 226]
19.6 - Weiterführendes Material [Seite 228]
20 - Kapitel 17: Entscheidungsbäume [Seite 230]
20.1 - Was ist ein Entscheidungsbaum? [Seite 230]
20.2 - Entropie [Seite 232]
20.3 - Die Entropie einer Partition [Seite 234]
20.4 - Einen Entscheidungsbaum erzeugen [Seite 235]
20.5 - Verallgemeinerung des Verfahrens [Seite 238]
20.6 - Random Forests [Seite 240]
20.7 - Weiterführendes Material [Seite 241]
21 - Kapitel 18: Neuronale Netzwerke [Seite 242]
21.1 - Perzeptrons [Seite 242]
21.2 - Feed-forward-Netze [Seite 245]
21.3 - Backpropagation [Seite 247]
21.4 - Beispiel: Fizz Buzz [Seite 250]
21.5 - Weiterführendes Material [Seite 253]
22 - Kapitel 19: Deep Learning [Seite 254]
22.1 - Der Tensor [Seite 254]
22.2 - Die Layer-Abstrahierung [Seite 257]
22.3 - Der lineare Layer [Seite 259]
22.4 - Neuronale Netzwerke als Abfolge von Layern [Seite 261]
22.5 - Verlust und Optimierung [Seite 262]
22.6 - Beispiel XOR überarbeitet [Seite 265]
22.7 - Andere Aktivierungsfunktionen [Seite 266]
22.8 - Beispiel: Fizz Buzz überarbeitet [Seite 267]
22.9 - Softmaxes und Kreuz-Entropie [Seite 268]
22.10 - Dropout [Seite 270]
22.11 - Beispiel: MNIST [Seite 271]
22.12 - Modelle sichern und laden [Seite 276]
22.13 - Weiterführendes Material [Seite 277]
23 - Kapitel 20: Clustering [Seite 278]
23.1 - Die Idee [Seite 278]
23.2 - Das Modell [Seite 279]
23.3 - Beispiel: Meet-ups [Seite 281]
23.4 - Die Auswahl von k [Seite 283]
23.5 - Beispiel: Clustern von Farben [Seite 284]
23.6 - Agglomeratives hierarchisches Clustering [Seite 286]
23.7 - Weiterführendes Material [Seite 291]
24 - Kapitel 21: Linguistische Datenverarbeitung [Seite 292]
24.1 - Wortwolken [Seite 292]
24.2 - N-Gramm-Sprachmodelle [Seite 294]
24.3 - Grammatiken [Seite 297]
24.4 - Exkurs: Gibbs-Sampling [Seite 299]
24.5 - Themenmodellierung [Seite 301]
24.6 - Wortvektoren [Seite 306]
24.7 - Rekurrente neuronale Netzwerke [Seite 315]
24.8 - Beispiel: Ein RNN auf Zeichenebene verwenden [Seite 318]
24.9 - Weiterführendes Material [Seite 321]
25 - Kapitel 22: Graphenanalyse [Seite 322]
25.1 - Betweenness-Zentralität [Seite 322]
25.2 - Eigenvektor-Zentralität [Seite 327]
25.2.1 - Matrizenmultiplikation [Seite 327]
25.2.2 - Zentralität [Seite 329]
25.3 - Gerichtete Graphen und PageRank [Seite 331]
25.4 - Weiterführendes Material [Seite 333]
26 - Kapitel 23: Empfehlungssysteme [Seite 334]
26.1 - Manuelle Pflege [Seite 335]
26.2 - Empfehlen, was beliebt ist [Seite 335]
26.3 - Nutzerbasiertes kollaboratives Filtern [Seite 336]
26.4 - Gegenstandsbasiertes kollaboratives Filtern [Seite 339]
26.5 - Matrixfaktorisierung [Seite 341]
26.6 - Weiterführendes Material [Seite 345]
27 - Kapitel 24: Datenbanken und SQL [Seite 346]
27.1 - CREATE TABLE und INSERT [Seite 346]
27.2 - UPDATE [Seite 349]
27.3 - DELETE [Seite 350]
27.4 - SELECT [Seite 351]
27.5 - GROUP BY [Seite 353]
27.6 - ORDER BY [Seite 356]
27.7 - JOIN [Seite 356]
27.8 - Subqueries [Seite 359]
27.9 - Indexstrukturen [Seite 359]
27.10 - Optimierung von Anfragen [Seite 360]
27.11 - NoSQL [Seite 360]
27.12 - Weiterführendes Material [Seite 361]
28 - Kapitel 25: MapReduce [Seite 362]
28.1 - Beispiel: Wörter zählen [Seite 362]
28.2 - Warum MapReduce? [Seite 364]
28.3 - MapReduce verallgemeinert [Seite 365]
28.4 - Beispiel: Statusmeldungen analysieren [Seite 366]
28.5 - Beispiel: Matrizenmultiplikation [Seite 368]
28.6 - Eine Randbemerkung: Combiners [Seite 370]
28.7 - Weiterführendes Material [Seite 370]
29 - Kapitel 26: Datenethik [Seite 372]
29.1 - Was ist Datenethik? [Seite 372]
29.2 - Jetzt aber wirklich: Was ist Datenethik? [Seite 373]
29.3 - Sollte ich mir über Datenethik Gedanken machen? [Seite 373]
29.4 - Schlechte Produkte bauen [Seite 374]
29.5 - Genauigkeit und Fairness abwägen [Seite 375]
29.6 - Zusammenarbeit [Seite 376]
29.7 - Interpretierbarkeit [Seite 377]
29.8 - Empfehlungen [Seite 377]
29.9 - Tendenziöse Daten [Seite 378]
29.10 - Datenschutz [Seite 379]
29.11 - Zusammenfassung [Seite 380]
29.12 - Weiterführendes Material [Seite 380]
30 - Kapitel 27: Gehet hin und praktizieret Data Science [Seite 382]
30.1 - IPython [Seite 382]
30.2 - Mathematik [Seite 383]
30.3 - Nicht bei null starten [Seite 383]
30.3.1 - NumPy [Seite 383]
30.3.2 - pandas [Seite 383]
30.3.3 - scikit-learn [Seite 384]
30.3.4 - Visualisierung [Seite 384]
30.3.5 - R [Seite 385]
30.3.6 - Deep Learning [Seite 385]
30.4 - Finden Sie Daten [Seite 385]
30.5 - Data Science in der Praxis [Seite 386]
30.5.1 - Hacker News [Seite 386]
30.5.2 - Feuerwehrautos [Seite 386]
30.5.3 - T-Shirts [Seite 387]
30.5.4 - Tweets on a Globe [Seite 387]
30.5.5 - Und Sie? [Seite 388]
31 - Index [Seite 390]

Dateiformat: PDF
Kopierschutz: Wasserzeichen-DRM (Digital Rights Management)

Systemvoraussetzungen:

Computer (Windows; MacOS X; Linux): Verwenden Sie zum Lesen die kostenlose Software Adobe Reader, Adobe Digital Editions oder einen anderen PDF-Viewer Ihrer Wahl (siehe E-Book Hilfe).

Tablet/Smartphone (Android; iOS): Installieren Sie die kostenlose App Adobe Digital Editions oder eine andere Lese-App für E-Books (siehe E-Book Hilfe).

E-Book-Reader: Bookeen, Kobo, Pocketbook, Sony, Tolino u.v.a.m. (nur bedingt: Kindle)

Das Dateiformat PDF zeigt auf jeder Hardware eine Buchseite stets identisch an. Daher ist eine PDF auch für ein komplexes Layout geeignet, wie es bei Lehr- und Fachbüchern verwendet wird (Bilder, Tabellen, Spalten, Fußnoten). Bei kleinen Displays von E-Readern oder Smartphones sind PDF leider eher nervig, weil zu viel Scrollen notwendig ist. Mit Wasserzeichen-DRM wird hier ein "weicher" Kopierschutz verwendet. Daher ist technisch zwar alles möglich - sogar eine unzulässige Weitergabe. Aber an sichtbaren und unsichtbaren Stellen wird der Käufer des E-Books als Wasserzeichen hinterlegt, sodass im Falle eines Missbrauchs die Spur zurückverfolgt werden kann.

Weitere Informationen finden Sie in unserer E-Book Hilfe.


Download (sofort verfügbar)

29,99 €
inkl. 7% MwSt.
Download / Einzel-Lizenz
PDF mit Wasserzeichen-DRM
siehe Systemvoraussetzungen
E-Book bestellen