Schweitzer Fachinformationen
Wenn es um professionelles Wissen geht, ist Schweitzer Fachinformationen wegweisend. Kunden aus Recht und Beratung sowie Unternehmen, öffentliche Verwaltungen und Bibliotheken erhalten komplette Lösungen zum Beschaffen, Verwalten und Nutzen von digitalen und gedruckten Medien.
Über den Autor 9
Einführung 21
Teil I: Erste Schritte bei der statistischen Analyse mit R 25
Kapitel 1: Daten, Statistiken und Entscheidungen 27
Kapitel 2: R: Was R kann und wie R das macht 37
Teil II: Daten beschreiben 69
Kapitel 3: Daten grafisch darstellen 71
Kapitel 4: Suchen Sie Ihre Mitte 109
Kapitel 5: Abweichungen vom Durchschnitt 119
Kapitel 6: Standards und Wertungen kennenlernen 127
Kapitel 7: Alles zusammenfassen 137
Kapitel 8: Was ist normal? 157
Teil III: Rückschlüsse aus Daten ziehen 175
Kapitel 9: Die Sache mit dem Vertrauen: Schätzung 177
Kapitel 10: Ein-Stichproben-Hypothesentest 191
Kapitel 11: Zwei-Stichproben-Hypothesentest 217
Kapitel 12: Mehr als zwei Stichproben testen 243
Kapitel 13: Komplexere Tests 267
Kapitel 14: Lineare, multiple und allgemeine lineare Regression 287
Kapitel 15: Korrelation: Aufstieg und Fall von Zusammenhängen 321
Kapitel 16: Kurvenförmige Regression: Wenn Beziehungen kompliziert werden 341
Teil IV: Umgang mit der Wahrscheinlichkeit 365
Kapitel 17: Einführung in die Wahrscheinlichkeit 367
Kapitel 18: Einführung in die statistische Modellierung 387
Teil V: Der Top-Ten-Teil 407
Kapitel 19: (Fast) zehn nützliche R-Onlineressourcen 409
Abbildungsverzeichnis 413
Stichwortverzeichnis 421
Kapitel 1
IN DIESEM KAPITEL
Statistik? Dabei geht es doch vor allem um das Berechnen von Werten mithilfe von geheimnisvoll anmutenden Formeln, oder? Nicht wirklich. Im Rahmen der Statistik geht es vor allem darum, Entscheidungen zu fällen. Natürlich ist auch das Rechnen wichtig, jedoch besteht das primäre Ziel darin, diese Zahlen zu verwenden, um Entscheidungen zu treffen. Statistiker schauen sich Daten an und fragen sich, was diese Zahlen aussagen. Welche Trends zeichnen sich ab? Welche Vorhersagen können wir treffen? Welche Schlüsse können wir ziehen?
Um die Bedeutung der Daten zu verstehen und um diese Fragen zu beantworten, haben Statistiker eine beeindruckende Vielfalt an Analysetools entwickelt.
Was die Berechnungen angeht: Falls Sie diese mit Stift und Papier (oder mithilfe eines Taschenrechners) durchführen müssten, wären Sie vermutlich schnell entmutigt. Die durchzuführenden Berechnungen sind sehr umfangreich, und es würden sich schnell Fehler einschleichen. Softwaretools wie R unterstützen Sie bei der Rechenarbeit. Als Dreingabe kann R helfen, statistische Konzepte zu verstehen.
R wurde speziell für statistische Analysen entwickelt. Diese Programmiersprache implementiert viele der analytischen Werkzeuge, die Statistiker für das Fällen von Entscheidungen entwickelt haben. Ich habe dieses Buch geschrieben, um zu zeigen, wie Sie diese Werkzeuge bei Ihrer Arbeit einsetzen können.
Die analytischen Werkzeuge, die R bereitstellt, basieren auf statistischen Konzepten, die ich im weiteren Verlauf dieses Kapitels vorstelle. Wie Sie sehen werden, basieren diese Konzepte auf dem gesunden Menschenverstand.
Wenn Sie am Wahlabend fernsehen, wissen Sie, dass eines der wichtigen Ereignisse die Veröffentlichung der Prognose ist. Diese wird nach der Schließung der Wahllokale und lange, bevor die Stimmen ausgezählt sind, bekannt gegeben. Meistens liegen die Prognose und das Wahlergebnis sehr nahe beieinander. Woran liegt das?
Ganz einfach: Eine Stichprobe von Wählern wird nach der Stimmabgabe gefragt, wen oder welche Partei sie gewählt haben. Vorausgesetzt, dass die Wähler ehrlich sagen, wen sie gewählt haben, und vorausgesetzt, die Stichprobe ist für die Grundgesamtheit (oder Population) repräsentativ, können die Analysten aufgrund der Stichprobendaten Rückschlüsse auf die Grundgesamtheit der Wähler ziehen.
Das ist kurz das, worum es bei der Statistik geht: aufgrund der Daten von Stichproben Rückschlüsse auf die Grundgesamtheit zu ziehen, aus der die Stichprobe entnommen wurde.
Noch ein Beispiel. Nehmen wir einmal an, Ihre Aufgabe besteht darin, die durchschnittliche Größe aller zehn Jahre alten Kinder in den USA herauszufinden. Sie verfügen jedoch weder über die Zeit noch über die finanziellen Mittel, die Größe jedes einzelnen Kinds zu messen. Stattdessen messen Sie die Größe einer repräsentativen Stichprobe und berechnen dann den Mittelwert. Sie können dann den Mittelwert der Stichprobe zur Schätzung des Mittelwerts der Grundgesamtheit heranziehen.
Das Schließen auf den Mittelwert einer Grundgesamtheit ist eine Art Inferenz, die Statistiker aus Stichprobendaten ziehen. Die Inferenz wird im Abschnitt »Inferenzstatistik: Testen von Hypothesen« ausführlicher beschrieben.
Einige Begriffe, die Sie kennen sollten: Die Eigenschaften einer Grundgesamtheit (wie der Mittelwert einer Grundgesamtheit) werden als Parameter bezeichnet und die Eigenschaften einer Stichprobe (wie der Mittelwert einer Stichprobe) als Statistiken. Wenn Sie sich bei Ihren Betrachtungen auf die Eigenschaften der Stichproben beschränken (wie die Größe der Kinder in Ihrer Stichprobe), sind Ihre Statistiken deskriptiv oder beschreibend. Wenn Sie Ihren Horizont erweitern und sich mit Grundgesamtheiten beschäftigen, sind Ihre Statistiken inferenziell.
Einige Schreibweisen, die Sie kennen sollten: Statistiker verwenden griechische Buchstaben (µ, s, ?) für Parameter und lateinische Buchstaben (, s, r) für Statistiken. In Abbildung 1.2 sind die Beziehungen zwischen Grundgesamtheiten und Stichproben sowie zwischen Parametern und Statistiken dargestellt.
Abbildung 1.1: Die Beziehung zwischen Grundgesamtheit, Stichprobe, Parametern und Statistiken
Eine Variable ist etwas, das mehr als einen Wert annehmen kann - wie beispielsweise Ihr Alter, der Wert des Dollars in Euro oder die Anzahl der Spiele, die Ihre Lieblingsfußballmannschaft gewonnen hat. Etwas, das nur einen Wert annehmen kann, wird Konstante genannt. Wissenschaftler behaupten, dass die Lichtgeschwindigkeit eine Konstante ist. Wir verwenden die Konstante p, um beispielsweise den Flächeninhalt eines Kreises zu berechnen.
Für Statistiker sind zwei Arten von Variablen wichtig: unabhängige Variablen und abhängige Variablen. Beide Variablen tauchen in jeder Studie und Untersuchung auf, und Statistiker bewerten die Beziehung zwischen beiden.
Stellen Sie sich beispielsweise vor, es gebe eine neue computerbasierte Trainingsmethode, mit der der IQ einer Person verbessert werden kann. Wie würde ein Forscher untersuchen, ob diese Methode hält, was sie verspricht? Dazu würde er zuerst eine Stichprobe von Personen nach dem Zufallsprinzip in zwei Gruppen einteilen. Eine Gruppe verwendet die neue Trainingsmethode und die andere würde eine andere, ebenfalls computerbasierte Aktivität verwenden, beispielsweise das Lesen eines Texts auf einer Website. Der Forscher misst vor und nach dem Durchführen der jeweiligen Aktivität den IQ jeder Person. Was passiert dann? Dies beschreibe ich in einem der nächsten Abschnitte (»Inferenzstatistik: Testen von Hypothesen«).
Hier geht es zunächst darum, dass Sie wissen, dass die unabhängige Variable in diesem Beispiel die jeweilige Aktivität ist. Die beiden möglichen Werte dieser Variablen sind IQ-Training und Text lesen. Die abhängige Variable ist die Änderung des IQ, wie er vor und nach der jeweiligen Aktivität gemessen wurde.
Die abhängige Variable ist das, was der Forscher misst. In einem Experiment ist eine unabhängige Variable das, was der Forscher manipuliert, was er ändert. In anderen Zusammenhängen kann der Forscher eine unabhängige Variable nicht manipulieren. Stattdessen notiert er die sich natürlich ergebenden Werte der unabhängigen Variablen und wie sich diese auf eine abhängige Variable auswirken.
Grundsätzlich geht es darum, herauszufinden, ob Änderungen der unabhängigen Variablen mit Änderungen der abhängigen Variablen zusammenhängen.
In den Beispielen in diesem Buch erfahren Sie, wie Sie mit R verschiedene Eigenschaften von Wertegruppen berechnen oder wie Sie Wertegruppen vergleichen können. Denken Sie immer daran, dass ich mit einer Wertegruppe stets die Werte einer abhängigen Variablen meine.
Es gibt vier verschiedene Arten von Daten. Wenn Sie mit einer Variablen arbeiten, hängt es von der Datenart ab, wie Sie mit der Variablen arbeiten. Die erste Art wird als nominalskalierte oder nominale Daten bezeichnet. Wenn eine Zahl eine nominale Variable ist, handelt es sich lediglich um einen Namen. Der Zahlenwert bedeutet nichts. Ein gutes Beispiel hierfür ist die Zahl auf dem Trikot eines Sportlers. Sie dient lediglich der Identifizierung des Sportlers, um ihn von den anderen Mitgliedern seines Teams unterscheiden zu können. Die Zahl ist kein Hinweis auf das Können des Sportlers.
Als Nächstes kommen die ordinalskalierten oder ordinalen Daten. Bei ordinalen Daten geht es um Ordnung. Die Zahlen enthalten eine Bedeutung, die über die bloße Identifizierung hinausgeht. Wenn ich Sie bitte, zehn Lebensmittel zu bewerten, und zwar angefangen bei dem, das Sie am meisten mögen (eins), bis zu dem, das Sie am wenigsten mögen (zehn), dann haben wir einen Satz ordinalskalierter Daten.
Jedoch kann es sein, dass bei den Lebensmitteln die Differenz zwischen Ihrem dritten und vierten Platz nicht mit der Differenz zwischen Ihrem neunten und letzten Platz identisch ist. Was bei diesem Datentyp fehlt, ist das Konzept von gleichen Intervallen oder gleichen Differenzen.
Intervallskalierte Daten verwenden identische Differenzen. Temperaturangaben in Celsius und Fahrenheit sind Beispiele für intervallskalierte Daten. Die Differenz zwischen 10 °C und 20 °C ist dieselbe wie die Differenz zwischen 30 °C und 40 °C. Jedes Grad ist somit ein Intervall.
Menschen sind oft überrascht, wenn sie hören, dass 20 °C nicht doppelt so warm wie 10 °C ist. Um eine Aussage...
Dateiformat: ePUBKopierschutz: Adobe-DRM (Digital Rights Management)
Systemvoraussetzungen:
Das Dateiformat ePUB ist sehr gut für Romane und Sachbücher geeignet – also für „fließenden” Text ohne komplexes Layout. Bei E-Readern oder Smartphones passt sich der Zeilen- und Seitenumbruch automatisch den kleinen Displays an. Mit Adobe-DRM wird hier ein „harter” Kopierschutz verwendet. Wenn die notwendigen Voraussetzungen nicht vorliegen, können Sie das E-Book leider nicht öffnen. Daher müssen Sie bereits vor dem Download Ihre Lese-Hardware vorbereiten.Bitte beachten Sie: Wir empfehlen Ihnen unbedingt nach Installation der Lese-Software diese mit Ihrer persönlichen Adobe-ID zu autorisieren!
Weitere Informationen finden Sie in unserer E-Book Hilfe.