Kapitel 2 : Statistisches Modell
Ein statistisches Modell ist ein mathematisches Modell, das eine Reihe statistischer Annahmen umfasst, die sich auf die Generierung von Stichprobendaten (und äquivalenten Daten aus einer breiteren Grundgesamtheit) auswirken. Dadurch wird ein statistisches Modell als statistisches Modell bezeichnet. Ein statistisches Modell ist eine Darstellung des Prozesses der Datengenerierung, die häufig in einer deutlich idealisierten Form dargestellt wird. Der Begriff "probabilistisches Modell" ist derjenige, der insbesondere bei der Diskussion von Wahrscheinlichkeiten verwendet werden sollte. Jeder einzelne statistische Hypothesentest und jeder einzelne statistische Schätzer wird durch die Verwendung statistischer Modelle erreicht. Im weiteren Sinne sind statistische Modelle ein integraler Bestandteil des Fundaments, auf dem die statistische Inferenz aufgebaut ist. In den meisten Fällen ist ein statistisches Modell definiert als eine mathematische Beziehung, die zwischen einer oder mehreren Zufallsvariablen und anderen Variablen besteht, die nicht zufällig sind. Die Formulierung "eine formale Darstellung einer Theorie" ist das, was Herman Adèr mit einem Zitat von Kenneth Bollen als die Definition eines statistischen Modells beschreibt.
Informell kann man sich ein statistisches Modell als eine statistische Annahme (oder einen Satz statistischer Annahmen) vorstellen, die eine bestimmte Qualität besitzt. Diese Eigenschaft besteht darin, dass die Annahme es uns ermöglicht, die Wahrscheinlichkeit eines Ereignisses zu berechnen. Nehmen Sie zur Veranschaulichung ein Paar Standardwürfel mit sechs Seiten. In diesem Abschnitt werden wir zwei verschiedene statistische Hypothesen über den Würfel untersuchen.
Die anfängliche Annahme im Zusammenhang mit Statistiken ist, dass die Wahrscheinlichkeit, dass jedes Gesicht (1, 2, 3, 4, 5 und 6) auf jedem der Würfel erscheint, 1/6 beträgt. Dies ist die erste statistische Annahme. Wir können die Wahrscheinlichkeit, dass beide Würfel einen Wert von 5 ergeben, mit der folgenden Formel bestimmen: 1/6 multipliziert mit 1/6 ergibt ┼1/36. Im weiteren Sinne sind wir in der Lage, die Wahrscheinlichkeit eines Ereignisses zu berechnen, z. B. (1 und 2), (3 und 3) oder (5 und 6). Die alternative statistische Annahme ist, dass die Wahrscheinlichkeit, dass die Gesicht 5 auf jedem der Würfel erscheint, 1/8 beträgt. Das liegt daran, dass die Würfel gewichtet sind, was die Wahrscheinlichkeit genau 1/8 ergibt. Wir können die Wahrscheinlichkeit, dass beide Würfel einen Wert von 5 ergeben, mit der folgenden Formel bestimmen: 1/8 multipliziert mit 1/8 ergibt ┼1/64. Aufgrund der Tatsache, dass die Wahrscheinlichkeiten der anderen Gesichter unbekannt sind, können wir die Wahrscheinlichkeit eines anderen Ereignisses, das nicht als trivial angesehen werden sollte, nicht bestimmen.
Die allererste statistische Annahme ist das, was ein statistisches Modell ausmacht. Dies liegt daran, dass wir in der Lage sind, die Wahrscheinlichkeit eines von uns gewählten Ereignisses einfach mit der Annahme zu berechnen. Da wir nicht in der Lage sind, die Wahrscheinlichkeit jedes einzelnen Ereignisses allein mit der Annahme zu berechnen, stellt die alternative statistische Annahme kein statistisches Modell dar. In der obigen Abbildung ist das Schätzen der Wahrscheinlichkeit eines Ereignisses ein einfacher Prozess, wenn die erste Annahme verwendet wird. In anderen Situationen kann die Berechnung jedoch schwierig oder sogar unerschwinglich sein (z. B. kann sie Millionen von Jahren der Verarbeitung erfordern). Damit eine Annahme als statistisches Modell betrachtet werden kann, ist es in Ordnung, wenn es schwierig ist, die Berechnung durchzuführen. Es ist nicht erforderlich, dass die Berechnung durchführbar ist; Es genügt, wenn sie theoretisch tragfähig ist.
Anders ausgedrückt: Ein statistisches Modell ist ein Paar, das mathematische Terminologie verwendet.
Es ist S,
P
Der Anzeigestil ist S, während die mathematische Schreibweise P ist. In diesem Fall
S.
S ist der Darstellungsstil. ist die Sammlung von Beobachtungen, die gemacht werden konnten, auch als Stichprobenraum bezeichnet, und
P
{\displaystyle {a mathematical {P}}} besteht aus einer Sammlung von Wahrscheinlichkeitsverteilungen auf
S.
S ist der Darstellungsstil. Das Display
P
{\displaystyle {ein mathematisches {P}}}, das alle Modelle umfasst, die für machbar gehalten werden. In den meisten Fällen wird dieser Satz wie folgt parametrisiert:
P
entspricht
Ein.
Ein.
: ? ist eine Teilmenge von Ø
{\displaystyle {\mathcal {P}}=\{F_{\theta }:\theta \in \Theta \}}. Das Display
Ein.
Mit dem Darstellungsstil \Theta} wird eine Definition für die Parameter des Modells bereitgestellt. Für den Fall, dass eine Parametrisierung so konzipiert ist, dass unterschiedliche Parameterwerte unterschiedliche Verteilungen ergeben, d.h.
Ein.
Ein.
1.
=
Ein.
Ein.
2.
??
Ein.
1.
=
Ein.
2.
Die Gleichung F_{\theta _{1}}=F_{\theta _{2}}Pfeil nach rechts \theta _{1}=\theta _{2}} wird wie folgt dargestellt: Die Abbildung gilt als injektiv, was bedeutet, dass sie als erkennbar angegeben wird.
Das Modell kann unter bestimmten Umständen auch komplizierter sein.
Stellen Sie sich folgendes Szenario vor: Wir haben eine Grundgesamtheit von Kindern, und das Alter der Kinder ist gleichmäßig über die Grundgesamtheit verteilt. Wenn wir zum Beispiel wissen, dass ein Kind sieben Jahre alt ist, wirkt sich das auf die Wahrscheinlichkeit aus, dass das Kind 1,5 Meter groß ist. Dies liegt daran, dass die Größe eines Kindes eine Zufallsvariable ist, die mit dem Alter des Kindes zusammenhängt. Im Folgenden finden Sie ein Beispiel für ein lineares Regressionsmodell, das zum Formalisieren dieser Beziehung verwendet werden kann:
Die Gleichung heighti = b0 + b1agei + ei ist ein mathematischer Ausdruck, bei dem b0 den Schnittpunkt, b1 einen Parameter darstellt, der mit dem Alter multipliziert wird, um eine Vorhersage der Körpergröße zu erzeugen, ei den Fehlerterm und i das Kind darstellt. Dies deutet darauf hin, dass das Alter zur Vorhersage der Körpergröße verwendet werden kann, jedoch mit einem gewissen Grad an Fehlern.
Damit ein Modell als akzeptabel angesehen werden kann, muss es mit allen Datenpunkten konsistent sein. Daher kann eine gerade Linie (heighti = b0 + b1agei) nicht als Modell der Daten akzeptiert werden, es sei denn, sie passt genau zu allen Datenpunkten, was bedeutet, dass alle Datenpunkte perfekt auf der Linie liegen. Um sicherzustellen, dass das Modell mit allen Datenpunkten konsistent ist, ist es notwendig, den Fehlerterm, der durch das Symbol ei gekennzeichnet ist, in die Gleichung einzubeziehen. Um statistische Schlussfolgerungen zu ziehen, ist es zunächst notwendig, zunächst bestimmte Wahrscheinlichkeitsverteilungen für das ei anzunehmen. Als Beispiel könnten wir annehmen, dass die ei-Verteilungen völlig unabhängig von Gauß sind, mit einem Mittelwert von Null. b0, b1 und die Varianz der Gaußschen Verteilung wären die drei Parameter, die in diesem speziellen Szenario in das Modell einbezogen würden. Eine formale Spezifikation des Modells kann mit der Form () vorgenommen werden.
Es ist S,
P
Der Anzeigestil ist S, während die mathematische Schreibweise P ist.) auf folgende Weise. Die Fläche der Probe,
S.
S ist der Darstellungsstil. Die Menge aller möglichen Paare (Alter, Größe) besteht aus unserem Modell. Für jeden erdenklichen Wert von
Ein.
Das Symbol \theta (Darstellungsstil)Der Ausdruck "(b0, b1, s2)" wird verwendet, um eine Verteilung auf
S.
S ist der Anzeigestil.bedeutet, dass die Verteilung bestimmt wird durch
Ein.
Ein.
Im Anzeigestil von F_\\theta }}wenn nicht,
Ein.
Bei einem Darstellungsstil von \Theta} ist die Sammlung aller potentiellen Varianten von
Ein.
Das Symbol \theta (Anzeigestil)in diesem Fall
P
entspricht
Ein.
Ein.
: ? ist eine Teilmenge von Ø
{\displaystyle {\mathcal {P}}=\{F_{\theta }:\theta \in \Theta \}}. (Die Parametrisierung ist leicht zu erkennen, und dies kann relativ einfach überprüft werden.)
Für die Zwecke dieser Abbildung wird das Modell erstellt, indem (1)
S.
S ist der Darstellungsstil. sowie (2) die Feststellung einiger Annahmen, die für die
P
{\displaystyle {a mathematisch {P}}}.. Beide Annahmen werden getroffen: Die erste ist, dass die Höhe durch eine lineare Funktion des Alters approximiert werden kann, und die zweite ist, dass die Fehler in der Approximation i.i.d. Gauß verteilt sind. Die Annahmen reichen aus, um
P
{\displaystyle {a mathematical {P}}}es ist das, wozu sie verpflichtet sind.
Ein mathematisches Modell, das zu einer bestimmten Kategorie gehört, wird als statistisches Modell bezeichnet. Eines der Merkmale, die ein statistisches Modell von anderen Arten von mathematischen Modellen unterscheidet, ist, dass es nicht deterministisch ist. Daher haben in einem statistischen Modell, das durch die Verwendung mathematischer Gleichungen charakterisiert wird, einige der Variablen keine bestimmten Werte; vielmehr haben sie Wahrscheinlichkeitsverteilungen; Mit anderen Worten, einige der Variablen sind...