Kapitel 1 : Kumulative Verteilungsfunktion
Statistisch und im Bereich der Wahrscheinlichkeit ist die kumulative Verteilungsfunktion (CDF) einer reellwertigen Zufallsvariablen oder nur die Verteilungsfunktion von , ausgewertet bei , die Wahrscheinlichkeit, dass ein Wert kleiner oder gleich angenommen wird.
Jede einzelne der reellen zahlengestützten Wahrscheinlichkeitsverteilungen, sowohl "gemischt" als auch "diskret" und "stetig", wird eindeutig durch eine rechtsstetige monotone Aufwärtsfunktion (eine càdlàg-Funktion) identifiziert, die erfüllt und ist.
Wenn die Verteilung skalar und stetig ist, ergibt sich die Fläche unter der Wahrscheinlichkeitsdichtefunktion von minus unendlich bis .
Die Verteilungen von multivariaten Zufallsvariablen können auch mit Hilfe von kumulativen Verteilungsfunktionen angegeben werden.
Die kumulative Verteilungsfunktion einer reellwertigen Zufallsvariablen ist die Funktion, die gegeben ist durch: p.
77
wobei die rechte Seite die Wahrscheinlichkeit darstellt, dass die Zufallsvariable einen Wert kleiner oder gleich annimmt.
Die Wahrscheinlichkeit, die im halbgeschlossenen Intervall liegt , wobei , ist also: p.
84
Das, was oben definiert ist, Indikator für Gleichheit oder Ungleichheit, "=", ist ein formelles Treffen, kein Begriff, der üblicherweise verwendet wird (z.
Das Symbol "") wird häufig in literarischen Werken aus Ungarn verwendet, für diskrete Verteilungen ist diese Divergenz jedoch entscheidend.
Diese Regel ist entscheidend für die Interpretation von Binomial- und Poisson-Verteilungstabellen.
Darüber hinaus stützen sich wichtige Formeln wie die Inversionsformel von Paul Lévy für die charakteristische Funktion ebenfalls auf die Formulierung "kleiner als oder gleich".
Bei der Behandlung mehrerer Zufallsvariablen etc.
Tiefgestellte Zeichen werden aus den passenden Buchstaben gebildet, während es in Anbetracht der Möglichkeit, immer nur einen behandeln zu müssen, üblich ist, den Index wegzulassen.
Es ist üblich, ein Kapital für eine kumulative Verteilungsfunktion zu verwenden, im Gegensatz zu den Kleinbuchstaben, die für Wahrscheinlichkeitsdichtefunktionen und Wahrscheinlichkeitsmassenfunktionen verwendet werden.
Dies gilt auch für die Diskussion über generische Verteilungen; bestimmte Verteilungen haben jedoch ihre eigene Standardnotation, z. B. verwendet die Normalverteilung und anstelle von und .
Die Differenzierung der kumulativen Verteilungsfunktion mit dem fundamentalen Theorem der Infinitesimalrechnung ergibt die Wahrscheinlichkeitsdichtefunktion einer stetigen Zufallsvariablen; d.h.
gegeben ,
bis das Derivat aufhört zu existieren.
Die CDF einer kontinuierlichen Zufallsvariablen kann als Integral ihrer Wahrscheinlichkeitsdichtefunktion wie folgt ausgedrückt werden:: p.
86
Im Falle einer Zufallsvariablen , deren Verteilung eine diskrete Komponente bei einem Wert von
Wenn bei stetig ist , ist dies gleich Null und es gibt keine diskrete Komponente bei .
Jede kumulative Verteilungsfunktion ist nicht abnehmend: p.
79, was es zu einer càdlàg-Funktion macht.
Außerdem
Jede Funktion, die diese vier Bedingungen erfüllt, ist eine kumulative Verteilungsfunktion (CDF) in dem Sinne, dass jede Zufallsvariable in Bezug auf sie ausgedrückt werden kann.
Wenn eine rein diskrete Zufallsvariable ist, dann erreicht sie Werte mit Wahrscheinlichkeit , und die CDF von wird an den Punkten diskontinuierlich sein :
Wenn die CDF einer reellwertigen Zufallsvariablen stetig ist, dann ist sie eine stetige Zufallsvariable; ist sie außerdem absolut stetig, dann existiert eine Lebesgue-integrierbare Funktion, so dass
für alle reellen Zahlen und .
Die Funktion ist gleich der Ableitung von fast überall und wird als Wahrscheinlichkeitsdichtefunktion der Verteilung von bezeichnet .
Wenn die endliche L1-Norm hat, d.h. die Erwartung von endlich ist, dann liefert das Riemann-Stieltjes-Integral die Vorhersage.
und für alle ,
gemäß der Abbildung.
In diesem Rahmen haben wir
Zur Veranschaulichung: Nehmen wir an, dass sally gleichmäßig auf dem Einheitsintervall verteilt ist .
Dann ist die CDF von gegeben durch
Nehmen Sie stattdessen an, dass nur die diskreten Werte 0 und 1 mit ungefähr der gleichen Rate verwendet werden.
Dann ist die CDF von gegeben durch
Angenommen, ist exponentiell verteilt.
Dann ist die CDF von gegeben durch
Dabei ist ? > 0 der Parameter der Verteilung, der allgemein als Kurskonstante bezeichnet wird.
Angenommen, ist normalverteilt.
Dann ist die CDF von gegeben durch
Hier ist der Parameter der Mittelwert oder die Erwartung der Verteilung und ihre Standardabweichung.
Die Standardnormaltabelle, auch als Einheitsnormaltabelle oder Z-Tabelle bezeichnet, ist eine in der statistischen Praxis häufig verwendete Darstellung der kumulativen Verteilungsfunktion (CDF) der Normalverteilung.
Angenommen, es ist binomialverteilt.
Dann ist die CDF von gegeben durch
Hier ist die Erfolgswahrscheinlichkeit und die Funktion bezeichnet die diskrete Wahrscheinlichkeitsverteilung der Anzahl der Erfolge in einer Abfolge unabhängiger Experimente und ist die "Untergrenze" unter , d.h.
die größte ganze Zahl kleiner oder gleich .
Es kann manchmal aufschlussreich sein, zu untersuchen, wie oft die Zufallsvariable größer als ein Schwellenwert ist. Die Definition der Tail-Verteilung, die auch als komplementäre kumulative Verteilungsfunktion (ccdf) bezeichnet wird, lautet wie folgt:
Dies kann z.B. für das Testen von Hypothesen in der Statistik verwendet werden, da die Wahrscheinlichkeit, eine Teststatistik zu sehen, die mindestens so extrem ist wie die gesehene, das ist, was der einseitige p-Wert misst.
Unter der Annahme der statistischen Signifikanz, T, Verteilung, die stetig ist, wird der einseitige p-Wert einfach durch die ccdf gegeben: für einen beobachteten Wert der Teststatistik
Theoretisch wird die Überlebensanalyse als Überlebensfunktion bezeichnet und als bezeichnet , obwohl der Ausdruck Zuverlässigkeitsfunktion in der Ingenieurgemeinschaft weit verbreitet ist.
Eigenschaften
Die Markovsche Ungleichung besagt, dass für jede stetige Zufallsvariable, die eine Erwartung hat und nicht negativ ist,
Als , und in der Tat , vorausgesetzt, dass das endlich ist. Beweis:Angenommen, hat eine Dichtefunktion für alle
Nach weiterer Realisierung
, die Neuordnung von Konzepten,
wie behauptet.
eine Wahrscheinlichkeitsverteilung mit einer zugehörigen Erwartung,
da der zweite Term für Zufallsvariablen, die nicht negativ sind, immer Null ist. Das ist dasselbe, als würde man sagen: "Wenn die Zufallsvariable nur nicht-negative ganzzahlige Werte akzeptieren kann, dann
Während der Plot einer kumulativen Verteilung oft eine S-ähnliche Form hat, ist die gefaltete kumulative Verteilung, auch bekannt als Gebirgsdiagramm, ein weiteres Beispiel, Dies kehrt die obere Hälfte des Graphen um, d.h.
wobei die Indikatorfunktion bezeichnet und der zweite Summand die Überlebensfunktion ist, wobei ein duales Skalensystem verwendet wird, zwei, eine für die Steigung und eine für den Fall.
Der Median wird in diesem Diagrammstil hervorgehoben, die Ausbreitung (genauer gesagt, Medianabweichung, Schiefe und Streuung sind alles Begriffe, die sich auf die Streuung von Daten oder die Verteilung empirischer Ergebnisse beziehen.
Wenn die CDF F streng ansteigend und stetig ist, dann ist die eindeutige reelle Zahl so, dass .
Die Quantilsfunktion, oder ihre Umkehrung, die inverse Verteilungsfunktion, ist so definiert.
Einige Verteilungen haben keine eindeutige Umkehrung (z. B. if for all , was dazu führt, konstant zu sein).
Ein gängiges Werkzeug ist jedoch die inverse Wahrscheinlichkeitsverteilungsfunktion, d.h.
Beispiel 1: Der Median ist .
Beispiel 2: Setzen Sie .
Dann nennen wir das 95. Perzentil.
Bei der Definition der verallgemeinerten inversen Verteilungsfunktion behält die inverse cdf viele ihrer nützlichen Eigenschaften bei:
ist nicht abnehmend
wenn und nur wenn
Wenn hat eine Verteilung, dann wird als verteilt .
Dies ist eine Voraussetzung für die Sampling-Methode der inversen Transformation, die zur Erzeugung von Zufallszahlen verwendet wird.
Wenn es sich um eine Sammlung von unabhängigen -verteilten Zufallsvariablen handelt, die auf demselben Stichprobenraum definiert sind, dann gibt es Zufallsvariablen, die als und mit der Wahrscheinlichkeit 1 für alle verteilt sind .
Die Kehrung der kumulativen Verteilungsfunktion (cdf) kann verwendet werden, um von der Gleichverteilung auf andere Verteilungen zu extrapolieren.
Die kumulative Verteilungsfunktion, die die Stichprobenpunkte erzeugt hat, wird über die empirische Verteilungsfunktion geschätzt. Sie nähert sich dieser zugrunde liegenden Verteilung mit einer Wahrscheinlichkeit von 1. Die Konvergenz der empirischen Verteilungsfunktion zur zugrunde liegenden kumulativen Verteilungsfunktion wurde auf verschiedene Weise quantifiziert.
Die gemeinsame kumulative Verteilungsfunktion kann auch definiert werden, wenn mit mehreren Zufallsvariablen gleichzeitig gearbeitet wird.
Für ein Paar von Zufallsvariablen ist die gemeinsame CDF beispielsweise gegeben durch:...