Code Beispiele für Woche 10

Statistische Grundlagen der linearen Regression

\(\beta_0\) und \(\beta_1\): Grundlagen

Definition

In der linearen Regression repräsentieren \(\beta_0\) und \(\beta_1\) die Koeffizienten des linearen Modells, das die Beziehung zwischen einer unabhängigen Variable \(X\) und einer abhängigen Variable \(Y\) beschreibt.

Das Modell wird allgemein als \(Y_{i} = \beta_{0} + \beta_{1} \cdot X_{i} + \epsilon_{i}\) für alle \(i=1,2,...,n\) formuliert.

Hierbei ist:

  • \(Y_{i}\) der Wert der abhängigen Variable für den Datenpunkt \(i\),
  • \(X_{i}\) der Wert der unabhängigen Variable für den Datenpunkt \(i\),
  • \(\beta_{0}\) der Achsenabschnitt,
  • \(\beta_{1}\) die Steigung der Geraden,
  • \(\epsilon_{i}\) das Residuum für den Datenpunkt \(i\).

Funktion und Formel zur Berechnung

Die Schätzer \(\hat{\beta}_0\) und \(\hat{\beta}_1\) werden typischerweise mittels der Methode der kleinsten Quadrate berechnet, um die Summe der quadrierten Abweichungen zwischen den beobachteten und den durch das Modell vorhergesagten Werten zu minimieren. Die Formeln zur Berechnung sind:

\[\hat{\beta}_1 = \frac{\sum{(X_i - \bar{X})(Y_i - \bar{Y})}}{\sum{(X_i - \bar{X})^2}}\]

\[\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{X}\]

wobei \(\bar{X}\) und \(\bar{Y}\) die Mittelwerte der unabhängigen bzw. abhängigen Variablen sind.

Konfidenzintervalle für \(\beta_0\) und \(\beta_1\)

Definition

Konfidenzintervalle (KI) für \(\beta_0\) und \(\beta_1\) sind statistische Bereiche, innerhalb derer die wahren Werte der Koeffizienten mit einer bestimmten Wahrscheinlichkeit (z.B. 95%) erwartet werden.

Funktion und Formel zur Berechnung

Das KI basiert auf der Standardabweichung der Schätzer und dem t-Verteilungswert für das gewünschte Konfidenzniveau. Die Formeln zur Berechnung des KI sind:

\(KI = \left [ \hat{\beta_{0}} - t_{n-2;0.975} \cdot s_{\hat{\beta_{0}}} ; \hat{\beta_{0}} + t_{n-2;0.975} \cdot s_{\hat{\beta_{0}}} \right ]\)    bzw.    \(KI = \left [ \hat{\beta_{1}} - t_{n-2;0.975} \cdot s_{\hat{\beta_{1}}} ; \hat{\beta_{1}} + t_{n-2;0.975} \cdot s_{\hat{\beta_{1}}} \right ]\)

\(KI\): Konfidenzintervall, ein statistischer Bereich, innerhalb dessen wir erwarten, dass der wahre Wert der Koeffizienten \(\beta_0\) oder \(\beta_1\) mit einer bestimmten Wahrscheinlichkeit (hier 95%) liegt.

\(\hat{\beta_{0}}\): Geschätzter Achsenabschnitt der Regressionslinie, repräsentiert den erwarteten Wert von \(Y\), wenn \(X = 0\).

\(\hat{\beta_{1}}\): Geschätzte Steigung der Regressionslinie, zeigt den erwarteten Zuwachs in \(Y\) für eine Einheit Zuwachs in \(X\).

\(t_{n-2;0.975}\): Kritischer Wert aus der t-Verteilung für ein Konfidenzniveau von 95% und \(n-2\) Freiheitsgrade, wobei \(n\) die Stichprobengröße ist. Der Index \(0.975\) steht für das obere (rechte) Quantil der t-Verteilung, das für die Berechnung des Konfidenzintervalls bei einem zweiseitigen Test verwendet wird.

\(s_{\hat{\beta_{0}}}\): Standardfehler des geschätzten Achsenabschnitts \(\hat{\beta_{0}}\), gibt die Standardabweichung der Verteilung der Schätzer um den wahren \(\beta_0\) Wert an.

\(s_{\hat{\beta_{1}}}\): Standardfehler der geschätzten Steigung \(\hat{\beta_{1}}\), gibt die Standardabweichung der Verteilung der Schätzer um den wahren \(\beta_1\) Wert an.

R-Befehl qt()

Um den t-Wert für ein gegebenes Konfidenzniveau in R zu finden, verwendet man den Befehl qt(). Zum Beispiel ergibt qt(0.975, df = n-2) den t-Wert für ein 95% Konfidenzintervall bei \(n-2\) Freiheitsgraden.

Null- und Alternativhypothese

Die Nullhypothese (\(H_0\)) in der linearen Regression testet üblicherweise, ob kein Zusammenhang zwischen den Variablen besteht, d.h., \(\beta_1 = 0\).

Die Alternativhypothese (\(H_1\)) postuliert, dass ein Zusammenhang existiert, d.h., \(\beta_1 \neq 0\).

p-Wert und der R-Befehl pt()

Der p-Wert ist die Wahrscheinlichkeit, unter der Nullhypothese einen Wert der Teststatistik (wie den berechneten \(t\)-Wert für \(\beta_1\)) zu erhalten, der mindestens so extrem ist wie der beobachtete. Ein kleiner p-Wert (< \(\alpha\), üblicherweise 0,05) deutet darauf hin, dass die Nullhypothese abgelehnt werden kann.

R-Befehl pt()

Um den p-Wert in R zu berechnen, verwendet man pt(). Zum Beispiel berechnet pt(t_value, df = n-2) den p-Wert für einen gegebenen \(t\)-Wert mit \(n-2\) Freiheitsgraden.

\(r^2\): Bestimmtheitsmaß

Definition

Das Bestimmtheitsmaß \(r^2\) quantifiziert den Anteil der Varianz in der abhängigen Variable, der durch das lineare Modell erklärt wird. Es ist ein Maß für die Güte der Anpassung des Modells.

Funktion und Formel zur Berechnung

\[r^2 = \frac{SSY - SSE}{SSY} = 1 - \frac{SSE}{SSY}\]

\(r^2\): Bestimmtheitsmaß, das den Anteil der Varianz in der abhängigen Variable \(Y\) angibt, der durch das Regressionsmodell erklärt wird. Ein Wert von \(r^2\) nahe 1 deutet darauf hin, dass das Modell einen großen Teil der Varianz in \(Y\) erklärt, während ein Wert nahe 0 bedeutet, dass das Modell wenig bis keine erklärte Varianz liefert.

\(SSY\): Gesamtsumme der Quadrate, misst die gesamte Varianz in der abhängigen Variable \(Y\). Sie wird berechnet als \(\sum(Y_i - \bar{Y})^2\), wobei \(Y_i\) die einzelnen Beobachtungswerte und \(\bar{Y}\) der Mittelwert von \(Y\) über alle Beobachtungen ist.

\(SSE\): Summe der Quadrate der Residuen (Error Sum of Squares), misst die Varianz in \(Y\), die nicht durch das Modell erklärt wird. Sie wird berechnet als \(\sum(Y_i - \hat{Y}_i)^2\), wobei \(\hat{Y}_i\) die durch das Modell vorhergesagten Werte sind.

Die Formel \(r^2 = \frac{SSY - SSE}{SSY} = 1 - \frac{SSE}{SSY}\) zeigt, wie \(r^2\) aus dem Verhältnis der nicht durch das Modell erklärten Varianz (\(SSE\)) zur Gesamtvarianz (\(SSY\)) berechnet wird.

Ein geringerer Wert von \(SSE\) im Vergleich zu \(SSY\) führt zu einem höheren \(r^2\), was auf eine bessere Anpassung des Modells hinweist.