[Weiter] [Zurück] [Zurück (Ende)] [Ende] [Hoch]
Lineare Regressionen und allgemein Regressionsverfahren sowie induktive
Methoden unterscheiden sich von der deskriptiven Analyse vor allem durch den
Modellbezug. Regressionen beziehen sich immer auf ein zu Grunde gelegtes
Modell und versuchen zu verifizieren, ob die Modellannahmen zutreffen oder
abgelehnt werden können, und/oder die Effekte zu quantifizieren. Auf den
vorliegenden Seiten möchte ich Ihnen weder die Details der einzelnen Verfahren
noch die Berechnungsschritte nahebringen, sondern graphisch die Idee
hinter der Regression vermitteln und auf einige Aspekte zum Verständis
eingehen.
In den meisten Fällen, und bei der linearen Regression lässt sich das am
einfachsten zeigen, geht es darum, eine Kurve (Modell) an einen bestehenden
Datensatz bestmöglich anzupassen. Bei der einfachen linearen Regression ist das
eine Gerade, die Sie auch einen per Hand an eine Datenwolke anpassen
und dann mit dem Regressionsergebnis und dem wahren Zusammenhang
vergleichen können. Daneben geben wir als Vergleich auch die echten und
geschätzten Parameterwerte an, damit auch hier der Vergleich sichtbar
wird.
Wir beginnen damit, den wahren Zusammenhang und die Generierung der
Daten vorzustellen. Beides ist bei realen Problemen natürlich nicht bekannt und
wird auf den Folgeseiten deshalb ausgeblendet.
In unserem Beispiel ist der wahre Zusammenhang:
wobei die Steigung (linearer Zusammenhang) mit
, die Konstante mit
und der Messfehler
oder Störterm mit
bezeichnet werden. D.h. bei jedem Datenpunkt (Messwert) hängt der y-Wert vom x-Wert
ab, indem gilt
und zusätzlich kommt noch der Störterm
dazu. Der x-Wert wird
also mit multipliziert
und sowie ein
zufälliger Störterm
werden dazu addiert.
Wenn Sie den Button "Daten generieren und schätzen" anklicken, werden Daten nach Ihren Modellparametern erzeugt und die linearen Regressionsschätzung durchgeführt.
Sie können nun die Parameter hier einstellen und
Die Anzahl der Datenpunkte n ist aus technischen Gründen auf 2000 begrenzt. Höhere Zahlen würden zu einem zu hohen Rechenaufwand führen und sollten mit dafür geeigneten Statistikprogrammen verwendet werden. Für den hier angestrebten didaktischen Effekt erscheint uns eine Anzahl von 200 ausreichend.
Anzahl der Datenpunkte:
In dieser Graphik werden um die gegebene Kurve herum zufällig Datenpunkte erzeugt. Dazu werden zufällig x-Werte ermittelt, der zugehörige y-Wert nach dem wahren Modell errechnet und dann ein zufälliger Fehlerterm addiert. Danach wird eine Gerade geschätzt, die möglichst gut in die Datenwolke passt. Sowohl der Typ des wahren Zusammenhangs (hier Gerade) als auch die Art des Fehlers (hier unabhängig vom x-Wert und additiv) können auch anders gestaltet werden. Die Anpassung erfolgt hier über die Methode der kleinsten Quadrate, auf die wir auf der entsprechenden Seite eingehen.
wahr | geschätzt | |
---|---|---|
α | ||
β |
In unserem Beispiel hängt der Zusammnhang von x und y Werten von zwei Parametern ab, dem y-Achsenabschnitt (Niveau) und der Steigung . Die unten stehende Tabelle vergleicht die wahren Werte und die Schätzwerte.
Wenn Sie als wahren Wert für eingeben, so ist der wahre Zusammenhang der, dass der y-Wert nicht mehr vom x-Wert abhängt. Die Gerade verläuft flach (horizontal). Der geschätzte Wert sollte dann auch nahe bei 0 liegen. In Statistik lernen Sie dann, dass sich der Schätzwert für nicht signifikant von 0 unterscheidet, d.h. aufgrund der Datenlage können Sie nicht sicher sagen, ob das wahre ist (y hängt nicht von x ab), oder doch leicht von 0 verschieden ist (y hängt von x ab). Näheres dazu erfahren Sie aber in Ihrer Statistik Vorlesung.
[Weiter] [Zurück] [Zurück (Ende)] [Anfang] [Hoch]