{ "cells": [ { "cell_type": "markdown", "id": "fleet-resource", "metadata": { "toc": true }, "source": [ "

Table of Contents

\n", "
" ] }, { "cell_type": "markdown", "id": "popular-office", "metadata": {}, "source": [ "# Deskriptive Datenanalyse: Statistische Kennwerte und graphische Darstellung\n", "\n", "Die deskriptive Statistik verfolgt das Ziel erhobene Daten mit Hilfe geeigneter statistischer Kennwerte, graphischer Darstellungen und Tabellen in aggregierter Form zu beschreiben -- ähnlich wie ein Abstract die Kernpunkte einer wissenschaftlichen Publikation zusammenfasst. Allgemeingültige Aussagen, die über den jeweiligen Datensatz hinaus Gültigkeit haben, lassen sich aus einer deskriptiven Datenanalyse jedoch nicht ableiten.\n", "\n", "Im ersten Teil dieses Jupyter Notebooks werden wir zunächst Kennzahlen und Darstellungsmöglichkeiten betrachten, die die Merkmalsverteilung einzelner Variablen beschreiben. In Abhängigkeit des vorliegenden Skalenniveaus (bitte ggf. noch einmal auffrischen: Döring, Bortz(2016), Kap.8.4) können dabei unterschiedliche Maße zur Anwendung kommen. Die gemeinsame Betrachtung zweier (oder auch mehr) Variablen erfolgt dann im zweiten Teil dieses Jupyter Notebooks.\n", "\n", "Zu Demonstrations- und Übungszwecken verwenden wir wieder den zuvor aufbereiteten Datensatz sample_data, den Sie bereits aus den vorangegangenen Jupyter Notebooks kennen, und lesen ihn hier zu Beginn ein. Die Datei `sample_data_final.RDS` haben Sie im letzten Jupyter Notebook selbst erzeugt, sie ist aber auch im Moodle-Kurs zum Download verfügbar." ] }, { "cell_type": "code", "execution_count": null, "id": "damaged-feeding", "metadata": {}, "outputs": [], "source": [ "sample_data <- readRDS(\"data/sample_data_final.RDS\")\n", "str(sample_data)" ] }, { "cell_type": "markdown", "id": "above-spain", "metadata": {}, "source": [ "## Univariate Datenanalyse\n", "\n", "In diesem ersten Abschnitt werden wir uns näher mit deskriptiven Maßen und graphischen Darstellungsmöglichkeiten befassen, die sich zur Beschreibung der Verteilung einer einzelnen Variable eigenen. Eine solche singuläre Betrachtung einzelner Merkmale stellt den ersten Schritt einer Datenanalyse dar und ermöglicht neben ersten Erkenntnisgewinnen auch eine Vertrautheit mit der Datenbasis zu schaffen. \n", "\n", "Beginnen werden wir mit den sogenannten Häufigkeitsverteilungen, um uns dann mit Lagemaßen (auch Maße der zentralen Tendenz) auseinanderzusetzen, die eine Aggregation der Daten auf einen einzelnen beschreibenden Wert ermöglichen. Wie gut ein solcher einzelner Wert die Verteilung beschreibt lässt sich dann u.a. anhand von Streuungsmaßen (auch Maße der Variabilität) einordnen. Gleichzeitig werden wir auch immer die graphische Darstellungsmöglichkeiten einzelner oder auch mehrerer statistischer Kennzahlen in diesem Zusammenhang thematisieren." ] }, { "cell_type": "markdown", "id": "destroyed-senegal", "metadata": {}, "source": [ "### Häufigkeiten und Häufigkeitsverteilungen\n", "\n", "#### Absolute Häufigkeiten\n", "\n", "Gerade für kategorial erhobene Merkmale stellt die aggregierte Betrachtung der Anzahl, mit der jede Merkmalsausprägung im vorliegenden Datensatz auftritt, einen ersten Einstiegspunkt in die Datenauswertung dar. Für jede Merkmalsausprägung einer Variablen wird bei der Ermittlung der sogenannten *absoluten Häufigkeiten* ($H$) gezählt, wie häufig sie beobachtet werden konnte. Für die Variable `hoechster_Bildungsabschluss` liegen im Beispieldatensatz folgende Werte vor:" ] }, { "cell_type": "code", "execution_count": null, "id": "potential-idaho", "metadata": {}, "outputs": [], "source": [ "sample_data$Bildungsabschluss" ] }, { "cell_type": "markdown", "id": "satisfied-taste", "metadata": {}, "source": [ "Das manuelle Zählen wäre hier sehr müßig, dies können wir in `R` z.B. mit der Funktion `table` realisieren. Fehlende Werte werden beim Standardaufruf nicht mit ausgegeben, dies lässt durch die Übergabe des Parameters `useNA = \"ifany\"` zusätzlich erreichen, wenn entsprechende Werte vorliegen. Sollen fehlende Werte in jedem Fall mit ausgewiesen werden, ergänzen Sie für den Parameter `useNA` den Wert `\"always\"`. " ] }, { "cell_type": "code", "execution_count": null, "id": "willing-rugby", "metadata": {}, "outputs": [], "source": [ "abs_H <- table(sample_data$Bildungsabschluss); abs_H #Tabelle mit absoluten Häufigkeiten ohne Berücksichtigung fehlender Werte" ] }, { "cell_type": "code", "execution_count": null, "id": "female-cloud", "metadata": {}, "outputs": [], "source": [ "table(sample_data$Bildungsabschluss, useNA = \"always\") #Tabelle mit absoluten Häufigkeiten mit Ausgabe zu fehlenden Werten" ] }, { "cell_type": "markdown", "id": "advisory-uncle", "metadata": {}, "source": [ "#### Relative Häufigkeiten\n", "Gerade für den Vergleich von Häufigkeiten z.B. über verschiedene Stichproben oder auch Erhebungszeitpunkte hinweg, ist eine Angabe der Häufigkeiten, die einen Bezug zur Gesamtanzahl der betrachteten Fälle herstellt, notwendig. Die zu vergleichenden Datensätze weisen nur in den seltensten Fällen den gleichen Stichprobenumfang auf, wodurch der Vergleich von absoluten Häufigkeiten nicht zielführend ist. Alternativ werden **relative Häufigkeiten** ($h$) herangezogen. Diese geben den jeweiligen Anteil der Beobachtungen im Datensatz für die einzelnen Merkmalsausprägungen an und können nur Werte im Wertebereich zwischen 0 und 1 annehmen. Die Summe der relativen Häufigkeiten aller Merkmalsausprägungen sollte (abgesehen von Rundungsungenauigkeiten) immer 1 ergeben. Vielfach werden die Angaben auch in Prozent ausgedrückt, dabei sollte aber immer auch die Stichprobengröße genannt werden und gerade bei sehr kleinen Stichproben sind alternative Darstellungen wie 2 von 10 statt 20% vorzuziehen.\n", "\n", "Berechnung der relativen Häufigkeit einer Merkmalsausprägung: $$h_{Merkmalsausprägung} = \\frac{H_{Merkmalsausprägung}}{n}$$\n", "\n", "Eine tabellarische Ausgabe der relativen Häufigkeiten in R ist über die Funktion `prop.table` erreichbar, die als Eingabe selber eine Tabelle fordert." ] }, { "cell_type": "code", "execution_count": null, "id": "departmental-outline", "metadata": {}, "outputs": [], "source": [ "rel_H <- prop.table(abs_H); rel_H #Tabelle mit relativen Häufigkeiten ohne Berücksichtigung fehlender Werte" ] }, { "cell_type": "code", "execution_count": null, "id": "flush-miami", "metadata": {}, "outputs": [], "source": [ "prop.table(abs_H) * 100 #Tabelle mit relativen Häufigkeiten in Prozent" ] }, { "cell_type": "markdown", "id": "emerging-paper", "metadata": {}, "source": [ "Nicht selten wird eine gemeinsame Darstellung von absoluten und relativen Häufigkeiten in einer Tabelle gewünscht, dies lässt sich in R mit der Funktion `cbind` realisieren. Als Spaltenköpfe dienen hier die Variablennamen zusammengeführten Tabellen. Dies ist gerade für die Aufnahme in Berichten oder wissenschaftlichen Artikeln nicht immer die gewünschte Spaltenbeschriftung. Diese lässt sich aber einfach über die Angabe entsprechender Spaltennamen bei der Tabellenzusammenführung beheben." ] }, { "cell_type": "code", "execution_count": null, "id": "happy-bulletin", "metadata": {}, "outputs": [], "source": [ "cbind(abs_H, rel_H) " ] }, { "cell_type": "code", "execution_count": null, "id": "alleged-particle", "metadata": {}, "outputs": [], "source": [ "#Gemeinsame Darstellung der Häufigkeiten in einer Tabelle mit entsprechender Benennung der Spaltenköpfe\n", "cbind(\"absolute Häufigkeiten\"= abs_H, \"relative Häufigkeiten\"= rel_H) " ] }, { "cell_type": "markdown", "id": "simple-windsor", "metadata": {}, "source": [ "#### Graphische Darstellungen\n", "\n", "Zur graphischen Darstellung absoluter und relativer Häufigkeiten eigenen sich insbesondere Balken- oder Säulendiagramme. Häufig werden auch Kreisdiagramme gewählt. Der Einsatz dieser Diagrammform sollte jedoch sorgfältig geprüft werden, da insbesondere bei vielen Merkmalsausprägungen und geringen Unterschiedenen in den Häufigkeiten aus diesen die Werte schlecht abgelesen werden können. \n", "\n", "Bei der Wahl der graphischen Darstellungsform ist als oberstes Auswahlkriterium immer die Lesbarkeit der zu vermittelnden Aspekte anzusetzen. Auch gilt der Grundsatz \"weniger ist mehr\" in diesem Zusammenhang meist. Optische \"Verschönerungen\" wie die Darstellung in 3D-Diagrammen, reduzieren die Lesbarkeit normalerweise deutlich.\n", "\n", "R liefert schon in der Basisbibliothek einige Funktionen für das Erzeugen verschiedener Diagramme mit. Ein mächtigeres Werkzeug für die Erzeugung von Graphiken stellt aber die Bibliothek `ggplot2`[1](#footnote1 \"Deutsche Einführung in ggplot2\") dar. " ] }, { "cell_type": "code", "execution_count": null, "id": "parallel-protein", "metadata": {}, "outputs": [], "source": [ "#barplot(abs_H) #Balkendiagramm mit Standardkonfiguration erstellen\n", "barplot(abs_H, xlab=\"Höchster Bildungsabschluss\", ylab=\"Absolute Häufigkeiten\") #Balkendiagramm mit Achsenbeschriftung" ] }, { "cell_type": "code", "execution_count": null, "id": "choice-march", "metadata": {}, "outputs": [], "source": [ "#Balkendiagramm mit ggplot2 erstellen\n", "library(ggplot2)\n", "ggplot(sample_data, aes(x=Bildungsabschluss)) + #Basisdiagramm mit Daten \n", " geom_bar() + #Darstellung als Balkendiagramm\n", " xlab(\"Höchster Bildungsabschluss\") + ylab(\"absolute Häufigkeiten\") +#Achsenbeschriftungen ergänzen\n", " theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust=1)) #Achsenlabel im 45°-Winkel" ] }, { "cell_type": "markdown", "id": "korean-cologne", "metadata": {}, "source": [ "#### Kumulierte Häufigkeiten\n", "Liegen mindestens ordinalskalierte Daten vor, so kann es von Interesse sein, wie viele Fälle (absolut oder relativ) bis zu einer bestimmten Merkmalsausprägung insgesamt vorliegen. Diese **kumulierten Häufigkeiten** zeigen entsprechend die Summe der einzelnen Häufigkeiten aller niedrigeren Merkmalsausprägungen einschließlich der jeweils benannten.\n", "\n", "In R liefert die Funktion `cumsum` die gewünschte Berechnung. Sie kann sowohl auf die absoluten als auch auf die relativen Häufigkeiten angewendet werden." ] }, { "cell_type": "code", "execution_count": null, "id": "packed-judges", "metadata": {}, "outputs": [], "source": [ "cumsum(abs_H)#kumulierte Häufigkeiten (absolut)\n", "cumsum(rel_H)#kumulierte Häufigkeiten (relativ)" ] }, { "cell_type": "code", "execution_count": null, "id": "adopted-persian", "metadata": {}, "outputs": [], "source": [ "#Gemeinsame Darstellung aller Häufigkeiten in einer Tabelle mit entsprechender Benennung der Spaltenköpfe\n", "haeufigkeiten <- cbind(\"absolute Häufigkeiten\"= abs_H, \"relative Häufigkeiten\"= rel_H, \"kumulierte Häufigkeiten\"=cumsum(abs_H), \"relative kumulierte Häufigkeiten\"=cumsum(rel_H)); haeufigkeiten " ] }, { "cell_type": "markdown", "id": "laden-imperial", "metadata": {}, "source": [ "#### Häufigkeitsverteilungen\n", "\n", "##### Klassieren metrischer Daten\n", "\n", "Eine Betrachtung der absoluten und relativen Häufigkeiten für metrische Daten ist aufgrund der großen Vielzahl unterschiedlicher Werte i.d.R. nicht zielführend, wie nachfolgendes Beispiel für die Variable `Groesse` demonstrieren soll. Die überwiegende Mehrheit der Werte tritt lediglich einmal auf." ] }, { "cell_type": "code", "execution_count": null, "id": "clinical-medicare", "metadata": {}, "outputs": [], "source": [ "table(sample_data$Groesse)\n", "ggplot(sample_data, aes(Groesse)) + geom_bar()" ] }, { "cell_type": "markdown", "id": "coordinated-print", "metadata": {}, "source": [ "Um dennoch eine Übersicht über die Verteilung der Daten zu erhalten, werden die individuellen beobachteten Merkmalsausprägungen in Kategorien i.d.R. in Form von Intervallen zusammengefasst. Bei der Wahl der Intervalle gilt üblicher Weise, dass diese jeweils dieselbe Größe aufweisen sollten. Dabei ist darauf zu achten, dass die Intervalle nicht zu eng und nicht zu weit gewählt werden. Im ersten Fall treten zufällige Verteilungsunregelmäßigkeiten zu stark hervor und machen es schwer den Verteilungstyp zu identifizieren. Im Fall einer zu starken Aggregation sind Unterschiede zwischen den Intervallen ggf. nur schwer erkennbar. Es existieren verschiedene Faustregeln zur Ermittlung der Klassen (z.B. Scott (1979), Sturges (1926) oder Freedman, Diaconis (1981)).\n", "\n", "Die Darstellung der Häufigkeitsverteilungen erfolgt mittels Histogrammen. Die entsprechenden Funktion der Basisbibliothek unterstützt dies bereits und verwendet bei fehlender Spezifikation die Formel von Sturges (`breaks = \"Sturges\"`). Die im Diagramm verwendeten Werte lassen sich mit ein paar Kniffen auch extrahieren und als Tabelle darstellen. " ] }, { "cell_type": "code", "execution_count": null, "id": "tropical-client", "metadata": {}, "outputs": [], "source": [ "#Alternative Werte für den Parameter breaks: \"Scott\" oder \"FD\" bzw. \"Freedman-Diaconis\"\n", "histogramm_daten <- hist(sample_data$Groesse, ylab=\"(absolute) Häufigkeiten\") #Für das Histogramm verwendete Daten im Vektor histogramm_daten ablegen\n", "#Erzeugen einer Tabelle, die die Intervalle und Häufigkeiten enthält (hier zur besseren Verständlichkeit in zwei Schritten)\n", "interval <- paste0(\"(\", head(histogramm_daten$breaks, -1), \",\", histogramm_daten$breaks[-1], \"]\") #Intervallbeschriftung erstellen\n", "data.frame(Klasse=interval, Klassenmitte=histogramm_daten$mids, Häufigkeiten=histogramm_daten$counts) #Als Dataframe zusammenführen" ] }, { "cell_type": "markdown", "id": "ahead-estonia", "metadata": {}, "source": [ "In der Bibliothek `ggplot2` fehlt die Unterstützung für die Verwendung der genannten Faustregeln bei der Klassenerzeugung mit dem Grundgedanken, dass eine implementierte Regel hier zu einer Verwendung ohne kritisches Hinterfragen erfolgt. \n", "\n", "Mit den Funktionen `nclass.Sturges`, `nclass.scott` und `nclass.FD` lassen sich die Anzahl der Klassen jedoch recht einfach berechenen und an die Funktion zur Erzeugung des Histogramm-Layers übergeben." ] }, { "cell_type": "code", "execution_count": null, "id": "acoustic-reach", "metadata": {}, "outputs": [], "source": [ "#ggplot(beispieldaten, aes(Groesse)) + geom_histogram() #default: 30 Klassen\n", "ggplot(sample_data, aes(Groesse)) + geom_histogram(bins = nclass.Sturges(sample_data$Groesse))" ] }, { "cell_type": "markdown", "id": "following-geometry", "metadata": {}, "source": [ "##### Verteilungsformen\n", "Häufigkeitsverteilungen können eine Vielzahl verschiedener Formen annehmen, von denen einigen in der Statistik eine besondere Bedeutung zukommt. An dieser Stelle sei insbesondere die Normalverteilung genannt, die vielen natürlichen Beobachtungen zugrunde liegt. Es handelt sich bei dieser Verteilung um eine symmetrische Glockenkurve wie sie in der ersten Abbildung (s.u.) zu sehen ist. Wie Sie am darunter liegenden Histogramm erkennen können, finden sich bei einer derartigen Verteilungsform die Mehrheit der Werte im Zentrum der Verteilung, wohingegen die Häufigkeiten zu den Rändern immer weiter abnehmen. Wir werden auf diese Verteilungsform im Rahmen der Inferenzstatistik noch einmal zurückkommen." ] }, { "attachments": { "Verteilungsformen.svg": { "image/svg+xml": [ "" ] } }, "cell_type": "markdown", "id": "united-fleece", "metadata": {}, "source": [ "\n", "![Verteilungsformen.svg](attachment:Verteilungsformen.svg)" ] }, { "cell_type": "markdown", "id": "alien-bristol", "metadata": {}, "source": [ "Eine häufige Art der Abweichung von der Normalverteilung betrifft die Symmetrie. Wenn die häufigsten Merkmalsausprägungen nicht in der Mitte der Verteilung zu finden sind, sondern sich rechts oder links davon befinden, dann liegt eine schiefe Verteilung vor. Liegt eine Häufung der Werte im unteren Bereich der Verteilung vor (positive Schiefe), so spricht man auch von einer linkssteilen (oder rechtsschiefen) Verteilung. Im gegenteiligen Fall mit einer vorliegenden negativen Schiefe handelt es sich entsprechend um eine rechtssteile (oder linksschiefe) Verteilung.\n", "\n", "Auch die Wölbung von Verteilungsformen kann unterschiedlich ausfallen. Bei schmalgipfligen Verteilungen finden sich viele Werte an den Rändern der Verteilung wohingegen bei breitgipfligen Verteilungen die Ränder eher dünn besetzt sind. \n", "\n", "Für normalverteilte Merkmale liegen die Werte für Schiefe (engl. skewness) und Wölbung (engl. kurtosis) bei 0. Wie üblich gibt es verschiedene Pakete in R, in denen Funktionen zur Berechnung dieser Werte vorliegen (z.B. `psych`, `e1071` oder `moments`). Die Bibliothek `psych` wird uns später noch begleiten, daher ist nachfolgend bereits demonstriert, wie auf diese beiden Werte zugegriffen werden kann, ohne dass wir uns an dieser Stelle mit weiteren Details der Bibliothek und der verwendeten Funktion auseinandersetzen werden.[2](#footnote2 \"Erläuterungen zur Funktion describe() aus dem Paket psych\")" ] }, { "cell_type": "code", "execution_count": null, "id": "statewide-barcelona", "metadata": {}, "outputs": [], "source": [ "#Entfernen Sie den Kommentar vor dem Installationsbefehl, falls Sie beim Ausführen eine Fehlermeldung bzgl. des Fehlens der Bibliothek erhalten\n", "#install.packages(\"psych\") \n", "library(psych)\n", "describe(sample_data$Groesse)[c(\"skew\", \"kurtosis\")]" ] }, { "cell_type": "markdown", "id": "noble-victoria", "metadata": {}, "source": [ "Für unsere betrachteten Beispieldaten ergeben sich nach obiger Berechnung sehr kleine Werte für Schiefe und Wölbung. Wir werden auf dieses Thema zu einem späteren Zeitpunkt noch einmal zurückkommen." ] }, { "attachments": { "Median.svg": { "image/svg+xml": [ "" ] } }, "cell_type": "markdown", "id": "grateful-texture", "metadata": {}, "source": [ "### Lagemaße\n", "In den vorangegangenen Ausführungen haben wir verschiedentlich bereits die Mitte bzw. das Zentrum einer Verteilung thematisiert. Auch diese lässt sich bestimmen und mindestens einige der statistischen Kennzahlen, die für diese Zwecke herangezogen werden, kenne Sie sicher bereits. Zu den sogenannten Maßen der zentralen Tendenz gehören u.a. der arithmetische Mittelwert, der Median sowie der Modalwert. Nicht jedes dieser Maße lässt sich für alle Skalen ermitteln. Wir beginnen daher mit der statistischen Kennzahl, die auch bereits auf einer Nominalskala ermittelt werden kann und arbeiten uns dann entlang der Skalenniveaus weiter vor.\n", "\n", "#### Modalwert\n", "Beim Modalwert handelt es sich um die am häufigsten auftretende Ausprägung eines Merkmals. Eine Berechnung ist entsprechend nicht erforderlich. Zur Ermittlung kann z.B. die Häufigkeitstabelle herangezogen werden und der Wert dort entsprechend abgelesen werden. \n", "\n", "Eine Verteilung kann dabei mehr als einen Modalwert aufweisen. Liegen wie zwei Modalwerte vor, so spricht man von einer bimodalen Verteilung, bei mehr als zwei Modalwerten von einer multimodalen Verteilung. Ein Beispiel für eine bimodale Verteilung können Sie in der [Abbildung zu den Verteilungsformen](#verteilungsformen) sehen. Anzumerken ist, dass der Modalwert häufig von nur einigen wenigen Fällen abhängt und daher ggf. bei geringen Abweichungen auch mehrere Werte kommuniziert werden können. Wird jeder Wert nur ein einziges Mal beobachtet, so ist der Modalwert nicht definiert.\n", "\n", "#### Median\n", "Der Median $\\tilde{x}$ einer Verteilung teilt die Menge der beobachteten Werte in zwei gleich große Hälften. Zur Ermittlung werden alle beobachteten Werte sortiert. Liegt eine ungerade Anzahl von Werten vor, so ist der Median derjenige Wert, der sich in der Mitte befindet. Um eine Sortierung der Werte vornehmen zu können, muss die Skala, auf der das Merkmal gemessen wird, mindestens ordinalskaliert sein. \n", "\n", "Für folgendes Minimalbeispiel, bei dem die Einkommen von 7 Mitarbeiten eines Kleinstbetriebs angegeben sind, würde die Ermittlung entsprechend wie folgt ablaufen:\n", "\n", "\n", "|Mitarbeiter|M1|M2|M3|M4|M5|M6|M7|\n", "|-|-|-|-|-|-|-|-|\n", "|Gehalt|2856|2350|2236|2910|3108|3207|2100|\n", "\n", "Sortierte Gehälter:\n", "\n", "![Median.svg](attachment:Median.svg)\n", "\n", "Der Wert 2856 liegt an der Position, die die Verteilung in zwei gleich große Hälften teilt (jeweils drei Werte auf der rechten und auf der linken Seite)." ] }, { "attachments": { "Median_gerade-2.svg": { "image/svg+xml": [ "" ] } }, "cell_type": "markdown", "id": "legal-constitution", "metadata": {}, "source": [ "Liegt eine gerade Anzahl von Werten vor, so gibt es keinen einzelnen Wert, der die Verteilung in zwei Hälften teilt. Die Mitte läge hier zwischen zwei Werten. In einem solchen Fall werden die beiden mittleren Werte ($\\tilde{x_1}$ und $\\tilde{x_2}$) addiert und durch zwei geteilt. Der so errechnete Wert wird auch als Pseudomedian bezeichnet. \n", "\n", "$$\\tilde{x} = \\frac{\\tilde{x_1} + \\tilde{x_2}}{2} $$\n", "\n", "Ergänzen wir im obigen Beispiel noch das Gehalt des Geschäftsführers, um die Ermittlung des Pseudomedians zu demonstrieren:\n", "\n", "|Mitarbeiter|M1|M2|M3|M4|M5|M6|M7|M8|\n", "|-|-|-|-|-|-|-|-|-|\n", "|Gehalt|2856|2350|2236|2910|3108|3207|2100|10000|\n", "\n", "Sortierte Gehälter:\n", "\n", "![Median_gerade-2.svg](attachment:Median_gerade-2.svg)\n", "\n", "$$\\tilde{x} = \\frac{2856 + 2910}{2} = 2883$$\n", "\n", "In diesem ergänzten Beispiel lässt sich bereits sehr schön beobachten, dass der Median relativ robust gegenüber Ausreißern ist, genauso wie auch gegenüber schiefen Verteilungen.\n", "\n", "Das Sortieren der Werte kann in R mit der Funktion `sort` durchgeführt werden. Gerade bei Datensätzen mit großem Umfang ist das manuelle Auszählen des mittleren Werts jedoch etwas müßig. Hier hilf dann die Funktion `median`, die direkt den entsprechenden Wert zurückgibt." ] }, { "cell_type": "code", "execution_count": null, "id": "subjective-angle", "metadata": {}, "outputs": [], "source": [ "sort(sample_data$Groesse)\n", "median(sample_data$Groesse) #Da hier eine gerade Anzahl von Werten vorliegt, wird der Pseudomedian berechnet." ] }, { "cell_type": "markdown", "id": "corrected-subcommittee", "metadata": {}, "source": [ "#### Arithmetischer Mittelwert\n", "Den arithmetischen Mittelwert ($\\bar{x}$, engl. mean) kennen Sie sicher bereits. Dabei handelt es sich um den durchschnittlichen beobachteten Wert, der auch im täglichen Leben vielfach zum Einsatz kommt. Für die Berechnung dieser Kennzahl werden alle Einzelwerte ($x_i$) aufsummiert und anschließend durch die Anzahl der vorliegenden Werte ($n$) geteilt. Da eine solche Operation nur bei metrischen Daten möglich ist, muss mindestens ein Merkmal mindestens intervallskaliert sein, damit dieser Mittelwert berechnet werden kann.\n", "\n", "$$ \\bar{x} = \\frac{1}{n} \\sum_{i=1}^{n} x_i = \\frac{x_1 + x_2 + x_3 + ... + x_n}{n}$$\n", "\n", "Für das Minimalbeispiel von oben ergibt sich daraus:\n", "\n", "$$ \\bar{x} = \\frac{2856+2350+2236+2910+3108+3207+2100}{7} = 2681$$\n", "\n", "Der arithmetsche Mittelwert für das Einkommen liegt hier bei 2681€. Im Durchschitt verdient ein Mitarbeiter in diesem fiktiven Unternehmen demnach 2681€.\n", "\n", "Betrachten wir auch das ergänzte Beispiel mit dem Geschäftsführergehalt noch einmal:\n", "\n", "$$ \\bar{x} = \\frac{2856+2350+2236+2910+3108+3207+2100+10000}{8} = 3595,875 \\approx 3595,88$$\n", "\n", "Nach dieser Berechnung beträgt das durchschnittliche Einkommen 3595,875€. Da ein halber Cent nicht existiert, runden wir an dieser Stelle auf. An diesem Beispiel lässt sich zweierlei beobachten: \n", "1. Der arithmetische Mittelwert wird durch sogenannte Ausreißer beeinflusst. \n", "2. Die alleinige Angabe des Mittelwerts kann irreführend sein (beschreibt die Daten also nicht gut), liegt er in diesem Beispield doch deutlich oberhalb aller Gehälter, abgesehen vom Geschäftsführereinkommen.\n", "\n", "Für die Berechnung dieser statistischen Kennzahl steht in R die Funktion `mean` zur Verfügung." ] }, { "cell_type": "code", "execution_count": null, "id": "fitted-judgment", "metadata": {}, "outputs": [], "source": [ "arithmetisches_mittel <- mean(sample_data$Groesse)\n", "#Um zu vermeiden, dann durch viele Nachkommastellen eine Genauigkeit suggeriert wird, die nicht vorliegt, sollte\n", "#das Ergebnis entsprechend gerundet werden. Mit der gleichen Anzahl an Nachkommastellen wie bei den Messwerten treffen\n", "#Sie i.d.R. eine gute Wahl.\n", "round(arithmetisches_mittel, 1) " ] }, { "cell_type": "markdown", "id": "hindu-taiwan", "metadata": {}, "source": [ "Mit den drei vorgestellten Maßen der zentralen Tendenz sind die Möglichkeiten noch nicht erschöpft, zu nennen sind hier u.a. noch das geometrische und das harmonische Mittel, die jedoch an dieser Stelle nicht behandelt werden. \n", "\n", "An dieser Stelle folgt nun häufig die Frage: Welches der vorgestellten Maße soll ich denn jetzt verwenden (im Sinne von \"Welches ist das richtige?\"). Diese Frage lässt sich leider nicht pauschal beantworten, sondern erfordert ein kritisches Mitdenken. Zum einen hängt die Entscheidung natürlich davon ab, was für ein Skalenniveau vorliegt. Zum anderen sollte die Entscheidung immer von der Frage geleitet werden, welche Zahl repräsentiert die Verteilung am besten? Im obigen Beispiel mit dem Geschäftsführergehalt liefert der arithmetische Mittelwert keine gute Beschreibung der Daten, an dieser Stelle wäre sicher de Median vorzuziehen." ] }, { "cell_type": "markdown", "id": "loose-procedure", "metadata": {}, "source": [ "### Aufgabe\n", "Betrachten Sie die anderen Merkmale des Beispieldatensatzes und berechnen Sie die möglichen Lagemaße. Welches Lagemaß würden Sie in den verschiedenen Fällen wählen? Begründen Sie Ihre Wahl." ] }, { "cell_type": "code", "execution_count": null, "id": "annoying-disaster", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "id": "loving-trainer", "metadata": {}, "source": [ "### Streuungsmaße\n", "Wie wir oben bereits festgestellt haben, kann charakterisiert ein Lagemaß allein eine Verteilung in vielen Fällen nicht hinreichend. Ein weiteres Beispiel sehen Sie in nachfolgender Abbildung. Für beide Stichproben ergibt sich ein (nahezu) identischer arithmetischer Mittelwert und auch der Modalwert sowie der Median weise sehr ähnliche Werte auf, dennoch unterscheiden sich die Verteilungen deutlich voneinander." ] }, { "attachments": { "Initiales_Beispiel_Streuung.png": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAtAAAADwCAMAAAAeuqOxAAAAGFBMVEUAAAAaGhozMzNNTU3Z2dnr6+v/AAD///+Bqk4MAAAACXBIWXMAABJ0AAASdAHeZh94AAAKu0lEQVR4nO2diXbiyBJEYcCu///jsdtIaCkJIWWFIpKIc8YsLoWKm7cFQ7/lUhwnUS5nb8BxImOhnVSx0E6qWGgnVSy0kyoW2kkVC+2kioV2UmUs9N1pEgNuHAuNjQE3joXGxoAbx0JjY8CNY6GxMeDGsdDYGHDjWGhsDLhxLDQ2Btw4FhobA24cC42NATeOhcbGgBuHW+jrT/r7g6dXj3nraXSyAh4WnRpqoa/dj2vl+dWD5s9y4CYTOgzwdekX8DALfe1vDgt95aBNJnQcYAu9Jc83w9/3s+u9f2O73ue3s19O3gUpaHMKHQOYBDG10D2wx7tidx24Xuu34ye7A58VBMkLmAQxs9C/ufYsB2+MPdrJ7cKT9/G9U5MXMAlhdqHvPbu3eV9Hb4kcuPmEvkcBJiGcWOhZC0MMuHGYhX5+vkvI++yN/CYSMAlfbqF7jkPeoze9e4X37Mn7+N6pyQqYBC+30Pf+X8Nn3yrdH0gHjxe/VXr8Fr33epICnn6ePi/cQr8IBcH3YsCNY6GxMeDGsdDYGHDjSAstGANuHAuNjQE3joXGxoAbx0JjY8CNY6GxMeDGsdDYGHDjLAntOOIZC/01zvRxJa+X8JSct1l+wOKDtNDYEn7A4oO00NgSfsDig7TQ2BJ+wOKDtNDYEn7A4oO00NgSfsDig7TQ2BJ+wOKDtNDYEn7A4oO00NgSfsDig7TQ2BJ+wOKDtNDYEn7A4oO00NgSfsDig7TQ2BJ+wOKDtNDYEn7A4oO00NgSfsDig7TQ2BJ+wOKDtNDYEn7A4oO00NgSfsDig7TQ2BJ+wOKDtNDYEn7A4oNcEtpxxENzhS7fp+fn9Se+QicCrPCRgwD3D/DEQmcCbKE3xkI3joXGxkI3joXGxkI3joXGxkI3joXGxkI3zscLXQb/rIIa3qsetNIwOPjjhNYErCv0kPkq7zK58wbv8slCawK20CsN5aOv0JqApYT+3cYfhvIPRfm7HT3996MCrTzeEbvX890vXeJdPu4jRwLASkJ3cJ6U/qANny6Vy8OY9/MCMv28N5jEAPkHCZ0BsJDQHbbnnQGtMmA4e78r/U1ZPLCejxI6BWAhof+96iLOm1noFICVhO5g7+H9RD54K328/1noRICFhN7/jvhdqrynUBEf8ZiFTgH444X2FToXYDWhd33Ee/4YHTS7kgB40wutDlhI6O5b0SHvUpZ4j9/vRrzL4wvVV1+TtuDNLHQKwNuFPjHLPHA5m0HTnA33N4CXyXaFPjWfcIU+NR/4kePUWOjG+SChGYD7v/UtAlhD6LM/5f17+YmF/soDWELo4aZOSctXPD7JO12RgBkIf5LQh1Y0+7QQUsIP+OUSJsAWOu48FvrYeSz0thXtPv6GlPADfrWECnB+oQvoPHtL+AG/WMIF2EJHnWdvCT9gC715CaAk7t+fLfTyL5k3m0voAjrP/hJ+wKtL2AAnF7qAznOghB/w2hI6wBY65DwHSvgBW+jNS1qXlNdLQs5zpIQf8MoSPsCphS6vl4Sc51AJP+DlJYSALXTAeQ6V8AO20JuXtC0pr5eEnOdYCT/gxSWMgBMLXV4vCTnPwRJ+wEtLKAFb6MPnOVjCDzip0I4jHukrdHm9JOQ8h0v4AdeXkALO+pGjvF4Scp7jJfyAq0tYAVvoY+c5XsIP2EJvXtKspLxeEnKegBJ+wLUltIBzCq20WX7AtU23OI+FXlyhtFl+wBZ685JWjoDOE1LCD3gDT+rNygu9wfCQ88SU8APecD0m3qyF3r/CQh86j4Wur9jwmTrkPEEl/ICnS6gB5xO6dgDtZr8EheYGbKH3nieqhB+whd68pEFJdT3rZv89Qw94vIQccDah68tJN/v3DD3g0RJ2wMmEXljNudnHM/SAh0voAVvoXecJLOEHbKE3L4kuWVpMudnuGXrAgyX8gImFvlwujyW/9y7dj7+nu7uX/qnf/2ODSyV90/Do8M3uL1kCvLjTXaebtHUPf27L43ZIp7vb4/u9+QP8LLgMFpbuqequ/5Z0jdWtjI69DO+tvuLK6crsGBKhn6hqks6e+l4S+tI1jWcWu9kDJQuAV/7s7TjdpG3wJ33g5aX2sLuKfHWAnwX9BeYyntJ0E+O11a2MfjG5t/KKa6ebH8Mh9BNV1dJp/uH+/t60tuoJmdArO91xuklb93ByW384A/xVuZyU6Z+J+Uupj6Dyi9m9xVdcO13lmAWhwelIlfplt8b7e6vQZ76ujYnd6aStezi5rT+cAS6VkYyfqp68PoKVptcQar9fO0btCr1Z6PDNHimpA17Z6Y7TTdq6h5Pb+sMZ4K8kV+i3YeI/Q9d99mfosM/Q313L6Ff+DL1txeXtbzkutfRN/pZjXn5571uOZ8uT7MXfcjCW8AnNs2fxQVpobAk/YPFBWmhsCT9g8UFaaGwJP2DxQVpobAk/YPFBWmhsCT9g8UFaaGwJP2DxQVpobAk/YPFBWmhsCT9g8UFaaGwJP2DxQVpobAk/YPFBWmhsCT9g8UFaaGwJP2DxQVpobAk/YPFBWmhsCT9g8UFaaGwJP2DxQS4J7Tji8RUaUcIPWHyQFhpbwg9YfJAWGlvCD1h8kBYaW8IPWHyQFhpbwg9YfJAWGlvCD1h8kBYaW8IPWHyQFhpbwg9YfJAWGlvCD1h8kBYaW8IPWHyQFhpbwg9YfJAWGlvCD1h8kBYaW8IPWHyQFhpbwg9YfJAWGlvCD1h8kBYaW8IPWHyQFhpbwg9YfJAWGlvCD1h8kBYaW8IPWHyQFhpbwg9YfJBLQjuOeHyFRpTwAxYfpIXGlvADFh+khcaW8AMWH6SFxpbwAxYfpIXGlvADFh+khcaW8AMWH6SFxpbwAxYfpIXGlvADFh+khcaW8AMWH6SFxpbwAxYfpIXGlvADFh+khcaW8AMWH6SFxpbwAxYfpIXGlvADFh+khcaW8AMWH6SFxpbwAxYfpIXGlvADFh+khcaW8AMWH6SFxpbwAxYfpIXGlvADFh/kktCOIx5foREl/IDFB2mhsSX8gMUHaaGxJfyAxQdpobEl/IDFB2mhsSX8gMUHaaGxJfyAxQdpobEl/IDFB2mhsSX8gMUHaaGxJfyAxQdpobEl/IDFB2mhsSX8gMUHaaGxJfyAxQdpobEl/IDFB2mhsSX8gMUHaaGxJfyAxQdpobEl/IDFB2mhsSX8gMUHaaGxJfyAxQdpobEl/IDFB7kk9CT/rf1ya3hKmLYS2JWNzbESC31KSWRXNjYWGttioalLLPQpJZFd2dhYaGyLhaYu8f/QjJMqFtpJFQvtpIqFdlLFQjupYqGdVFkU+vaT4e3O3EZle0uOHR61kSAksW0hgCNeEgngJaFvjx+3/sGu3J7HHyg5dnjURoKQxLaFAI54SSyA2wp9KyRCR2yEUegYwAEviQbw6mfogOmRCB2zkRIodFQbidA0gC302zUWut1G2gp9Kxy8iYSOQBLblkzow0gs9NstFrrdRloI3X9ncmSHISV92bHDpyWn20MHmEfo4yXLV+gpr31JJXQMkti2VEIHIFn+i5XBjYV+VoQJTQSYRegIJIvfQ98eb2oMf5HF8TeFUUhi20IAc/xNYQgS/2c5nFSx0E6qWGgnVSy0kyoW2kkVC+2kioV2UsVCO6lioZ1UsdBOqlhoJ1UstJMqFtpJlf8BZzM46YX627UAAAAASUVORK5CYII=" } }, "cell_type": "markdown", "id": "dried-briefs", "metadata": {}, "source": [ "![Initiales_Beispiel_Streuung.png](attachment:Initiales_Beispiel_Streuung.png)" ] }, { "attachments": { "Initiales_Beispiel_Streuung_Histogramm_ohne_Facettenlabel.png": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAtAAAADwCAMAAAAeuqOxAAAAD1BMVEUzMzNNTU1ZWVnr6+v///8nFuxNAAAACXBIWXMAABJ0AAASdAHeZh94AAAJOElEQVR4nO2a0Y7cRhIEtdb8/zfbgAS5pQQhNquyWdUd9XDG5XJykuHA3sHWtw/HbXTf3h7AcZmH0NxWh9DcVofQ3FaH0NxWh9DcVofQ3FaH0NxW97vQ3y/u8gd//2ngo/sUA9hcjNBriwFsLkbotcUANhcj9NpiAJuLEXptMYDNxQi9thjA5mKEXlsMYHMxQq8tBrC5GKHXFgPYXNxL6M/UVVgscW3A/YubCf3PxCH0icUI7V0scW3A/YsR2rtY4tqA+xcjtHexxLUB9y++ErroTQnNHX38hnYslrg24P7FCO1dLHFtwP2LEdq7WOLagPsXI7R3scS1AfcvRmjvYolrA+5fjNDexRLXBty/GKG9iyWuDbh/MUJ7F0tcG3D/YoT2Lpa4NuD+xQjtXSxxbcD9ixHau1ji2oD7FyO0d7HEtQH3L0Zo72KJawPuX4zQ3sUS1wbcvxihvYslrg24fzFCexdLXBtw/2KE9i6WuDbg/sUI7V0scW3A/YsR2rtY4tqA+xcjtHexxLUB9y9GaO9iiWsD7l+M0N7FEtcG3L8Yob2LJa4NuH8xQnsXS1wbcP9ihPYulrg24P7FCO1dLHFtwP2LEdq7WOLagPsXI7R3scS1AfcvvhK66E0JzR19/IZ2LJa4NuD+xQjtXSxxbcD9ixHau1ji2oD7FyO0d7HEtQH3L0Zo72KJawPuX4zQ3sUS1wbcvxihvYslrg24fzFCexdLXBtw/2KE9i6WuDbg/sUI7V0scW3A/YsR2rtY4tqA+xcjtHexxLUB9y9GaO9iiWsD7l+M0N7FEtcG3L8Yob2LJa4NuH8xQnsXS1wbcP9ihPYulrg24P7FCO1dLHFtwP2LEdq7WOLagPsXI7R3scS1AfcvRmjvYolrA+5fjNDexRLXBty/GKG9iyWuDbh/MUJ7F0tcG3D/YoT2Lpa4NuD+xQjtXSxxbcD9ixHau1ji2oD7FyO0d7HEtQH3L74SuuhNCc0dffyGdiyWuDbg/sUI7V0scW3A/YsR2rtY4tqA+xcjtHexxLUB9y9GaO9iiWsD7l+M0N7FEtcG3L8Yob2LJa4NuH8xQnsXS1wbcP9ihPYulrg24P7FCO1dLHFtwP2LEdq7WOLagPsXI7R3scS1AfcvRmjvYolrA+5fjNDexRLXBty/GKG9iyWuDbh/MUJ7F0tcG3D/YoT2Lpa4NuD+xQjtXSxxbcD9ixHau1ji2oD7FyO0d7HEtQH3L0Zo72KJawPuX4zQ3sUS1wbcvxihvYslrg24fzFCexdLXBtw/2KE9i6WuDbg/sUI7V0scW3A/YsR2rtY4tqA+xcjtHexxLUB9y++ErroTQnNHX38hnYslhjAuYslRmjrYokBnLtYYoS2LpYYwLmLJUZo62KJAZy7WGKEti6WGMC5iyVGaOtiiQGcu1hihLYulhjAuYslRmjrYokBnLtYYoS2LpYYwLmLJUZo62KJAZy7WGKEti6WGMC5iyVGaOtiiQGcu1hihLYulhjAuYslRmjrYokBnLtYYoS2LpYYwLmLJUZo62KJAZy7WGKEti6WGMC5iyVGaOtiiQGcu1hihLYulhjAuYslRmjrYokBnLtYYoS2LpYYwLmLJUZo62KJAZy7WGKEti6WGMC5iyVGaOtiiQGcu1hihLYulhjAuYslRmjrYokBnLtYYoS2LpYYwLmLJUZo62KJAZy7WOILoYveFG9u/jYCzG9ox2KJAZy7WGKEti6WGMC5iyVGaOtiiQGcu1hihLYulhjAuYslRmjrYokBnLtYYoS2LpZ4J8Az51osMUJbF0u8E+D5vxn5iyVGaOtiiXcCjNDRnyJ0+qDff4rQEz9F6O8Inb5YYoS2LpZ4J8Azz05d4H0Q2rtY4p0Am54N/Z1DaO9iiXcCbHoWofOxpC2WeCfApmcROh9L2mKJdwJsehah87GkLZZ4J8CmZxH6AsvMuRZLvBNg07MIncDbtVjiUwFPFQfeB6FHhPmLJT4V8FRx4H0QekSYv1jiUwFPFQfeB6FHhPmLJT4V8FRx4H0QekSYv1jiUwFPFQfeB6FHhPmLJT4V8FRx4H0QekSYv1jiUwFPFQfeB6FHhPmLJT4V8FRx4H0QekSYv1jiUwFPFQfeB6FHhPmLJT4V8FRx4H0QekSYv1jiUwFPFQfe50roomfjzf04G+Cp4pTjN7RjscTLAduY9foN/YgoQv/1pwh95+EACoQeEeYvlhihbzwcQIHQI8L8xRIj9I2HAygQekSYv1hihL7xcAAFQo8I8xdLjNA3Hg6gQOgRYf5iiRH6xsMBFAg9IsxfLDFC33g4gAKhR4T5iyVG6BsPB1Ag9Igwf7HECH3j4QAKhB4R5i+WGKFvPBxAgdAjwvzFEiP0jYcDKBB6RJi/WGKEvvFwAAVCjwjzF0uM0DceDqBA6BFh/mKJEfrGwwEUCD0izF8sMULfeDiA4nWhP1Nn4539sggdKZ66C8CvCe1CiNA/0xqAfSsuACN06ssi9KJihL5DJf6yCL2oGKHvUIm/LEIvKkboO1TiL4vQi4oR+g6V+MtOC/2ZuomvLALYt+KKI0Jnvuy80FOvNvGVRQD7VlwARujUl0XoRcUIfYdK/GURelExQt+hEn9ZhF5UjNB3qMRfFqEXFd8VmuOaX4c/bde/GMDmYoReWwxgczFCry0GsLkYodcWA9hcjNBriwFsLkbotcUANhcj9NpiAJuLr4R+doGOdz761te+8J3HAUbohV/7wnceBxihF37tC995HGCEXvi1L3zncYAReuHXvvCdxwHmDydxWx1Cc1sdQnNbHUJzWx1Cc1sdQnNbXVTor/9u/Ovch3+rePS98/f4S0Ov+vgAPHdBob9+/sfXr/8y8+H/PzX90Scfin1p6FUfH4An70Whvz4v8H7+pf2EPhJwxv+HfjzijV8ggS/9vCB07FsPBIzQsx9GaNuXfmoI/fU5hvfzV40cgCcOoWc/i9C2L31V6F//bGV+f+CjvyqefOjPjy7048EB+NGFf0P/SW76s314R171+QF46sL/YmX4y+a8Q6/6+AA8d9F/Dv3183/e9v8XWbFXfXoAnjz+LAe31SE0t9UhNLfVITS31SE0t9UhNLfVITS31SE0t9UhNLfVITS31SE0t9UhNLfVITS31f0LdFFM6OoTB+MAAAAASUVORK5CYII=" } }, "cell_type": "markdown", "id": "sacred-demonstration", "metadata": {}, "source": [ "![Initiales_Beispiel_Streuung_Histogramm_ohne_Facettenlabel.png](attachment:Initiales_Beispiel_Streuung_Histogramm_ohne_Facettenlabel.png)" ] }, { "cell_type": "markdown", "id": "lesbian-reporter", "metadata": {}, "source": [ "Neben Kennzahlen zur zentralen Tendenz ist es daher auch von Interesse die Variabilität in den Daten näher zu betrachten. Insbesondere die (durchschnittliche) Abweichung vom gewählten Mittelwert ist dabei häufig von Interesse, aber auch über welchen Wertebereich sich (gerade metrische) Variablen insgesamt oder die überwiegende Mehrheit der Daten verteilen.\n", "\n", "Wir werden wie zuvor mit statistischen Kennzahlen beginnen, die sich auch auf einer Ordinalskala anwenden lassen, auch wenn den Variabilitätsmaßen bei metrischen Daten i.d.R. eine höhere Bedeutung innewohnt, da der Wertebereich hier deutlich größer sein kann.\n", "\n", "#### Variationsbreite\n", "Die Variationsbreite oder auch Spannweite (engl. *range*) gibt die Größe des Wertebereichs für ein Merkmal an. Sie berechnet sich aus der Differenz zwischen dem kleinsten Wert und dem größten Wert einer Verteilung. \n", "\n", "$$ SP = x_{max} - x_{min}$$\n", "\n", "Für die oben eingeführten Beispiele ergibt sich entsprechend:\n", "\n", "|Mitarbeiter|M1|M2|M3|M4|M5|M6|M7|(M8)|\n", "|-|-|-|-|-|-|-|-|-|\n", "|Gehalt|2856|2350|2236|2910|3108|
3207
|
2100
|
(10000)
|\n", "\n", "$$ SP_{Beispiel 1} = x_{M6} - x_{M7} = 3207 - 2100 = 1107$$\n", "\n", "$$ SP_{Beispiel 2} = x_{M8} - x_{M7} = 10000 - 2100 = 7900$$" ] }, { "cell_type": "markdown", "id": "fantastic-acrobat", "metadata": {}, "source": [ "Wie Sie sehen, ist auch dieses Maß sensibel gegenüber Ausreißern. So hat sich durch das Geschäftsführergehalt die Variationsbreite um das 7-fache vergrößert." ] }, { "attachments": { "Interquartilbereich.svg": { "image/svg+xml": [ "" ] } }, "cell_type": "markdown", "id": "velvet-houston", "metadata": {}, "source": [ "#### Interquartilbereich\n", "Eine statistische Kennzahl, die deutlich robuster gegenüber Ausreißern ist, ist der sogenannte Interquartilbereich. In diesem Bereich liegt die mittlere Hälfte der Daten. Die Berechnung des Interquartilbereichs erfolgt dabei ähnlich wie bei der Variationsbreite, jedoch werden vor der Ermittlung des kleinsten und größten Wertes die oberen und unteren 25% der Daten abgeschnitten. Anders beschrieben, stellen der untere und der obere Angelpunkt (auch Quartil) die Mediane der unteren und oberen Hälfte der Verteilung dar. Auch hier müssen die Werte nicht zwingend Teil der Verteilung sein, bei einer geraden Anzahl von Werten bei den beiden Verteilungshälften wird ähnlich wie zuvor beim Median wieder ein gemittelter Wert errechnet.\n", "\n", "Betrachten wir zur Verdeutlichung wieder die obigen Beispiele:\n", "![Interquartilbereich.svg](attachment:Interquartilbereich.svg)" ] }, { "attachments": { "Interquartilbereich_gerade.svg": { "image/svg+xml": [ "" ] } }, "cell_type": "markdown", "id": "front-balloon", "metadata": {}, "source": [ "![Interquartilbereich_gerade.svg](attachment:Interquartilbereich_gerade.svg)" ] }, { "cell_type": "markdown", "id": "later-instrumentation", "metadata": {}, "source": [ "Für den Interquartilbereich der beiden Beispiele ergibt sich daraus:\n", "\n", "$$IQR_{Beispiel 1} = 2350 - 3207 = 758 \\qquad\\qquad IQR_{Beispiel 2} = 3157,5 - 2293 = 864,5$$" ] }, { "cell_type": "markdown", "id": "decent-defense", "metadata": {}, "source": [ "Aus den Beispielen wird ersichtlich, dass der Interquartilbereich nicht sensibel auf Ausreißer reagiert. Zu Bedenken ist aber, dass hier auch lediglich 50% der Daten betrachtet werden. Werden die verschiedenen Kennwerte im Verhältnis zueinander dargestellt, lässt sich daraus ein Eindruck der Verteilung eines Merkmals gewinnen.\n", "\n" ] }, { "cell_type": "markdown", "id": "direct-armor", "metadata": {}, "source": [ "In `R` lässt sich der Interquartilbereich u.a. mit der Funktion `IQR` berechnen. Eine Anwendung sehen Sie in folgender Zelle für unseren Beispieldatensatz. Eine komfortablere Variante, die gleich eine Übersicht über mehrere der besprochenen Kennzahlen liefert, stellt die Funktion `summary` dar." ] }, { "cell_type": "code", "execution_count": null, "id": "institutional-jamaica", "metadata": {}, "outputs": [], "source": [ "IQR(sample_data$Groesse)" ] }, { "cell_type": "code", "execution_count": null, "id": "polish-vulnerability", "metadata": {}, "outputs": [], "source": [ "summary(sample_data$Groesse)" ] }, { "attachments": { "boxplot.svg": { "image/svg+xml": [ "" ] } }, "cell_type": "markdown", "id": "waiting-chair", "metadata": {}, "source": [ "#### Boxplot\n", "Eine gute graphische Darstellungsmöglichkeit der besprochenen Kennzahlen stellt der Boxplot mit seiner Möglichkeit gleichzeitig sowohl die zentrale Tendenz als auch Angaben zur Variation in den Daten zu veranschaulichen. Neben dem Median werden auch der Interquartilbereich (als Box) und die Spannweite graphisch dargestellt. Dabei werden üblicher Weise alle Werte, die das 1,5-fache des Interquartilbereichs überschreiten als Ausreißer betrachtet und separat durch Punkte in der Graphik dargestellt. Liegen Ausreißer vor, werden die sogenannten Whisker durch diejenigen Werte begrenzt, die gerade noch innerhalb des 1,5-fachen Interquartilbereichs liegen. Liegen keine Ausreißer vor, so werden Sie durch den jeweils größten und kleinsten Wert begrenzt.\n", "\n", "![boxplot.svg](attachment:boxplot.svg)\n", "\n", "Sowohl die Standardbibliothek mit `boxplot` als auch `ggplot2` mit `geom_boxplot` bieten jeweils Funktionen zur Darstellung von Boxplots. " ] }, { "cell_type": "code", "execution_count": null, "id": "seeing-access", "metadata": {}, "outputs": [], "source": [ "#Wenn Ihnen die Garphiken zu groß sind, dann können Sie mit der Funktion options() Anpassungen vornehmen\n", "library(repr)\n", "options(repr.plot.width=3, repr.plot.height=4)\n", "\n", "boxplot(sample_data$Groesse)\n", "ggplot(sample_data, aes(y=Groesse)) +\n", " stat_boxplot(geom = \"errorbar\", width = 0.3) +#Ergänzen von waagerechten Begrenzungen der Whisker\n", " geom_boxplot()" ] }, { "cell_type": "markdown", "id": "cloudy-cowboy", "metadata": {}, "source": [ "#### Varianz und Standardabweichung\n", "\n", "Die bisher vorgestellten Variabilitätsmaße haben als Bezugsgröße aus der Klasse der Lagemaße den Median verwendet. Aber auch für die Abweichungen vom arithmetischen Mittelwert gibt es verschiedene Kennzahlen, die Auskunft über die Streuung der Daten geben. \n", "\n", "Nach einigen Überlegungen stellen Sie intuitiv vielleicht die Überlegung an, dass die durchschnittliche Abweichung vom arithmetischen Mittel, also der Mittelwert der Differenzen zwischen den einzelnen Messwerten und dem arithmetischen Mittelwert ($x_i - \\bar{x}$), eine gute Kenngröße sein könnte. Wie Sie unten stehender Tabelle entnehmen können, ist dies leider nicht direkt zielführend, da sich die positiven und negativen Differenzen gegenseitig aufheben und die Summe insgesamt 0 beträgt. Eine häufig verwendete Möglichkeit dieses Problem zu umgehen, stellt das Quadrieren der Differenzen dar. Auf diese Weise wird sichergestellt, dass das Ergebnis der Einzelberechnungen jeweils positiv ist.[3](#footnote3 \"Erläuterungen zum Betrag der Differenz\") \n", "\n", "| | | Differenzen $$(x_i-\\bar{x})$$|Quadrierte Differenzen $$(x_i-\\bar{x})^2$$|\n", "|-|-|-||\n", "|2.856-2.681|=|175|30.625|\n", "|2.350-2.681|=|-331|109.561|\n", "|2.236-2.681|=|-445|198.025|\n", "|2.910-2.681|=|229|52.441|\n", "|3.108-2.681|=|427|182.329|\n", "|3.207-2.681|=|526|276.676|\n", "|2.100-2.681|=|-581|337.561|\n", "||$$\\sum$$|**0**|**1.187.218**|\n", "\n", "Setzen wir nun statt der einzelnen Messwerte in die Formel des arithmetischen Mittelwerts ($ \\bar{x} = \\frac{1}{n} \\sum_{i=1}^{n} x_i $) die Differenzen ein, ergibt sich die Formel für die als Varianz ($\\sigma^2$) bekannte statistische Kennzahl:\n", "\n", "$$ \\sigma^2 = \\frac{1}{n} \\sum_{i=1}^{n} (x_i-\\bar{x})^2 = \\frac{(x_1 - \\bar{x})^2 + (x_2 - \\bar{x})^2 + (x_3 - \\bar{x})^2 + ... + (x_n - \\bar{x})^2}{n}$$\n", "\n", "Wenn die auszuwertenden Daten aus einer Stichprobe stammen, dann wird die Varianz mit einer leicht modifizierten Version der obigen Formel berechnet. Statt durch die Anzahl der Elemente in der Stichprobe (n) wird die Summe der quadrierten Abweichungen vom arithmetischen Mittel durch $n-1$ geteilt. Die Erläuterung dieser Vorgehensweise führt in das Themengebiet der sogenannten Freiheitsgrade und wird an dieser Stelle nicht näher thematisiert. Der interessierte Leser sei aber auf Bortz und Schuster (2010, S. 121) verwiesen. Die Verrignerung des Nenners um den Wert 1 hat zur Folge, dass die in einer Stichprobe vorliegende Variablität, die die Variabilität in der Grundgesamtheit tendenziell unterschätzt, im Ergebnis der Varianz etwas größer wird.\n", "\n", "Empirische Varianz ($s^2$):\n", "$$ s^2 = \\frac{1}{n-1} \\sum_{i=1}^{n} (x_i-\\bar{x})^2 = \\frac{(x_1 - \\bar{x})^2 + (x_2 - \\bar{x})^2 + (x_3 - \\bar{x})^2 + ... + (x_n - \\bar{x})^2}{n-1}$$\n", "\n", "Für das Beispiel mit den Gehältern ergibt sich durch Einsetzen entsprechend Folgendes:\n", "\n", "$$ s^2 = \\frac{(2.856 - 2.681)^2 + (2.350 - 2.681)^2 + (2.236 - 2.681)^2 + (2.910 - 2.681)^2 + (3.108 - 2.681)^2+ (3.207 - 2.681)^2+ (2.100 - 2.681)^2}{7-1} = \\frac{1.187.218}{6} $$\n", "\n", "$$\\approx 197.869,67$$\n", "\n", "Die Interpretation dieses Ergebnisses ist zunächst nicht intuitiv, da durch die Quadrierung der Differenzen auch die Einheiten entsprechend quadriert wurden. Der Wert der Varianz liegt also in einer anderen Einheitendimension $(hier: €^2)$ als der arithmetische Mittelwert. Basierend auf der Varianz wird daher die Standardabweichung als Wurzel aus der Varianz berechnet:\n", "\n", "$$ s = \\sqrt{s^2} = \\sqrt{\\frac{1}{n-1} \\sum_{i=1}^{n} (x_i-\\bar{x})^2} = \\sqrt{\\frac{(x_1 - \\bar{x})^2 + (x_2 - \\bar{x})^2 + (x_3 - \\bar{x})^2 + ... + (x_n - \\bar{x})^2}{n-1}}$$\n", "\n", "Für unser obiges Beispiel erhalten wir für die Standardabweichung demnach folgenden Wert: $ s = \\sqrt{197.869,67} \\approx 444,83$" ] }, { "cell_type": "markdown", "id": "handmade-retrieval", "metadata": {}, "source": [ "Die Berechnung von Varianz und Standardabweichung erfolgt in `R` mit den Funktionen `var()` und `sd()`." ] }, { "cell_type": "code", "execution_count": null, "id": "cutting-place", "metadata": {}, "outputs": [], "source": [ "#Berechnen der Varianz und anschließendes Runden auf zwei Stellen nach dem Komma\n", "round(var(sample_data$Groesse), 2)\n", "\n", "#Berechnen der Standardabweichung\n", "round(sd(sample_data$Groesse), 2)" ] }, { "cell_type": "markdown", "id": "massive-cisco", "metadata": {}, "source": [ "### Aufgabe\n", "Betrachten Sie die anderen Merkmale des Datensatzes und berechnen Sie die möglichen Streuungsmaße. Welches Streuungsmaße würden Sie in den verschiedenen Fällen wählen? Begründen Sie Ihre Wahl." ] }, { "cell_type": "code", "execution_count": null, "id": "velvet-australian", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "id": "visible-intellectual", "metadata": {}, "source": [ "# Quellen und weiterführende Literatur\n", "- Bortz, Jürgen; Schuster, Christof (2010): Statistik für Human- und Sozialwissenschaftler. Mit … 163 Tabellen. 7., vollst. überarb. und erw. Aufl. Berlin: Springer (Springer-Lehrbuch).\n", "- Field, Andy; Miles, Jeremy; Field, Zoë (2012): Discovering statistics using R. London: SAGE.\n", "- Freedman, David; Diaconis, Persi (1981): On the histogram as a density estimator:L 2 theory. In: Z. Wahrscheinlichkeitstheorie verw Gebiete 57 (4), S. 453–476. DOI: 10.1007/BF01025868.\n", "- Häder, Michael (2015): Empirische Sozialforschung. Wiesbaden: Springer Fachmedien Wiesbaden.\n", "- Manderscheid, Katharina (2017): Sozialwissenschaftliche Datenanalyse mit R. Eine Einführung. 2. Auflage. Wiesbaden: Springer VS (Lehrbuch).\n", "- Sturges, Herbert A. (1926): The Choice of a Class Interval. In: Journal of the American Statistical Association 21 (153), S. 65–66. Online verfügbar unter http://www.jstor.org/stable/2965501.\n", "- Scott, David W. (1979): On optimal and data-based histograms. In: Biometrika 66 (3), S. 605–610. DOI: 10.1093/biomet/66.3.605." ] }, { "cell_type": "markdown", "id": "front-extreme", "metadata": {}, "source": [ "# Fußnoten\n", "\n", "1 Eine gut verständliche Einführung in diese Bibliothek finden Sie z.B. bei Ellis und Meyer von der Universität Bern: Ellis, Andrew; Mayer, Boris (2021): Einführung in R. Online verfügbar unter https://methodenlehre.github.io/einfuehrung-in-R/, zuletzt aktualisiert am 17.02.2021, zuletzt geprüft am 02.03.2021. [▲](#footnote1_in_text)\n", "\n", "2 Die Funktion `describe()` aus dem Paket `psych` liefert neben Berechnungen zur Schiefe und Wölbung auch weitere statistische Kennzahlen, die bisher aber noch nicht thematisiert wurden. Eine Erläuterung erfolgt daher zu einem späteren Zeitpunkt. [▲](#footnote2_in_text)\n", "\n", "3 Alternativ ist auch die Verwendung des Betrags der Differenzen möglich $|x_i - \\bar{x}|$, da verschiedentlich für andere Berechnungen die Ableitungen benötigt werden, welche von einer entsprechenden Betragsfunktion nicht gebildet werden können, wird diese Variante üblicher Weise vernachlässigt. [▲](#footnote3_in_text)" ] } ], "metadata": { "kernelspec": { "display_name": "R", "language": "R", "name": "ir" }, "language_info": { "codemirror_mode": "r", "file_extension": ".r", "mimetype": "text/x-r-source", "name": "R", "pygments_lexer": "r", "version": "3.6.1" }, "toc": { "base_numbering": 1, "nav_menu": {}, "number_sections": false, "sideBar": true, "skip_h1_title": true, "title_cell": "Table of Contents", "title_sidebar": "Contents", "toc_cell": true, "toc_position": { "height": "calc(100% - 180px)", "left": "10px", "top": "150px", "width": "299px" }, "toc_section_display": true, "toc_window_display": true } }, "nbformat": 4, "nbformat_minor": 5 }