Statistik I

Der Kurs kann kein Statistik-Seminar ersetzen, es werden nur elementare Grundlagen vermittelt. Es wird so weit wie möglich auf mathematische Formeln verzichtet. Für ein tieferes Studium der Statistik wird das Lehrbuch Statistik: Der Weg zur Datenanalyse (Affiliate-Link) empfohlen.

Es werden drei Teilbereiche der Statistik unterschieden:

  • Deskriptive Statistik: Data is described, validated, visualized and compressed. Averages and Distribution are part of descriptive statistics.
  • Explorative Statistik: Patterns and structures in the data are searched so that new questions and hypothesis can be generated.
  • Inferentielle Statistik: Drawing conclusions from data based on models.

In der Statistik und in der Datenanalyse wird ein fachspezifisches Vokabular verwendet, das nicht unbedingt mit dem Vokabular der Webanalyse kompatibel ist. Fahrmeir et al unterscheiden die folgenden elementaren Begriffe (weitere Begriffe werden während des Kurses eingeführt):

  • Statistische Einheiten: Dies sind die Objekte, an denen Merkmale erfasst werden.
  • Grundgesamtheit: Auch (Gesamt-)Population genannt. Menge aller Einheiten, die statistisch relevant sind für eine bestimmte Fragestellung
  • Teilgesamtheit oder Teilpopulation: Teilmenge einer Grundgesamtheit
  • Stichprobe: Oft auch Sample genannt. Die tatsächlich untersuchte Teilmenge einer Grundgesamtheit
  • Merkmal oder Variable:: Die interessierende Größe einer statistischen Einheit
  • Merkmalsausprägung: Der Wert eines Merkmals der statistischen Einheit

Diese Begriffe sollen an einem Beispiel erläutert werden, und zwar am berühmten Beispiel der Sonntagsfrage. Hier interessieren verschiedene Merkmale der Wähler, die die statistischen Einheiten bilden. Alle Wahlberechtigten sind die Grundgesamtheit. Würde man nur die weiblichen Wahlberechtigten befragen, so hätte man eine Teilgesamtheit. Da nicht alle Wahlberechtigten gefragt werden können (und auch die Teilpopulation der Frauen nicht befragbar ist) für eine Sonntagsfrage, wird eine Stichprobe genutzt. Bei dieser Stichprobe interessiert primär das Merkmal Parteipräferenz, welches die Ausprägungen CDU, Grüne, Linke, SPD, etc haben kann. Eventuell werden aber auch noch weitere Merkmale abgefragt, wie zum Beispiel Alter, Geschlecht, Verdienst, Region.

Nächster Abschnitt: Arithmetisches Mittel, Median und Modus