Statistik- und Data Science-Glossar

ANOVA (Varianzanalyse): Hypothesentest-Verfahren zum Vergleich von Mittelwerten zwischen mehreren Gruppen. Wird zur Analyse von Unterschieden zwischen Gruppenmittelwerten eingesetzt.

Arithmetisches Mittel: Lagemaß, das als Summe aller Werte geteilt durch deren Anzahl berechnet wird; der allgemein bekannte „Durchschnitt“.

ARIMA-Modelle: Autoregressive Integrated Moving Average; Zeitreihenanalyse-Modelle zur Analyse und Prognose von Zeitreihen mit komplexen Abhängigkeitsstrukturen.

Autokorrelation: Maß in der Zeitreihenanalyse, das die Korrelation einer Zeitreihe mit zeitverschobenen Versionen ihrer selbst beschreibt.

Bayessche Schätzung: Schätzverfahren, das Vorwissen (Prior) bei der Schätzung von Parametern berücksichtigt und die Bayes’sche Statistik nutzt.

Bayessche Statistik: Moderne statistische Methode, die Vorwissen (Prior) mit beobachteten Daten kombiniert, um Schlussfolgerungen zu ziehen.

Bedingte Wahrscheinlichkeit: Konzept aus der Wahrscheinlichkeitstheorie, das die Wahrscheinlichkeit eines Ereignisses unter der Bedingung, dass ein anderes Ereignis eingetreten ist, beschreibt.

Bestimmtheitsmaß R²: Kennzahl der Regressionsanalyse, die den Anteil der Varianz der abhängigen Variable angibt, der durch das Modell erklärt wird.

Big Data: Moderne Methode zur Analyse sehr großer, komplexer Datensätze, die aufgrund ihrer Größe, Komplexität und Dynamik mit traditionellen Methoden schwer zu verarbeiten sind.

Binomialverteilung: Diskrete Wahrscheinlichkeitsverteilung, die die Anzahl der Erfolge in einer festen Anzahl unabhängiger Versuche mit konstanter Erfolgswahrscheinlichkeit beschreibt.

Blockdesign: Experimentelles Design, bei dem ähnliche Untersuchungseinheiten in Blöcke gruppiert werden, um die Varianz zu reduzieren und die Aussagekraft zu erhöhen.

Bootstrapping: Moderne Resampling-Methode zur Schätzung der Stichprobenverteilung durch wiederholtes Ziehen mit Zurücklegen aus der Originalstichprobe.

Chi-Quadrat-Test: Hypothesentest auf Unabhängigkeit in Kontingenztabellen oder zur Prüfung der Anpassungsgüte von Verteilungen.

Chi-Quadrat-Verteilung: Wahrscheinlichkeitsverteilung, die die Summe der Quadrate von unabhängigen standardnormalverteilten Zufallsvariablen beschreibt.

Clusteranalyse: Multivariates Verfahren, das ähnliche Objekte in Gruppen (Cluster) basierend auf ihren Eigenschaften zusammenfasst.

Crossover-Design: Experimentelles Design, bei dem jede Versuchsperson mehrere Behandlungen in unterschiedlicher Reihenfolge erhält, um Behandlungseffekte von individuellen Unterschieden zu trennen.

Data Mining: Moderne Methode zur Entdeckung von Mustern in großen Datensätzen mittels statistischer Methoden, Machine Learning und Datenbanksystemen.

Datentypen: Klassifikation von Daten nach ihrem Informationsgehalt und den zulässigen statistischen Operationen:

  • Nominal: Kategoriale Daten ohne natürliche Reihenfolge (z.B. Haarfarbe)
  • Ordinal: Kategoriale Daten mit natürlicher Rangfolge (z.B. Schulnoten)
  • Metrisch: Numerische Daten mit definierten Abständen (Intervall) oder mit natürlichem Nullpunkt (Ratio)

Deskriptive/beschreibende Statistik: Grundlegende statistische Methoden zur Zusammenfassung, Darstellung und Beschreibung von Daten ohne darüber hinausgehende Schlussfolgerungen.

Diskriminanzanalyse: Multivariates Verfahren zur Klassifizierung von Objekten in vorgegebene Gruppen anhand ihrer Merkmale.

Erwartungswert: Konzept aus der Wahrscheinlichkeitstheorie; der „Durchschnittswert“ einer Zufallsvariable, berechnet als gewichtetes Mittel aller möglichen Werte.

Exponentialverteilung: Kontinuierliche Wahrscheinlichkeitsverteilung, die die Zeit zwischen Ereignissen in einem Poisson-Prozess modelliert.

F-Verteilung: Wahrscheinlichkeitsverteilung für den Quotienten zweier unabhängiger Chi-Quadrat-verteilter Zufallsvariablen; wichtig für Varianzanalysen.

Faktorielles Design: Experimentelles Design, das mehrere Faktoren und ihre Wechselwirkungen in einem einzigen Experiment untersucht.

Faktorenanalyse: Multivariates Verfahren zur Identifizierung zugrundeliegender Faktoren, die mehrere beobachtete Variablen beeinflussen.

Fehler 1. Art: Fehler bei Hypothesentests, bei dem eine wahre Nullhypothese irrtümlich verworfen wird.

Fehler 2. Art: Fehler bei Hypothesentests, bei dem eine falsche Nullhypothese irrtümlich beibehalten wird.

Geometrisches Mittel: Lagemaß, berechnet als die n-te Wurzel aus dem Produkt von n Werten; besonders nützlich für Wachstumsraten und Verhältniszahlen.

Geschichtete Stichprobe: Stichprobendesign, bei dem die Grundgesamtheit in Schichten unterteilt wird, aus denen jeweils separate Zufallsstichproben gezogen werden.

Gewichteter Mittelwert: Lagemaß, bei dessen Berechnung bestimmte Werte stärker berücksichtigt werden als andere.

Gleichverteilung: Wahrscheinlichkeitsverteilung, bei der alle möglichen Werte die gleiche Wahrscheinlichkeit haben.

Glättungsverfahren: Methoden der Zeitreihenanalyse zur Eliminierung kurzfristiger Schwankungen, um Trends oder andere Muster besser erkennbar zu machen.

Harmonisches Mittel: Lagemaß, berechnet als der Kehrwert des arithmetischen Mittels der Kehrwerte; besonders nützlich für Durchschnittsgeschwindigkeiten.

Hauptkomponentenanalyse: Multivariates Verfahren zur Dimensionsreduktion, das Daten durch Transformation in unkorrelierte Hauptkomponenten reduziert.

Häufigkeitsverteilung: Grundlegende Darstellung in der Statistik, die zeigt, wie oft die verschiedenen Ausprägungen eines Merkmals in einem Datensatz vorkommen.

Heteroskedastizität: Eigenschaft in der Regressionsanalyse, bei der die Varianz der Residuen systematisch mit den unabhängigen Variablen variiert.

Hypothesentest: Statistisches Verfahren zur Überprüfung von Annahmen über Populationsparameter auf Basis von Stichprobendaten.

Inferenzstatistik/schließende Statistik: Grundlegender Bereich der Statistik, der Methoden umfasst, um von Stichprobenergebnissen auf Eigenschaften der Grundgesamtheit zu schließen.

Interquartilsabstand: Streuungsmaß, berechnet als Differenz zwischen dem 3. und 1. Quartil; umfasst die mittleren 50% der Daten.

Intervallschätzung: Schätzverfahren zur Bestimmung eines Intervalls, in dem ein Parameter mit einer bestimmten Wahrscheinlichkeit liegt.

Irreguläre Komponente: Bestandteil der Zeitreihenanalyse, der die zufälligen, nicht erklärbaren Schwankungen in einer Zeitreihe beschreibt.

Kanonische Korrelation: Multivariates Verfahren zur Analyse der Beziehungen zwischen zwei Gruppen von Variablen.

Klumpenstichprobe: Stichprobendesign, bei dem natürliche Gruppen (Klumpen) statt einzelner Elemente ausgewählt werden.

Konfidenzintervall: Bereich in der Schätztheorie und Stichprobentheorie, der mit einer festgelegten Wahrscheinlichkeit den wahren Wert eines Parameters enthält.

Korrelation: Maß aus der Wahrscheinlichkeitstheorie für die Stärke und Richtung des linearen Zusammenhangs zwischen zwei Variablen; standardisierte Form der Kovarianz.

Kovarianz: Maß aus der Wahrscheinlichkeitstheorie für die gemeinsame Variabilität zweier Zufallsvariablen.

Kruskal-Wallis-Test: Nichtparametrischer Hypothesentest als Alternative zur einfaktoriellen ANOVA für unabhängige Stichproben.

Lagemaße: Statistische Kennzahlen, die die zentrale Tendenz einer Verteilung beschreiben (z.B. Mittelwert, Median, Modus).

Lateinisches Quadrat: Experimentelles Design, bei dem jede Behandlung in jeder Zeile und Spalte genau einmal vorkommt.

Lineare Regression: Regressionsanalyse-Verfahren zur Modellierung des linearen Zusammenhangs zwischen einer abhängigen und einer unabhängigen Variable.

Logistische Regression: Regressionsanalyse-Verfahren für binäre abhängige Variablen, das die Wahrscheinlichkeit eines Ereignisses modelliert.

Machine Learning: Moderne Methode mit Algorithmen, die aus Daten lernen und Vorhersagen treffen können, ohne explizit programmiert zu sein.

Mann-Whitney-U-Test: Nichtparametrischer Hypothesentest für unabhängige Stichproben; Alternative zum t-Test, wenn die Normalverteilungsannahme verletzt ist.

Maximum-Likelihood-Schätzung: Schätzverfahren zur Parameterschätzung, das die Wahrscheinlichkeit (Likelihood) der beobachteten Daten maximiert.

Median: Lagemaß, definiert als der mittlere Wert einer nach Größe geordneten Datenreihe; teilt die Daten in zwei gleich große Hälften.

Merkmalsausprägung: Grundlegender Begriff der Statistik für den konkreten Wert eines Merkmals bei einem bestimmten Merkmalsträger.

Merkmalsträger: Grundlegender Begriff der Statistik für Objekte oder Subjekte, die untersucht werden (z.B. Personen, Unternehmen).

Mittlere absolute Abweichung: Streuungsmaß, berechnet als Durchschnitt der absoluten Abweichungen vom Mittelwert oder Median.

Modus: Lagemaß, definiert als der am häufigsten vorkommende Wert in einem Datensatz.

Monte-Carlo-Simulation: Moderne zufallsbasierte Simulationstechnik zur Lösung komplexer Probleme durch wiederholte Stichprobenziehung.

Multikollinearität: Problem in der Regressionsanalyse, bei dem starke Korrelationen zwischen unabhängigen Variablen bestehen.

Multiple Regression: Erweiterung der linearen Regression in der Regressionsanalyse auf mehrere unabhängige Variablen.

Multidimensionale Skalierung: Multivariates Verfahren zur Visualisierung von Ähnlichkeiten zwischen Objekten als Distanzen in einem niedrigdimensionalen Raum.

Normalverteilung/Gauß-Verteilung: Symmetrische, glockenförmige Wahrscheinlichkeitsverteilung; viele natürliche Phänomene folgen ihr annähernd.

Null- und Alternativhypothese: Gegensätzliche Annahmen in Hypothesentests, die geprüft werden, um statistische Schlussfolgerungen zu ziehen.

p-Wert: Kennzahl in Hypothesentests, die die Wahrscheinlichkeit angibt, unter Annahme der Nullhypothese ein mindestens so extremes Ergebnis zu erhalten.

Poissonverteilung: Diskrete Wahrscheinlichkeitsverteilung, die die Anzahl von Ereignissen in einem festen Zeit- oder Raumintervall modelliert.

Population/Grundgesamtheit: Grundlegender Begriff der Statistik für die vollständige Menge aller Untersuchungseinheiten, über die Aussagen getroffen werden sollen.

Punktschätzung: Schätzverfahren zur Bestimmung eines einzelnen Wertes als bestmögliche Schätzung eines Parameters.

Quantile: Lagemaße, die einen geordneten Datensatz in gleich große Teile teilen:

  • Quartile: Teilen in vier Teile (25%, 50%, 75%)
  • Dezile: Teilen in zehn Teile (10%, 20%, …, 90%)
  • Perzentile: Teilen in hundert Teile (1%, 2%, …, 99%)

Randomisierung: Grundprinzip des experimentellen Designs, bei dem Untersuchungseinheiten zufällig zu Versuchsbedingungen zugewiesen werden.

Regressionsanalyse: Statistische Methode zur Untersuchung von Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen.

Regressionskoeffizient: Parameter in der Regressionsanalyse, der den Einfluss einer unabhängigen auf die abhängige Variable quantifiziert.

Residuen: Differenzen in der Regressionsanalyse zwischen beobachteten und durch das Modell vorhergesagten Werten.

Saisonale Komponente: Element der Zeitreihenanalyse, das regelmäßige, periodisch wiederkehrende Schwankungen innerhalb eines Jahres beschreibt.

Schätzverfahren: Statistische Methoden zur Bestimmung unbekannter Parameter aus Stichprobendaten.

Signifikanzniveau: Vorab festgelegte Wahrscheinlichkeit für den Fehler 1. Art bei Hypothesentests; üblicherweise 5% oder 1%.

Spannweite: Einfaches Streuungsmaß, berechnet als Differenz zwischen größtem und kleinstem Wert eines Datensatzes.

Split-Plot-Design: Experimentelles Design mit unterschiedlichen Randomisierungseinheiten für verschiedene Faktoren.

Standardabweichung: Wichtiges Streuungsmaß, berechnet als Quadratwurzel der Varianz; hat dieselbe Einheit wie die Daten.

Standardfehler: Maß in der Stichprobentheorie für die Standardabweichung der Stichprobenverteilung eines Statistikwertes.

Stationarität: Eigenschaft einer Zeitreihe in der Zeitreihenanalyse, deren statistische Eigenschaften (Mittelwert, Varianz) über die Zeit konstant bleiben.

Statistische Programmierung: Moderne Methode zur Verwendung von Programmiersprachen und Software (wie R, Python, SAS, SPSS) zur statistischen Analyse.

Stichprobe: Grundlegender Begriff der Statistik für eine Teilmenge der Grundgesamtheit, die für Untersuchungen herangezogen wird.

Stichprobenfehler: Abweichung in der Stichprobentheorie zwischen Stichprobenwerten und den wahren Werten der Grundgesamtheit.

Streuungsmaße: Statistische Kennzahlen, die die Variation oder Dispersion der Daten beschreiben (z.B. Varianz, Standardabweichung).

Systematische Stichprobe: Stichprobendesign, bei dem nach Auswahl eines Startelements in regelmäßigen Abständen weitere Elemente ausgewählt werden.

t-Test: Hypothesentest für Mittelwertvergleiche bei normalverteilten Daten, besonders nützlich für kleine Stichproben.

t-Verteilung: Wahrscheinlichkeitsverteilung, ähnlich der Normalverteilung, aber mit schwereren Enden; wichtig für kleine Stichproben.

Teststärke/Power: Maß in Hypothesentests für die Wahrscheinlichkeit, eine falsche Nullhypothese korrekt zu verwerfen; entspricht 1 minus der Wahrscheinlichkeit für den Fehler 2. Art.

Trend: Langfristige Entwicklungstendenz einer Zeitreihe in der Zeitreihenanalyse.

Unabhängigkeit: Konzept aus der Wahrscheinlichkeitstheorie, bei dem das Eintreten eines Ereignisses die Wahrscheinlichkeit eines anderen nicht beeinflusst.

Unverzerrter Schätzer: Schätzer, dessen Erwartungswert dem wahren Parameterwert entspricht.

Variable: Grundlegender Begriff der Statistik für eine messbare Eigenschaft oder ein Merkmal, das zwischen den Untersuchungseinheiten variieren kann.

Varianz: Wichtiges Streuungsmaß, berechnet als das Mittel der quadrierten Abweichungen vom arithmetischen Mittel.

Variationskoeffizient: Relatives Streuungsmaß, berechnet als Standardabweichung dividiert durch den Mittelwert; ermöglicht den Vergleich der Streuung unterschiedlicher Datensätze.

Wahrscheinlichkeit: Grundlegendes Konzept der Wahrscheinlichkeitstheorie; numerisches Maß (zwischen 0 und 1) für die Chance des Eintretens eines Ereignisses.

Wahrscheinlichkeitstheorie: Mathematische Grundlage der Statistik, die sich mit der Modellierung von Zufall und Ungewissheit befasst.

Wahrscheinlichkeitsverteilung: Konzept der Wahrscheinlichkeitstheorie, das die Zuordnung von Wahrscheinlichkeiten zu allen möglichen Werten einer Zufallsvariable beschreibt.

Wilcoxon-Test: Nichtparametrischer Hypothesentest als Alternative zum t-Test für gepaarte Stichproben.

Zeitreihenanalyse: Statistische Methode zur Untersuchung von Daten, die in zeitlicher Abfolge erhoben wurden.

Zufallsstichprobe: Stichprobendesign, bei dem jedes Element der Grundgesamtheit die gleiche Chance hat, in die Stichprobe aufgenommen zu werden.

Zufallsvariable: Konzept der Wahrscheinlichkeitstheorie für eine Variable, deren Werte vom Zufall abhängen und mit bestimmten Wahrscheinlichkeiten auftreten.

Zyklische Komponente: Element der Zeitreihenanalyse, das mittelfristige Schwankungen mit variabler Länge beschreibt.