ANOVA (Varianzanalyse): Hypothesentest-Verfahren zum Vergleich von Mittelwerten zwischen mehreren Gruppen. Wird zur Analyse von Unterschieden zwischen Gruppenmittelwerten eingesetzt.
Arithmetisches Mittel: Lagemaß, das als Summe aller Werte geteilt durch deren Anzahl berechnet wird; der allgemein bekannte „Durchschnitt“.
ARIMA-Modelle: Autoregressive Integrated Moving Average; Zeitreihenanalyse-Modelle zur Analyse und Prognose von Zeitreihen mit komplexen Abhängigkeitsstrukturen.
Autokorrelation: Maß in der Zeitreihenanalyse, das die Korrelation einer Zeitreihe mit zeitverschobenen Versionen ihrer selbst beschreibt.
Bayessche Schätzung: Schätzverfahren, das Vorwissen (Prior) bei der Schätzung von Parametern berücksichtigt und die Bayes’sche Statistik nutzt.
Bayessche Statistik: Moderne statistische Methode, die Vorwissen (Prior) mit beobachteten Daten kombiniert, um Schlussfolgerungen zu ziehen.
Bedingte Wahrscheinlichkeit: Konzept aus der Wahrscheinlichkeitstheorie, das die Wahrscheinlichkeit eines Ereignisses unter der Bedingung, dass ein anderes Ereignis eingetreten ist, beschreibt.
Bestimmtheitsmaß R²: Kennzahl der Regressionsanalyse, die den Anteil der Varianz der abhängigen Variable angibt, der durch das Modell erklärt wird.
Big Data: Moderne Methode zur Analyse sehr großer, komplexer Datensätze, die aufgrund ihrer Größe, Komplexität und Dynamik mit traditionellen Methoden schwer zu verarbeiten sind.
Binomialverteilung: Diskrete Wahrscheinlichkeitsverteilung, die die Anzahl der Erfolge in einer festen Anzahl unabhängiger Versuche mit konstanter Erfolgswahrscheinlichkeit beschreibt.
Blockdesign: Experimentelles Design, bei dem ähnliche Untersuchungseinheiten in Blöcke gruppiert werden, um die Varianz zu reduzieren und die Aussagekraft zu erhöhen.
Bootstrapping: Moderne Resampling-Methode zur Schätzung der Stichprobenverteilung durch wiederholtes Ziehen mit Zurücklegen aus der Originalstichprobe.
Chi-Quadrat-Test: Hypothesentest auf Unabhängigkeit in Kontingenztabellen oder zur Prüfung der Anpassungsgüte von Verteilungen.
Chi-Quadrat-Verteilung: Wahrscheinlichkeitsverteilung, die die Summe der Quadrate von unabhängigen standardnormalverteilten Zufallsvariablen beschreibt.
Clusteranalyse: Multivariates Verfahren, das ähnliche Objekte in Gruppen (Cluster) basierend auf ihren Eigenschaften zusammenfasst.
Crossover-Design: Experimentelles Design, bei dem jede Versuchsperson mehrere Behandlungen in unterschiedlicher Reihenfolge erhält, um Behandlungseffekte von individuellen Unterschieden zu trennen.
Data Mining: Moderne Methode zur Entdeckung von Mustern in großen Datensätzen mittels statistischer Methoden, Machine Learning und Datenbanksystemen.
Datentypen: Klassifikation von Daten nach ihrem Informationsgehalt und den zulässigen statistischen Operationen:
- Nominal: Kategoriale Daten ohne natürliche Reihenfolge (z.B. Haarfarbe)
- Ordinal: Kategoriale Daten mit natürlicher Rangfolge (z.B. Schulnoten)
- Metrisch: Numerische Daten mit definierten Abständen (Intervall) oder mit natürlichem Nullpunkt (Ratio)
Deskriptive/beschreibende Statistik: Grundlegende statistische Methoden zur Zusammenfassung, Darstellung und Beschreibung von Daten ohne darüber hinausgehende Schlussfolgerungen.
Diskriminanzanalyse: Multivariates Verfahren zur Klassifizierung von Objekten in vorgegebene Gruppen anhand ihrer Merkmale.
Erwartungswert: Konzept aus der Wahrscheinlichkeitstheorie; der „Durchschnittswert“ einer Zufallsvariable, berechnet als gewichtetes Mittel aller möglichen Werte.
Exponentialverteilung: Kontinuierliche Wahrscheinlichkeitsverteilung, die die Zeit zwischen Ereignissen in einem Poisson-Prozess modelliert.
F-Verteilung: Wahrscheinlichkeitsverteilung für den Quotienten zweier unabhängiger Chi-Quadrat-verteilter Zufallsvariablen; wichtig für Varianzanalysen.
Faktorielles Design: Experimentelles Design, das mehrere Faktoren und ihre Wechselwirkungen in einem einzigen Experiment untersucht.
Faktorenanalyse: Multivariates Verfahren zur Identifizierung zugrundeliegender Faktoren, die mehrere beobachtete Variablen beeinflussen.
Fehler 1. Art: Fehler bei Hypothesentests, bei dem eine wahre Nullhypothese irrtümlich verworfen wird.
Fehler 2. Art: Fehler bei Hypothesentests, bei dem eine falsche Nullhypothese irrtümlich beibehalten wird.
Geometrisches Mittel: Lagemaß, berechnet als die n-te Wurzel aus dem Produkt von n Werten; besonders nützlich für Wachstumsraten und Verhältniszahlen.
Geschichtete Stichprobe: Stichprobendesign, bei dem die Grundgesamtheit in Schichten unterteilt wird, aus denen jeweils separate Zufallsstichproben gezogen werden.
Gewichteter Mittelwert: Lagemaß, bei dessen Berechnung bestimmte Werte stärker berücksichtigt werden als andere.
Gleichverteilung: Wahrscheinlichkeitsverteilung, bei der alle möglichen Werte die gleiche Wahrscheinlichkeit haben.
Glättungsverfahren: Methoden der Zeitreihenanalyse zur Eliminierung kurzfristiger Schwankungen, um Trends oder andere Muster besser erkennbar zu machen.
Harmonisches Mittel: Lagemaß, berechnet als der Kehrwert des arithmetischen Mittels der Kehrwerte; besonders nützlich für Durchschnittsgeschwindigkeiten.
Hauptkomponentenanalyse: Multivariates Verfahren zur Dimensionsreduktion, das Daten durch Transformation in unkorrelierte Hauptkomponenten reduziert.
Häufigkeitsverteilung: Grundlegende Darstellung in der Statistik, die zeigt, wie oft die verschiedenen Ausprägungen eines Merkmals in einem Datensatz vorkommen.
Heteroskedastizität: Eigenschaft in der Regressionsanalyse, bei der die Varianz der Residuen systematisch mit den unabhängigen Variablen variiert.
Hypothesentest: Statistisches Verfahren zur Überprüfung von Annahmen über Populationsparameter auf Basis von Stichprobendaten.
Inferenzstatistik/schließende Statistik: Grundlegender Bereich der Statistik, der Methoden umfasst, um von Stichprobenergebnissen auf Eigenschaften der Grundgesamtheit zu schließen.
Interquartilsabstand: Streuungsmaß, berechnet als Differenz zwischen dem 3. und 1. Quartil; umfasst die mittleren 50% der Daten.
Intervallschätzung: Schätzverfahren zur Bestimmung eines Intervalls, in dem ein Parameter mit einer bestimmten Wahrscheinlichkeit liegt.
Irreguläre Komponente: Bestandteil der Zeitreihenanalyse, der die zufälligen, nicht erklärbaren Schwankungen in einer Zeitreihe beschreibt.
Kanonische Korrelation: Multivariates Verfahren zur Analyse der Beziehungen zwischen zwei Gruppen von Variablen.
Klumpenstichprobe: Stichprobendesign, bei dem natürliche Gruppen (Klumpen) statt einzelner Elemente ausgewählt werden.
Konfidenzintervall: Bereich in der Schätztheorie und Stichprobentheorie, der mit einer festgelegten Wahrscheinlichkeit den wahren Wert eines Parameters enthält.
Korrelation: Maß aus der Wahrscheinlichkeitstheorie für die Stärke und Richtung des linearen Zusammenhangs zwischen zwei Variablen; standardisierte Form der Kovarianz.
Kovarianz: Maß aus der Wahrscheinlichkeitstheorie für die gemeinsame Variabilität zweier Zufallsvariablen.
Kruskal-Wallis-Test: Nichtparametrischer Hypothesentest als Alternative zur einfaktoriellen ANOVA für unabhängige Stichproben.
Lagemaße: Statistische Kennzahlen, die die zentrale Tendenz einer Verteilung beschreiben (z.B. Mittelwert, Median, Modus).
Lateinisches Quadrat: Experimentelles Design, bei dem jede Behandlung in jeder Zeile und Spalte genau einmal vorkommt.
Lineare Regression: Regressionsanalyse-Verfahren zur Modellierung des linearen Zusammenhangs zwischen einer abhängigen und einer unabhängigen Variable.
Logistische Regression: Regressionsanalyse-Verfahren für binäre abhängige Variablen, das die Wahrscheinlichkeit eines Ereignisses modelliert.
Machine Learning: Moderne Methode mit Algorithmen, die aus Daten lernen und Vorhersagen treffen können, ohne explizit programmiert zu sein.
Mann-Whitney-U-Test: Nichtparametrischer Hypothesentest für unabhängige Stichproben; Alternative zum t-Test, wenn die Normalverteilungsannahme verletzt ist.
Maximum-Likelihood-Schätzung: Schätzverfahren zur Parameterschätzung, das die Wahrscheinlichkeit (Likelihood) der beobachteten Daten maximiert.
Median: Lagemaß, definiert als der mittlere Wert einer nach Größe geordneten Datenreihe; teilt die Daten in zwei gleich große Hälften.
Merkmalsausprägung: Grundlegender Begriff der Statistik für den konkreten Wert eines Merkmals bei einem bestimmten Merkmalsträger.
Merkmalsträger: Grundlegender Begriff der Statistik für Objekte oder Subjekte, die untersucht werden (z.B. Personen, Unternehmen).
Mittlere absolute Abweichung: Streuungsmaß, berechnet als Durchschnitt der absoluten Abweichungen vom Mittelwert oder Median.
Modus: Lagemaß, definiert als der am häufigsten vorkommende Wert in einem Datensatz.
Monte-Carlo-Simulation: Moderne zufallsbasierte Simulationstechnik zur Lösung komplexer Probleme durch wiederholte Stichprobenziehung.
Multikollinearität: Problem in der Regressionsanalyse, bei dem starke Korrelationen zwischen unabhängigen Variablen bestehen.
Multiple Regression: Erweiterung der linearen Regression in der Regressionsanalyse auf mehrere unabhängige Variablen.
Multidimensionale Skalierung: Multivariates Verfahren zur Visualisierung von Ähnlichkeiten zwischen Objekten als Distanzen in einem niedrigdimensionalen Raum.
Normalverteilung/Gauß-Verteilung: Symmetrische, glockenförmige Wahrscheinlichkeitsverteilung; viele natürliche Phänomene folgen ihr annähernd.
Null- und Alternativhypothese: Gegensätzliche Annahmen in Hypothesentests, die geprüft werden, um statistische Schlussfolgerungen zu ziehen.
p-Wert: Kennzahl in Hypothesentests, die die Wahrscheinlichkeit angibt, unter Annahme der Nullhypothese ein mindestens so extremes Ergebnis zu erhalten.
Poissonverteilung: Diskrete Wahrscheinlichkeitsverteilung, die die Anzahl von Ereignissen in einem festen Zeit- oder Raumintervall modelliert.
Population/Grundgesamtheit: Grundlegender Begriff der Statistik für die vollständige Menge aller Untersuchungseinheiten, über die Aussagen getroffen werden sollen.
Punktschätzung: Schätzverfahren zur Bestimmung eines einzelnen Wertes als bestmögliche Schätzung eines Parameters.
Quantile: Lagemaße, die einen geordneten Datensatz in gleich große Teile teilen:
- Quartile: Teilen in vier Teile (25%, 50%, 75%)
- Dezile: Teilen in zehn Teile (10%, 20%, …, 90%)
- Perzentile: Teilen in hundert Teile (1%, 2%, …, 99%)
Randomisierung: Grundprinzip des experimentellen Designs, bei dem Untersuchungseinheiten zufällig zu Versuchsbedingungen zugewiesen werden.
Regressionsanalyse: Statistische Methode zur Untersuchung von Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen.
Regressionskoeffizient: Parameter in der Regressionsanalyse, der den Einfluss einer unabhängigen auf die abhängige Variable quantifiziert.
Residuen: Differenzen in der Regressionsanalyse zwischen beobachteten und durch das Modell vorhergesagten Werten.
Saisonale Komponente: Element der Zeitreihenanalyse, das regelmäßige, periodisch wiederkehrende Schwankungen innerhalb eines Jahres beschreibt.
Schätzverfahren: Statistische Methoden zur Bestimmung unbekannter Parameter aus Stichprobendaten.
Signifikanzniveau: Vorab festgelegte Wahrscheinlichkeit für den Fehler 1. Art bei Hypothesentests; üblicherweise 5% oder 1%.
Spannweite: Einfaches Streuungsmaß, berechnet als Differenz zwischen größtem und kleinstem Wert eines Datensatzes.
Split-Plot-Design: Experimentelles Design mit unterschiedlichen Randomisierungseinheiten für verschiedene Faktoren.
Standardabweichung: Wichtiges Streuungsmaß, berechnet als Quadratwurzel der Varianz; hat dieselbe Einheit wie die Daten.
Standardfehler: Maß in der Stichprobentheorie für die Standardabweichung der Stichprobenverteilung eines Statistikwertes.
Stationarität: Eigenschaft einer Zeitreihe in der Zeitreihenanalyse, deren statistische Eigenschaften (Mittelwert, Varianz) über die Zeit konstant bleiben.
Statistische Programmierung: Moderne Methode zur Verwendung von Programmiersprachen und Software (wie R, Python, SAS, SPSS) zur statistischen Analyse.
Stichprobe: Grundlegender Begriff der Statistik für eine Teilmenge der Grundgesamtheit, die für Untersuchungen herangezogen wird.
Stichprobenfehler: Abweichung in der Stichprobentheorie zwischen Stichprobenwerten und den wahren Werten der Grundgesamtheit.
Streuungsmaße: Statistische Kennzahlen, die die Variation oder Dispersion der Daten beschreiben (z.B. Varianz, Standardabweichung).
Systematische Stichprobe: Stichprobendesign, bei dem nach Auswahl eines Startelements in regelmäßigen Abständen weitere Elemente ausgewählt werden.
t-Test: Hypothesentest für Mittelwertvergleiche bei normalverteilten Daten, besonders nützlich für kleine Stichproben.
t-Verteilung: Wahrscheinlichkeitsverteilung, ähnlich der Normalverteilung, aber mit schwereren Enden; wichtig für kleine Stichproben.
Teststärke/Power: Maß in Hypothesentests für die Wahrscheinlichkeit, eine falsche Nullhypothese korrekt zu verwerfen; entspricht 1 minus der Wahrscheinlichkeit für den Fehler 2. Art.
Trend: Langfristige Entwicklungstendenz einer Zeitreihe in der Zeitreihenanalyse.
Unabhängigkeit: Konzept aus der Wahrscheinlichkeitstheorie, bei dem das Eintreten eines Ereignisses die Wahrscheinlichkeit eines anderen nicht beeinflusst.
Unverzerrter Schätzer: Schätzer, dessen Erwartungswert dem wahren Parameterwert entspricht.
Variable: Grundlegender Begriff der Statistik für eine messbare Eigenschaft oder ein Merkmal, das zwischen den Untersuchungseinheiten variieren kann.
Varianz: Wichtiges Streuungsmaß, berechnet als das Mittel der quadrierten Abweichungen vom arithmetischen Mittel.
Variationskoeffizient: Relatives Streuungsmaß, berechnet als Standardabweichung dividiert durch den Mittelwert; ermöglicht den Vergleich der Streuung unterschiedlicher Datensätze.
Wahrscheinlichkeit: Grundlegendes Konzept der Wahrscheinlichkeitstheorie; numerisches Maß (zwischen 0 und 1) für die Chance des Eintretens eines Ereignisses.
Wahrscheinlichkeitstheorie: Mathematische Grundlage der Statistik, die sich mit der Modellierung von Zufall und Ungewissheit befasst.
Wahrscheinlichkeitsverteilung: Konzept der Wahrscheinlichkeitstheorie, das die Zuordnung von Wahrscheinlichkeiten zu allen möglichen Werten einer Zufallsvariable beschreibt.
Wilcoxon-Test: Nichtparametrischer Hypothesentest als Alternative zum t-Test für gepaarte Stichproben.
Zeitreihenanalyse: Statistische Methode zur Untersuchung von Daten, die in zeitlicher Abfolge erhoben wurden.
Zufallsstichprobe: Stichprobendesign, bei dem jedes Element der Grundgesamtheit die gleiche Chance hat, in die Stichprobe aufgenommen zu werden.
Zufallsvariable: Konzept der Wahrscheinlichkeitstheorie für eine Variable, deren Werte vom Zufall abhängen und mit bestimmten Wahrscheinlichkeiten auftreten.
Zyklische Komponente: Element der Zeitreihenanalyse, das mittelfristige Schwankungen mit variabler Länge beschreibt.