Stacked Area Chart: Visualisierung von Investments und Kreditausfällen

Dies ist eher eine kleine Programmierübung gewesen, auch weil ich wissen wollte, wie sich das eigentlich so entwickelt hat mit der steigenden Anzahl von Projekten, die in Einholung gegangen sind.

Die Daten dafür kann man relativ einfach auf der Website runterladen, sie müssen allerdings transformiert werden. Das Problem hier ist, dass die Daten pro Projekt vorhanden sind und wir für das Stacked Area Chart die Daten so transformieren müssen, dass sie pro Monat vorliegen.

Weiterlesen

Der BMI ist kein Gesundheitsmaß – sondern ein statistisches Relikt

Vor kurzem las ich Jordan Ellenbergs How Not to Be Wrong. The Power of Mathematical Thinking. Darin beschreibt er die Fallstricke der linearen Regression, unter anderem am Beispiel des Artikels Will all Americans become overweight or obese?. Laut diesem Paper werden bis 2048 alle Amerikaner übergewichtig oder adipös sein. Das klingt dramatisch – ist aber statistisch unsinnig. Die zugrundeliegende Regression ignoriert, dass mit zunehmender Zahl an Übergewichtigen immer weniger Schlanke übrig bleiben, die „konvertieren“ könnten. Wenige Jahre nach der Veröffentlichung des Artikels zeigte sich, dass die Zunahme des Übergewichts natürlich nicht linear, sondern logistisch verläuft – sie flacht ab, weil Bevölkerungen keine unendlichen Prozesse kennen.

Weiterlesen

Kann man Säulendiagramme und kumulative Linien kombinieren?

Bisher wäre ich nicht auf eine solche Idee gekommen, aber das Handelsblatt hat das vor kurzem einmal versucht, so dass ich seitdem darüber grüble, ob das eine gute oder eher eine ganz schlechte Idee ist. ChatGPT war so nett, die Grafik einmal zu übersetzen; es ist nicht alles korrekt wiedergegeben, aber uns geht es hier nicht um die Genauigkeit der Daten, sondern um den Visualisierungsansatz. Ganz grob zusammengefasst geht es um Partnerschaften zwischen der Öffentlichen Hand und Privatkapital.

Zur Erinnerung: Eine Datenvisualisierung soll dem Leser das Verständnis eines Sachverhalts erleichtern. Idealerweise bringt eine Visualisierung auch eine Intention mit, sie soll etwas beinhalten, das unsere Meinung ändert oder schärft oder uns sogar zu einer Handlung ermutigt. Was davon erfüllt diese Visualisierung?

Weiterlesen

Wie man aus Webanalysedaten automatisch Aktionen generiert

Dieser Talk ist schon ein paar Monate alt, aber ich hatte vergessen, ihn hier zu veröffentlichen. Er behandelt mein Peer-reviewtes akzeptiertes Paper „Bridging the Analytics Gap: Optimizing Content Performance using Actionable Knowledge Discovery“ für die HT ’24. Das Paper kann unter Proceedings of the 35th ACM Conference on Hypertext and Social Media eingesehen werden.

Welche Visualisierung für welche Daten?

Daten, Informationen und die daraus zu ziehenden Erkenntnisse zu kommunizieren ist eine wichtige Kompetenz. Datenvisualisierungen sollen es dem Empfänger ermöglichen, Sachverhalte schneller zu verstehen, und so ist es notwendig, dass die Visualisierungsform ausgewählt wird, die das am besten ermöglicht. Auch wenn Microsoft Excel ein Tortendiagramm vorschlägt, so ist es häufig nicht die beste Option, wie man links sieht 🙂

An der Uni wie auch im Job habe ich ständig mit Datenvisualisierungen zu tun. Um die Nerven aller zu schonen, habe ich eine Übersicht gebastelt, inspiriert von der Arbeit von A. Abela:

Die Übersicht wird ständig von mir aktualisiert. Wenn Du Interesse hast, dann melde Dich bei meinem Newsletter an und erhalte sofort die Übersicht (und einmal im Monat ein Update dazu).

Reihennamen in R

Manche Datensätze nutzen Reihennamen, zum Beispiel der in R enthaltene Datensatz mtcars:

Das ist zwar praktisch, aber suboptimal, wenn man zum Beispiel Autos nach Marken sortieren will. Wie kann man Reihennamen in eine Spalte konvertieren, zum Beispiel mit dem Tidyverse? Ganz einfach:

library(tidyverse)

# mtcars laden und die Reihenamen in eine Spalte verschieben
mtcars_tidy <- mtcars %>%
  rownames_to_column(var = "car_name")

Das Ergebnis sieht dann so aus:

Überschneidungen von ETFs in einem UpSet-Diagramm visualisieren

Heute kommen mal zwei für mich spannende Themen zusammen, nämlich Datenanalyse- und visualisierung sowie Finanzen. Die Wahl der richtigen ETFs füllt unzählige Internetseiten und Finanzmagazin-Artikel, spannend ist hierbei aber auch, welche Überschneidungen ETFs haben. Verglichen hatte ich schon mal den Vanguard FTSE All-World High Dividend Yield UCITS ETF USD Distributing (ISIN: IE00B8GKDB10) und den iShares STOXX Global Select Dividend 100 UCITS (ISIN: DE000A0F5UH1). Ich hatte auch schon die Performance verglichen von diesen beiden und dem VanEck Morningstar Developed Markets Dividend Leaders ETF (NL0011683594) und einem MSCI World ETF (IE00B4L5Y983).

Weiterlesen

ggplot2 und die neue Pipe

Warum funktioniert dieser Code nicht?

mtcars |> ggplot(., aes(x = mpg, y = hp)) + geom_point()

Das Problem mit dem oben genannten Code liegt in der Verwendung des Pipe-Operators (|>), direkt vor ggplot. ggplot2 wird nicht nativ mit der R-spezifischen Pipe (|>) unterstützt, wie hier verwendet. Allerdings funktioniert ggplot2 nahtlos mit dem Magrittr-Pipe (%>%) aus dem dplyr-Paket. Hier ist die korrekte Verwendung:

library(ggplot2)
library(dplyr)

mtcars %>% 
  ggplot(aes(x = mpg, y = hp)) + 
  geom_point()

Alternativ müssen die Daten explizit in ggplot übergeben werden, wie hier:

library(ggplot2)

mtcars |> 
  ggplot(data = ., aes(x = mpg, y = hp)) + 
  geom_point()

Hier stellt der Punkt (.) die Daten dar, die von mtcars in ggplot gepiped werden, und Sie müssen ihn als data-Argument in der ggplot-Funktion spezifizieren.

Die Digital Analytics Association ist Geschichte – und keinen interessiert es

Ein bisschen überraschend war das schon. Ich hatte mit Jim Sterne vor kurzem noch gemailt, als es um den deutschen Ableger ging. Die DAA hatte meinem Webanalyse-Buch auch ein Geleitwort gespendet. Ein bisschen schade ist es schon.

Wer es nicht weiß: Die DAA war früher die WAA, die Web Analytics Association, und sie hat die meistgenutzte Definition von Web Analytics geschaffen. Zwar war diese Definition schon lange nicht mehr auf der Webseite zu finden, aber das hat die meisten Wissenschaftler, die die Zitate aus anderen Papern kopieren, nicht interessiert.

Wie aber kann es sein, dass trotz der Wichtigkeit von Daten eine solche Organisation aufgibt? Es könnte zum Beispiel daran liegen, dass viele zwar Google Analytics & Co installiert haben, aber die Daten gar nicht genutzt werden. In meinem letzten Paper, das leider noch nicht öffentlich ist, kam heraus, dass den meisten Anwendern auch gar nicht klar ist, dass das Einbinden des GA-Codes nicht ausreicht, um datengetrieben zu arbeiten. Und vielleicht liegt es auch ein bisschen an der DAA selbst, dass sie es nicht geschafft hat, die eigene Relevanz deutlich zu machen.

Ich war zuletzt nur noch aus Nostalgiegründen Mitglied. Dabei hatte ich meinen Studierendenstatus ausgenutzt, um die Mitgliedsbeiträge etwas zu senken.

Die Website ist bereits nicht mehr erreichbar.