5 Optimierung

5.1 Mehr als 200 Ranking-Faktoren

Waren es in den 90er Jahren die Keywords, so wurden es in den 2000er Jahren die Backlinks, die als die wichtigste Waffe im Kampf um die oberen Ränge in den Suchmaschinen eingesetzt werden konnten. Tatsächlich hat es schon immer mehrere Ranking-Faktoren gegeben, und die Gewichtung dieser Faktoren ist schon seit langer Zeit ein Ziel der Begierde von Suchmaschinenoptimierern wie auch Politikern. Letztere würden gerne Google zwingen, den Algorithmus freizugeben, damit der Verdacht der Parteilichtkeit und der Manipulation ausgeräumt werden können, insbesondere angesichts des Quasi-Monopols von Google. Aber jede dieser Forderungen aus der Politik offenbart nur das fehlende Verständnis, wie eine Suchmaschine tatsächlich funktioniert.

5.1.1 Wie entsteht ein Ranking-Algorithmus?

Es ist zunächst einmal wichtig zu verstehen, dass die Gewichtung der Ranking-Faktoren dynamisch stattfindet. Es existiert kein Algorithmus wie 20% Text, 30% Backlinks, 18% Domainalter etc. Das würde auch nicht funktionieren, denn nicht jede Seite im Netz hat einen Backlink von einer anderen Seite, so dass das Linksignal in diesem Fall nicht so stark sein kann. Ebenso kann eine Seite allein dadurch einen Malus bekommen, dass sie extrem langsam ist, aber keinen Bonus, wenn sie schneller ist als andere Seiten. Der Malus könnte sogar so groß sein, dass er andere Signale dominiert.

Wie aber wird entschieden, welche Ranking-Faktoren welches Gewicht bekommen? 2006 habe ich selbst bei Ask.com Ranking-Algorithmen mit Machine Learning trainiert. Dabei wurde nicht ein ganzer Algorithmus trainiert, sondern nur ein bestimmtes Problem, zum Beispiel das oben genannte Beispiel, Suchanfragen mit Ergebnissen, für die wenig Links existieren. Dabei wurden der Support Vector Machine von Menschen ausgewählte gute Ergebnisse gegeben (“supervised Learning”), damit der Algorithmus sich selbst optimieren konnte. Heute, mehr als ein Jahrzehnt später, stehen sehr wahrscheinlich viel bessere Ansätze zur Verfügung. Auch Google arbeitete lange mit Human Raters zusammen, die Suchergebnisse beurteilten.

5.1.2 Weiterentwicklung der Ranking-Faktoren: Google Upddates

Die Algorithmen der Suchmaschinen wie Google werden kontinuierlich verbessert, vor allem die größeren Updates führen zu Überraschungen für Webseitenbetreiber, da über Nacht gute Rankings verloren gehen können. Berühmte Updates waren zum Beispiel Hummingbird oder Panda. Zum Teil werden durch diese Änderungen auch Seiten in den Abgrund geworfen, die eigentlich unproblematisch waren.

5.2 OnPage versus OffPage

Als OnPage- oder OnSite-Optimierung bezeichnet man die Optimierung aller Faktoren, auf die der Webmaster direkt auf der Seite selbst Einfluss hat. In der OffPage- oder OffSite-Optimierung werden die Faktoren optimiert, auf die der Webmaster keinen direkten Einfluss hat.

5.3 OnPage-Optimierung der Inhalte

5.3.1 Inhalte und Dokumentstruktur

“Content is King”, und ohne Inhalte wird es schwer bis unmöglich sein, Nutzer auf die Webseite zu bekommen. Dokumente im Netz bestehen vor allem aus Text, Bildern und Videos, zum Teil aber auch kleinen Programmen, mit denen Nutzern interagieren können.

Wie schon im Abschnitt Eine kleine Geschichte der Suchmaschinen beschrieben ist Text derzeit noch die Hauptwährung im SEO-Geschäft. Zwar kann mittlerweile auch der Inhalt von Bildern auf Basis von Künstlicher Intelligenz erkannt werden, aber wird nicht gerade nach einem Bild gesucht, so muss ein Bild nicht unbedingt die beste Antwort auf eine Such-Intention sein.

Über das Minimum an Text auf einer Seite wird in SEO-Foren und Blogs viel diskutiert; sehr wahrscheinlich existiert aber keine Minimum-Länge, es wäre zumindest nicht logisch. Wenn alle anderen Texte 200 Wörter haben und mein Text 300 Wörter, dann ist es unsinnig 900 Wörter zu verlangen, wie es zum Beispiel das Yoast SEO-Plugin tut. Wichtiger noch, die Textlänge ist kein Indikator dafür, wie hoch die Qualität eines Textes ist. Mehrere Google-Algorithmus-Updates hatten vor allem das Ziel, die Qualität eines Dokuments bestimmen zu können und dieses dementsprechend zu ranken.

Am Ende des Tages geht es darum, dass Texte für Menschen geschrieben werden und für diese gut lesbar sind. Diese Aussage lässt viel Spielraum, denn für manche ist nur ein Artikel der Bild-Zeitung gut lesbar, für andere auch ein Artikel der FAZ. Leider zeigen auch genug Beispiele, dass nicht unbedingt inhaltlich richtige Seiten oben gerankt werden, und der vielzitierte Qualitätsjournalismus ist nicht immer zu beobachten bei den Verlagshausprodukten.

So bleibt dem guten Optimierer nur, tatsächlich gute Inhalte zu erstellen und darauf zu hoffen, dass künftige Updates dies honorieren werden. Bis dahin helfen zumindest einige handwerkliche Kniffe wie zum Beispiel

  • Das Keyword, auf das man optimiert, im Titel der Seite zu verwenden
  • Das Keyword, auf das man optimiert, auch in Überschriften zu verwenden
  • Alt-Tags für Bilder zu verwenden
  • usw

5.3.2 Keyword Density/TD-IDF/WDF-IDF

Damit eine Seite für einen Begriff gefunden wird, ist es sinnvoll, dass dieser Begriff auch auf dieser Seite auftaucht 🙂 Die frühen Web-Suchmaschinen nutzten vor allem einfache Häufigkeiten, wobei unterschieden wurde zwischen dem reinen Text und Überschriften. Das Verhältnis der Anzahl der Keywords zu der Anzahl aller Wörter auf einer Seite wird als Keyword-Dichte bezeichnet. Dabei ist zu beachten, dass Google & Co wie im Abschnitt über den Indexer beschrieben Wörter normalisiert, so dass auch andere Formen eines Wortes verwendet werden sollten, was dummerweise die meisten SEO-Tools nicht verstehen und daher nur exakt den Begriff verwenden, auf den optimiert werden soll. Grundsätzlich gilt, dass ein Text immer noch lesbar für Menschen sein sollte. Das sogenannte Keyword Stuffing, also das überzogene Füllen von Inhalten mit einem Schlüsselwort, kann zur Abstrafe führen.

Im Information Retrieval wird die so genannte Term Frequency – Inverse Document Frequency-Formel genutzt, um die Bedeutung eines Wortes innerhalb einer Dokumentenkollektion (Corpus) beurteilen zu können. Die Within Document Frequency – Inverse Document Frequency beinhaltet eine andere Gewichtung des Begriffes in Bezug auf alle anderen Begriffe in Hinblick auf die anderen Dokumente in einem Index. Auch wenn diese Ansätze von manchen SEOs gehyped werden, spielen sie für die Suchmaschinenoptimierung eine geringe Rolle, denn als Optimierer hat man keinen Zugriff auf den Corpus und kann somit keine TF/IDF für das eigene Dokument berechnen. Dennoch behaupten viele SEOs, dass ihnen diese Ansätze geholfen haben, was auf eine Scheinkorrelation zurückgeführt werden kann.

5.3.3 Meta Tag Description

Anders als die HTTP Header sind die Meta Elemente (das ist der korrekte Begriff, nicht Meta Tags) für den Benutzer sichtbar, wenn er sich den Quellcode einer Seite ansieht. Für die Suchmaschinenoptimierung ist heute lediglich das Meta Element Description wichtig, da hier eine Beschreibung der jeweiligen Seite angegeben werden kann. Wie zuvor beschrieben wird diese Beschreibung häufig in der Suchmaschinenergebnissen angezeigt, so dass auch davon abhängt, ob ein Ergebnis als relevant wahrgenommen und dann angeklickt wird.

Früher war das Meta Element Keywords wichtig, wo Benutzer Schlüsselwörter für die jeweilige Seite eingeben konnten. Was im akademischen Bereich gut funktionierte, wurde von kommerziellen Anbietern schnell ausgenutzt. Manche interpretieren daraus, dass die Meta Tags generell nicht mehr benötigt werden, aber das ist Quatsch.

5.3.4 Page Title

Der Titel einer Seite ist aus mehrfacher Sicht wichtig. Zum einen ist es wichtig, Schlüsselwörter in einem Titel unterzubringen, um eine bessere Position in den Suchergebnissen zu erreichen, auch wenn das nur einen kleinen Teil der Ranking Faktoren ausmacht. Zum anderen ist der Titel einer Seite aber das, was der Benutzer einer Suchmaschine auf der Suchergebnisseite sieht und anklickt. Ein Seitentitel, der den gesuchten Begriff enthält, wird mit höherer Wahrscheinlichkeit angeklickt als ein Seitentitel, der das Schlüsselwort nicht enthält.

5.3.5 Sprache

Wie zuvor beschrieben wird während des Indexierens die Sprache einer Seite identifiziert. Sind mehrere Sprachen in einem HTML-Dokument vorhanden, so muss sich der Indexer für eine Sprache entscheiden; das Ein- und Ausblenden via AJAX ist keine gute Option. Auch das IP-Targeting, also das Ausliefern einer Sprachversion abhängig von der IP-Adresse des Benutzers ist nachteilig, wenn al- le Sprachversionen unter den gleichen URLs zu finden sind. Dieses Problem hatte zum Beispiel XING, weil der Crawler aus Amerika kam und ihm die englisch-sprachige Version von XING gezeigt wurde. Zwar wurde XING dennoch gefun- den, weil Google anhand der Link-Struktur und der Lokation des Servers erkannt hatte, dass es sich um eine wichtige Seite in Deutschland handelt, aber bei der Einschränkung „Seiten auf Deutsch“ wurde XING nicht gefunden.

5.3.6 Bilder und Alt-Tags

Zunächst einmal scheinen Bilder nichts mit der Optimierung von Text zu tun haben, warum also sollte man Bilder optimieren? Tatsächlich werden heute zum Teil zu häufig Bilder auf Webseiten eingesetzt, wo sie keinen Mehrwert bieten, nur weil irgendwo in einem SEO-Guide stand, dass man immer schön Bilder inklusive Alt-Tag mit Keyword in den Content packen soll.

Wenn Bilder den Inhalt sinnvoll ergänzen, ein Bild also zum Verständnis eines Sachverhalts beiträgt, dann gereichen sie der Qualität eines Dokuments zum Vorteil. Durch adäquates Tagging und den Kontext werden die Inhalte der Bilder besser erfasst. Innerhalb der Universal Search werden auch Bilder angezeigt, so dass dadurch mehr Traffic auf eine Webseite kommen könnte.

5.4 OnPage-Optimierung technischer Natur

5.4.1 Domain

Die Domain hat im Idealfall das wichtigste Schlüsselwort im Namen. Neben einem Keyword Match in der Domain sind aber auch weitere Faktoren wichtig, insbesondere die Historie einer Domain. Mitunter können Domains auch „verbrannt“ sein. Es lohnt sich daher immer in Tools wie Sistrix zu schauen, ob es in der Vergangenheit Abstrafungen gegeben hat. Außerdem existieren Tools, die die Vorbesitzer einer Domain auflisten; leider sind die meisten dieser Dienste heute kostenpflichtig. Das Alter einer Domain spielt keine Rolle.

Eine Domain ist nicht zu verwechseln mit einem Host. Ein Host ist zum Beispiel tom.alby.de, die Domain ist alby.de, und der Server ist eine physische oder virtuelle Maschine mit einer IP-Adresse, auf der eine Seite gehostet ist. Wie im Hosting-Teil besprochen können mehrere Hosts auf einem Server liegen.

5.4.2 URL-Struktur

URLs sollten nicht zu lang sein und auch die Schlüsselwörter beinhalten. Dabei ist darauf zu achten, dass die Keywords nicht zu oft auftauchen, da dies wie bei der Keyword-Dichte zu Abstrafungen wegen Keyword-Stuffing führen kann.

5.4.3 HTML-Validität

Der HTML-Code sollte so valide wie möglich sein. Das W3C bietet kostenlose und extrem strenge HTML-Validatoren an. Die Suchmaschinen können zwar mit invalidem HTML umgehen (sonst wäre die Mehrzahl der Webseiten im Internet nicht bei den Suchmaschinen zu finden), aber irgendwann brechen auch die HTML-Parser der Suchmaschinen ab. Dies passiert jedoch nur in den seltensten Fällen; viel wichtiger ist, dass bei HTML-Fehlern eventuell wichtige Inhalte nicht mitindexiert werden.

5.4.4 Code2Content-Ratio

Das Verhältnis der für den Benutzer sichtbaren Inhalte gegenüber dem Quelltext einer Seite sollte in einem gesunden Verhältnis stehen. Tatsächlich aber gibt es keine Belege dafür, dass eine Seite mit viel mehr Code als Content abgestraft würde.

5.4.5 robots.txt

Mit der robots.txt kann dem Crawler gesagt werden, welche Inhalte einer Seite nicht von ihm besucht werden dürfen. Google beachtet nicht den Befehl crawl- delay, da die Crawl-Frequenz in der Webmaster Central konfiguriert werden kann, dafür aber reguläre Ausdrücke.

Robots-Anweisungen können auch über die Meta-Tags gegeben werden.

5.4.6 Hosting

Das Hosting kann einen großen Einfluss auf den Suchmaschinen Optimierung haben, auch wenn dies auf den ersten Blick nicht offensichtlich ist. So versuchen die großen Anbieter Kosten zu sparen, indem sie möglichst viele Internetpräsenzen auf eine Maschine packen; ansonsten wäre kein Hosting ab 3,99 Euro im Monat möglich. Da Suchmaschinen gleichzeitig versuchen, die Server nicht mehr als notwendig zu belasten, wird der Zugriff auf einer Maschine, die sich durch eine IP-Adresse identifiziert, auf wenige Zugriffe pro Sekunde limitiert. Sind mehrere 100 oder sogar 1.000 Internetpräsenzen auf einer Maschine, so bekommt eine Internetpräsenz nicht mehr so viel von den Ressourcen eines Suchmaschinencrawlers ab. Wie zuvor beschrieben wird das Crawling priorisiert, so dass es vorkommen kann, dass eine Internetpräsenz auf dem gleichen Server häufiger und tiefer gecrawlt wird als eine andere.

Mit ReverseIP-Tools kann herausgefunden werden, wie viele und welche anderen Domains auf einem Server mit einer IP-Adresse gehostet sind; in diesem Beispiel ist eine meiner Domains zusammen mit mindestens 999 anderen Domains auf einer IP (für einen vollen Report müsste man zahlen). Das Hosting kostet tatsächlich nur 3,99€ im Monat, aber man muss kein Mathematiker sein um zu verstehen, dass hier mindestens 4.000€ Umsatz pro Monat mit einem Server gemacht werden – natürlich minus Steuern, Netzanbindung, Mitarbeiter etc… aber die reine Hardware sollte sich nach einem Monat bezahlt gemacht haben 🙂 Gutes Hosting in Bezug auf Geschwindigkeit und Maschinenressourcenverteilung gibt es nicht für wenig Geld. Punkt.

Hinzu kommt, dass auch die Antwortgeschwindigkeit eines Servers einen Einfluss auf das Ranking haben kann. Siehe dazu den Punkt PageSpeed. Je schneller der Server und je weniger andere Präsenzen auf dem Server, desto höher die Wahrscheinlichkeit, dass eine Webseite schneller ausgeliefert werden kann, was letztendlich auch der User Experience zum Vorteil gereicht.

5.4.7 PageSpeed

PageSpeed ist eher als Hygienefaktor im Ranking zu verstehen: Ist die Seite langsam, so bekommt sie einen Malus; ist sie schnell, so verändert sich nichts. Komplett gesichert ist das aber auch nicht, denn eigene Untersuchungen haben ergeben, dass dies keine eindeutige Regel zu sein scheint.

Nicht zu unterschätzen ist aber die Wirkung auf Nutzer, denn je schneller die Seite lädt, desto geringer ist die Wahrscheinlichkeit, dass die Nutzer abspringen, weil es ihnen zu lange dauert bis die Seite geladen ist.

Viele Faktoren haben Einfluss auf die Geschwindigkeit einer Seite:

  • Leistungsfähigkeit des Servers
  • Netzwerkanbindung des Servers
  • Standort des Servers (Panama ist für deutsche Inhalte wahrscheinlich keine gute Idee, da zu viele “Hops” zwischen dem Server und dem Browser des Nutzers liegen)
  • Hosting-Paket
  • Die “Schwere” der Seite, also wie viele KB die HTML, CSS und Bilderdateien haben
  • Komplexität der Seite (sie muss immer noch vom Browser gerendert werden)

Die Geschwindigkeit einer Seite kann mit Googles PageSpeed-Tool gemessen werden.

Gerne wird in diesem Zusammenhang ignoriert, dass nicht alle Nutzer in gut mit Internet versorgten Städten leben. Auch wenn die Provider hohe Geschwindigkeiten anbieten, so bedeutet das nicht, dass diese auch überall verfügbar sind. Insofern ergibt es immer noch Sinn, dass Seiten möglichst klein gehalten werden.

5.4.8 XML-Sitemaps

Die einfachste Methode, eine Seite bei Google anzumelden, ist sie direkt in ein Formular einzugeben. Eine weitere und in der Regel auch bessere Methode ist die XML-Sitemap. Das Protokoll der XML-Sitemaps, worauf sich die großen Suchmaschinen geeinigt haben, ermöglich es Webseiten-Betreibern, den Suchmaschinen Informationen über die Struktur der eigenen Seite sowie die Prioritäten für das Crawling mitzuteilen. Die Suchmaschinen haben natürlich keine Verpflichtung, den Wünschen Folge zu leisten, aber die Webseiten-Betreiber haben zumindest theoretisch etwas Einfluss.

5.4.9 Duplicate Content / Canonical Tag

Duplicate Content wird als solcher bezeichnet, wenn der gleiche Inhalt auf mehr als einer Webseite oder auch mehrfach auf derselben Website zu finden ist. Ein gutes schlechtes Beispiel sind die zahlreichen Wikipedia-Kopien, die in der Regel nur mit Werbung angereichert wurden. Aber auch ohne böse Absichten können Dubletten entstehen, zum Beispiel wenn eine Druckfunktion angeboten wird, bei der der gleiche Inhalt ohne Navigation angeboten wird. Google & Co sind schlau genug, dass sie nicht nur exakte Kopien identifizieren, sondern auch Seiten, die sehr ähnlich sind. Das Resultat ist, dass das, was als Kopie angesehen wird, aus dem Index herausfliegen kann. Im schlimmsten Fall ist das die Seite, die man eigentlich nicht im Index haben wollte (z.B. die Druckversion ohne Navigation), aber nicht die, die die Benutzer eigentlich sehen sollten.

Canonical URLs helfen hier, die Link- und Ranking-Signale zu opti-mieren. Dazu wird im Head-Bereich ein zusätzlicher Tag gesetzt.

Wenn Google den Verdacht hat, dass Content zu Manipulationszwecken dupliziert worden ist, kann die ganze Seite abgestraft und aus dem Index entfernt werden.

5.4.10 SSL

War ein SSL-Zertifikat früher nur optional, so ist es mittlerweile ein offiziell von Google bestätigter Ranking-Faktor. Hinzu kommt, dass in Browsern mehr oder weniger prominent angezeigt wird, ob eine Seite durch ein SSL-Zertifikat gesichert ist oder nicht. Je stärker die Nutzer auf Sicherheitsfunktionen sensibilisiert werden, desto mehr werden Nutzer ihre Auswahl auf gesicherte Seiten einschränken.

5.5 OffPage-Optimierung

5.5.1 Linkpopularität / PageRank

Google und andere Suchmaschinen gingen früher und zum Teil noch heute davon aus, dass eine Seite umso wichtiger ist, je mehr andere Seiten auf sie verlinken. Google nennt seinen Linkpopularitäts-Algorithmus PageRank (siehe auch das Paper von Page und Brin in der Literaturliste). Dabei ist nicht nur die Anzahl der Links entscheidend, sondern auch, von wem man verlinkt wird. Erhält eine Seite einen Backlink von einer wichtigen (also von vielen anderen Seiten verlinkten) Webseite, so ist dieser Link wertvoller als der Link einer Seite, die von keiner anderen Seite verlinkt ist. Google kommunizierte die PageRank-Werte von 0-10 in der Google Toolbar, seit 2016 werden die Werte aber nicht mehr veröffentlicht.

Der Mechanismus viele Links -> besseres Ranking funktioniert heute nicht mehr so einfach wie früher.

5.5.3 Anchor Texte

Nicht nur die Anzahl der Links ist wichtig, sondern auch der Anchor Text, also der Linktext, auf den ein Benutzer klickt, wenn er einen Link verfolgen wird. Diese Anchor Texte werden von den Suchmaschinen als Beschreibung einer Seite gewertet und mit der verlinkten Seite verknüpft.