Warum Social Search nicht funktioniert

Während Lycos iq-Mitkonzeper Oliver Wagner das Ausbleiben der Social Search-Revolution als Versäumnis sieht (damit aber nicht die reinen Social Search-Ansätze meint) und Robert Basic sogar die Social Bookmark-Dienste als Social Search Engines ansieht, ist eine allein auf Nutzerbewertungen basierende Social Search aufgrund seines Konzepts von vornherein für diejenigen gescheitert, die bereits tiefer in die Komplexität eines Suchalgorithmus geschaut haben.

Eine Social Search, bei der die Beurteilungen der Suchergebnisse durch Benutzer in das zukünftige Ranking einfließen, kann nicht funktionieren. Das soll nicht bedeuten, dass das iq-Konzept nicht funktionieren kann, denn hier werden nicht die Suchergebnisse selbst, sondern die Beiträge von Benutzern in einer Community bewertet, und dann, falls relevant für eine Suchanfrage, in den organischen Ergebnissen angezeigt.

Warum aber kann eine reine Social Search nicht funktionieren? Die Long Tail, so Chris Andersson, gilt auch für die Population von Suchanfragen, ausgehend von Excite-Suchlogdateien. Wenige Begriffe werden oft gesucht (“Britney Spears nackt”), viele Begriffe werden selten gesucht (“Computational Lexicography”), manche sogar nur einmal im Monat, im Jahr oder in manchen Fällen auch zum allerersten Mal. Offensichtlich ist es unmöglich, für die selten gesuchten Begriffe ausreichend Daten zu erhalten, die sich für ein Ranking benutzen lassen. Es reicht nicht aus, eine Bewertung für ein Suchanfrage-URL-Paar zu haben und diesem Einfluss auf das Ranking zu gewähren, schließlich könnte jeder seine eigene Seite anklicken und damit im Ranking verbessern. Auch sind Menschen unterschiedlicher Meinung, so dass erst eine Vielzahl von Bewertungen ein signifikantes Bild erkennbar werden lassen. Natürlich ließe sich argumentieren, dass man, wenn man nur lange genug wartete, für jedes Suchanfrage-URL-Paar ausreichend Daten haben könnte. Und selbst wenn man für die long long long tail keine Daten hätte, so wären zumindest für die häufigen Suchanfragen sowie für einen großen Teil der Long Tail etwas da. (Ist hier aufgefallen, dass ich nicht von der Beurteilung von URLs spreche, sondern von Suchanfrage-URL-Paaren? Offensichtlich kann eine URL für eine Suchanfrage relevant sein, für eine andere aber nicht. Eine Bewertung ist also nur für die Kombination von Suchanfrage mit URL vorgenommen werden. Das macht die Summe der auswertbaren Daten noch geringer.)

Das nächste Problem bei diesem Vorgehen ist, dass die über lange Zeit gesammelten Daten nicht mehr “frisch” sind. Suchanfragen und Seiten entwickeln sich, und was heute relevant ist, ist es morgen nicht mehr. Wer heute nach “Börsencrash” sucht, will höchstwahrscheinlich keine Seiten über den Absturz der Aktienmärkte im Jahr 2000 sehen (obwohl diese rein theoretisch auch relevant wären und für manche Benutzer sicherlich auch sind; es benötigt eine Unmenge an Daten, um dieses Rauschen heraus zu bekommen). Das gilt nicht für alle Suchanfragen-URL-Paare. Die iPod-Seite von Apple war vor 3 Jahren relevant und ist es heute auch noch. Manche Bewertungen hätten somit eine kurze Halbwertzeit, andere eine längere. Doch wie kann man das unterscheiden? Sicherlich gäbe es auch dafür eine Möglichkeit (die ich momentan als sehr komplex ansehe), aber wir stehen nun wieder vor dem Problem, dass wir die Daten für die Long Tail nicht verwenden können. Wir würden für “Britney Spears nackt” wahrscheinlich genug Daten haben, um von der sozialen Komponente profitieren zu können, für “Computational Lexicography” sieht es da schon düster aus und man muss sich auf die klassischen Methoden stützen. Schaut man sich die Query-Population etwas genauer an, so sieht man sehr schnell, dass mit einer Suche für populäre Suchanfragen kein Blumentopf zu gewinnen ist.

Schaut man in den Quellcode aller populären Suchmaschinen, so sieht man auf der anderen Seite, dass diese Klicks auf die Ergebnisse tracken. Anstatt dem Benutzer die Möglichkeit zu geben, ein Ergebnis als gut oder schlecht zu bewerten, scheint es hier also einen anderen Mechanismus zu geben, der allerdings umso komplexer ist. Denn nur weil ein Benutzer auf ein Ergebnis geklickt hat, so bedeutet das noch lange nicht, dass die Seite dann auch als gut angesehen wird. Natürlich könnte man nun messen, wie lange ein Benutzer auf einer Seite bleibt, bis er wieder zu der Suchergebnisseite zurückkehrt, aber die in den Browsern heute üblichen Tabs ermöglichen das Öffnen mehrerer Ergebnisse, so dass der Benutzer nicht so schnell zurückkehrt und somit das Ergebnis verzerren würde (natürlich kann man auch das wieder rausfiltern, schließlich hat ein Benutzer dann mehrere Ergebnisse innerhalb kurzer Zeit angeklickt). Es ist allerdings zweifelhaft, dass diese Klickpopularität allein ausreichend ist für einen guten Rankingalgorithmus, genauso wenig wie die Linkpopularität allein dafür ausreichend wäre. Google gibt selber zu, dass PageRank einer von mehr als 100 Faktoren ist, und auch die Klickpopularität wird sich als ein Faktor in diesen mehr als 100 befinden.

Social Search kann, wenn überhaupt, nur ein kleines Gimmick sein, wenn sie nicht durch weitere Verfahren ergänzt wird. Der soziale Gedanke allerdings leidet durch diese Einschränkung, denn wie soll man Benutzer dazu überreden, Ergebnisse zu bewerten, wenn sowieso nur ein Bruchteil dieser Ergebnisse verwertbar ist und somit anderen Suchenden einen Nutzen bietet?

Filed under: Data ScienceTagged with: , ,

No comment yet, add your voice below!


Add a Comment

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Comment *

Name *
Email *
Website