• Zur Hauptnavigation springen
  • Skip to main content
  • Zur Haupt-Sidebar springen

data > opinion

tom alby - data science, digital transformation & technologie

  • Blog
  • Lehre & Vorträge
  • Veröffentlichungen
  • Archiv
  • Bio & Kontakt
  • Show Search
Hide Search

Warum Social Search nicht funktioniert

1. November 2008 By Tom Alby Kommentar verfassen

Während Lycos iq-Mitkonzeper Oliver Wagner das Ausbleiben der Social Search-Revolution als Versäumnis sieht (damit aber nicht die reinen Social Search-Ansätze meint) und Robert Basic sogar die Social Bookmark-Dienste als Social Search Engines ansieht, ist eine allein auf Nutzerbewertungen basierende Social Search aufgrund seines Konzepts von vornherein für diejenigen gescheitert, die bereits tiefer in die Komplexität eines Suchalgorithmus geschaut haben.

Eine Social Search, bei der die Beurteilungen der Suchergebnisse durch Benutzer in das zukünftige Ranking einfließen, kann nicht funktionieren. Das soll nicht bedeuten, dass das iq-Konzept nicht funktionieren kann, denn hier werden nicht die Suchergebnisse selbst, sondern die Beiträge von Benutzern in einer Community bewertet, und dann, falls relevant für eine Suchanfrage, in den organischen Ergebnissen angezeigt.

Warum aber kann eine reine Social Search nicht funktionieren? Die Long Tail, so Chris Andersson, gilt auch für die Population von Suchanfragen, ausgehend von Excite-Suchlogdateien. Wenige Begriffe werden oft gesucht (“Britney Spears nackt”), viele Begriffe werden selten gesucht (“Computational Lexicography”), manche sogar nur einmal im Monat, im Jahr oder in manchen Fällen auch zum allerersten Mal. Offensichtlich ist es unmöglich, für die selten gesuchten Begriffe ausreichend Daten zu erhalten, die sich für ein Ranking benutzen lassen. Es reicht nicht aus, eine Bewertung für ein Suchanfrage-URL-Paar zu haben und diesem Einfluss auf das Ranking zu gewähren, schließlich könnte jeder seine eigene Seite anklicken und damit im Ranking verbessern. Auch sind Menschen unterschiedlicher Meinung, so dass erst eine Vielzahl von Bewertungen ein signifikantes Bild erkennbar werden lassen. Natürlich ließe sich argumentieren, dass man, wenn man nur lange genug wartete, für jedes Suchanfrage-URL-Paar ausreichend Daten haben könnte. Und selbst wenn man für die long long long tail keine Daten hätte, so wären zumindest für die häufigen Suchanfragen sowie für einen großen Teil der Long Tail etwas da. (Ist hier aufgefallen, dass ich nicht von der Beurteilung von URLs spreche, sondern von Suchanfrage-URL-Paaren? Offensichtlich kann eine URL für eine Suchanfrage relevant sein, für eine andere aber nicht. Eine Bewertung ist also nur für die Kombination von Suchanfrage mit URL vorgenommen werden. Das macht die Summe der auswertbaren Daten noch geringer.)

Das nächste Problem bei diesem Vorgehen ist, dass die über lange Zeit gesammelten Daten nicht mehr “frisch” sind. Suchanfragen und Seiten entwickeln sich, und was heute relevant ist, ist es morgen nicht mehr. Wer heute nach “Börsencrash” sucht, will höchstwahrscheinlich keine Seiten über den Absturz der Aktienmärkte im Jahr 2000 sehen (obwohl diese rein theoretisch auch relevant wären und für manche Benutzer sicherlich auch sind; es benötigt eine Unmenge an Daten, um dieses Rauschen heraus zu bekommen). Das gilt nicht für alle Suchanfragen-URL-Paare. Die iPod-Seite von Apple war vor 3 Jahren relevant und ist es heute auch noch. Manche Bewertungen hätten somit eine kurze Halbwertzeit, andere eine längere. Doch wie kann man das unterscheiden? Sicherlich gäbe es auch dafür eine Möglichkeit (die ich momentan als sehr komplex ansehe), aber wir stehen nun wieder vor dem Problem, dass wir die Daten für die Long Tail nicht verwenden können. Wir würden für “Britney Spears nackt” wahrscheinlich genug Daten haben, um von der sozialen Komponente profitieren zu können, für “Computational Lexicography” sieht es da schon düster aus und man muss sich auf die klassischen Methoden stützen. Schaut man sich die Query-Population etwas genauer an, so sieht man sehr schnell, dass mit einer Suche für populäre Suchanfragen kein Blumentopf zu gewinnen ist.

Schaut man in den Quellcode aller populären Suchmaschinen, so sieht man auf der anderen Seite, dass diese Klicks auf die Ergebnisse tracken. Anstatt dem Benutzer die Möglichkeit zu geben, ein Ergebnis als gut oder schlecht zu bewerten, scheint es hier also einen anderen Mechanismus zu geben, der allerdings umso komplexer ist. Denn nur weil ein Benutzer auf ein Ergebnis geklickt hat, so bedeutet das noch lange nicht, dass die Seite dann auch als gut angesehen wird. Natürlich könnte man nun messen, wie lange ein Benutzer auf einer Seite bleibt, bis er wieder zu der Suchergebnisseite zurückkehrt, aber die in den Browsern heute üblichen Tabs ermöglichen das Öffnen mehrerer Ergebnisse, so dass der Benutzer nicht so schnell zurückkehrt und somit das Ergebnis verzerren würde (natürlich kann man auch das wieder rausfiltern, schließlich hat ein Benutzer dann mehrere Ergebnisse innerhalb kurzer Zeit angeklickt). Es ist allerdings zweifelhaft, dass diese Klickpopularität allein ausreichend ist für einen guten Rankingalgorithmus, genauso wenig wie die Linkpopularität allein dafür ausreichend wäre. Google gibt selber zu, dass PageRank einer von mehr als 100 Faktoren ist, und auch die Klickpopularität wird sich als ein Faktor in diesen mehr als 100 befinden.

Social Search kann, wenn überhaupt, nur ein kleines Gimmick sein, wenn sie nicht durch weitere Verfahren ergänzt wird. Der soziale Gedanke allerdings leidet durch diese Einschränkung, denn wie soll man Benutzer dazu überreden, Ergebnisse zu bewerten, wenn sowieso nur ein Bruchteil dieser Ergebnisse verwertbar ist und somit anderen Suchenden einen Nutzen bietet?

Mehr lesen:

  • Die ganze Wahrheit über Social Networks Timo hatte sich neulich gefragt, warum es für das Lunch...
  • Das letzte Mal Das powerbook_blog bezeichnet so einen Tag wie heute als Das...

Kategorie: Data Science Stichworte: search, social search, suchmaschinen

Leser-Interaktionen

Schreibe einen Kommentar Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Haupt-Sidebar (Primary)

Mein neues Buch!

Einführung in die Webanalyse – Das Buch

30 Ansätze aus der Praxis - Grundprinzipien der AnalyseWas ist an diesem Buch anders?Dies …

Wer ist Tom?

Tom Alby

Die digitale Welt wird unser Leben verbessern, daran glaube und arbeite ich seit 1994. Bei Firmen wie Google, Bertelsmann, bbdo und heute Euler Hermes. Mein Fokus liegt dabei auf Datenanalyse & Data Science, digitalen Geschäftsmodellen sowie der damit verbundenen Unternehmenskultur.

Um mein Wissen weiterzugeben schreibe ich Artikel und Bücher und lehre unter anderem an der HAW Hamburg. Auf dieser Seite blogge ich über spannende Daten- und Digitalisierungsthemen sowie über Musik und Lifehacks.

Seminar buchen?

Freie Samstage auf Calendly
Datenschutzerklärung

data > opinion

Copyright © 2019

Diese Webseite benutzt Google Analytics, alle Daten werden aber anonymisiert Cookie settingsACCEPT
Privacy & Cookies Policy

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.

Notwendig immer aktiv

Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.

Nicht notwendig

Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.