Beim Ranking-Problem geht es um folgende Fragestellung:
Wie lässt sich für eine Webseite die Relevanz in Bezug auf den Suchbegriff bestimmen.
Ist das Relevanz-Problem gelöst, müssen die Ergebnisse nach dieser Relevanz sortiert werden.
Hier geht es darum, einen Lösungsansatz zur Bestimmung der Relevanz von Webseiten zu entwickeln.
Die Relevanz von Webseiten bestimmen
Wie können/sollen die Suchergebnisse (Webseiten zu einem Suchbegriff) sinnvoll der Reihe nach angeordnet werden?
Hierzu braucht man geeignete Kriterien.
Aufgabe 1
(a)
Welche Kriterien könnte man benutzen, um die Relevanz von Webseiten zu bestimmen?
(b)
Wenn du auf den Button drückst, werden einige Lösungsansätze eingeblendet.
Bewerte diese Ansätze – auch im Vergleich zu deinen eigenen Überlegungen.
Lösungsansätze einblenden
Domainname:
Ein Domainname wie www.bahn.de deutet darauf hin, dass es auf dieser webseite um die (deutsche Bundes-) Bahn geht.
Seiteninhalt:
Man könnte untersuchen, welche Schlüsselwörter im sogenannten Header der Webseite genannt werden. Man könnte auch untersuchen, wo und wie oft die Suchbegriffe im Text vorkommen.
Zugriffszahlen, Verweildauer:
Man könnte die Anzahl der Zugriffe auf die Webseite und die Verweildauer ermitteln
Aktualität:
Man könnte die Aktualität der Webseite berücksichtigen: Wann ist sie zuletzt aktualisiert worden?
Verlinkung:
Man könnte die Anzahl der Links zählen, die auf eine Webseite verweisen.
Geld:
Man könnte sich bezahlen lassen für das Vergeben einer hohen Relevanz.
Die Verlinkung von Webseiten verwenden
Um von einer Webseite zu einer anderen zu gelangen, klickt man auf einen Verweis.
Man nennt ihn Hyperlink oder kurz Link.
Die folgende
Klickstrecke [1]
verdeutlicht die Situation:
Wir wollen die Verlinkungsstruktur nutzen, um das Relevanz-Problem zu lösen.
Dabei werden wir das Problem ganz analog zu den Entwicklern der Suchmaschine Google lösen.
Wir konzentrieren uns dabei auf kleine Webseiten-Welten, um die Grundprinzipien zu verdeutlichen.
Aufgabe 2
(a) Lies dir die folgende Erklärung zum PageRank-Verfahren durch und fasse den Grundgedanken in eigenen Worten zusammen.
Erklärung zum Pagerank-Verfahren
Erste Suchmaschinen überprüften nur, ob und wie oft der Suchbegriff auf einer Webseite auftauchte.
Es wird jedoch schnell klar, dass das alleine nicht ausreicht, da eine Webseite,
auf der der Begriff ganz oft auftaucht, dennoch sehr unbedeutend sein kann.
Ein objektiver Maßstab für die Wichtigkeit einer Webseite ist jedoch schwierig zu finden;
schließlich hängt die Bedeutung vom jeweiligen Nutzer oder der jeweiligen Nutzerin ab.
Um subjektive Einflüsse auszuschließen, kann man sich auf die Struktur der Webseite mit ihren Links konzentrieren.
Wenn eine Webseite von vielen anderen Webseiten verlinkt ist, dann ist das ein Argument für die Bedeutung der Webseite.
Man betrachtet dabei jeden Link als ein „Votum“ der verlinkenden Webseite auf die verlinkte Webseite.
Man spricht dabei von der Linkpopularität einer Seite:
Je häufiger sie verlinkt ist, desto „populärer“ ist sie.
Sergey Brin und Larry Page (daher das Wortspiel PageRank) entwickelten 1996 an der Standford University einen
Algorithmus, um die Linkpopularität einer Webseite festzulegen –
den PageRank-Algorithmus und meldeten ihn 1997 zum Patent an. Darin heißt es:
„A method assigns importance ranks to nodes in a linked database, such as any database of documents containing citations, the world wide web or any other hypermedia database. The rank assigned to a document is calculated from the ranks of documents citing it. [...] The method is particularly useful in enhancing the performance of search engine results for hypermedia databases, such as the world wide web, whose documents have a large variation in quality.“
[2]
Der zweite Satz beinhaltet einen wichtigen Punkt: Der PageRank-Algorithmus verwendet nicht nur die Anzahl der Links auf eine Webseite, sondern auch die Relevanz der verlinkenden Webseiten.
Aufbauend auf diesem Patent entwickelten Brin und Page die Suchmaschine Google, die heute Weltmarktführer im Bereich der Internet-Suchmaschinen ist. Inzwischen verwendet die Suchmaschine noch viele weitere Parameter, um das Relevanz- bzw. Ranking-Problem zu lösen.
(b) Erläutere anhand der folgenden Grafik, wie sich die Bedeutung von Webseiten aus der Verlinkung ergibt.
Aufgabe 3
Wir gehen nun näher auf den zweiten Satz des Patents ein:
Erkläre anhand der folgenden Klickstrecke, dass es nicht ausreicht, die Anzahl Links auf eine Webseite zu zählen.
Aufgabe 4
Betrachte die folgende Webseitenwelt. Welche der dort gezeigten Webseiten würdest du (nach dem beschriebenen Bewertungsansatz)
eine größere / geringere Relevanz einräumen?