Spass mit Webspiders

Markus Stumpf
Tuesday, January 26. 2010
Tagein, tagaus
0
Trackback URL

Wir haben eine kleine Galerie (naja, eher ein Fotoalbum) mit nicht allzu vielen Fotos, für das wir gallery2 (in fast aktuellster Version) einsetzen. Neben dem Core System gibt es - wie so üblich - jede Menge Plugins. Ich weiss nicht mehr vor wie langer Zeit haben wir spaßeshalber das rating-Plugin aktiviert. Als ich gestern gesucht habe, warum sich der apache so anstrengt, habe ich folgende Zugriffe im Logfile gefunden:

/g2/main.php?g2_view=rating.RatingCallback&g2_command=rate&g2_itemId=147&g2_rating=1 /g2/main.php?g2_view=rating.RatingCallback&g2_command=rate&g2_itemId=147&g2_rating=2 /g2/main.php?g2_view=rating.RatingCallback&g2_command=rate&g2_itemId=147&g2_rating=3 /g2/main.php?g2_view=rating.RatingCallback&g2_command=rate&g2_itemId=147&g2_rating=4 /g2/main.php?g2_view=rating.RatingCallback&g2_command=rate&g2_itemId=147&g2_rating=5

... und das natürlich nicht nur für das eine Photo (g2_itemId), sondern für alle. Da war ich dann erst einmal froh, dass das Rating nur von 1-5 geht und nicht von 1-10 oder so.

Daraufhin habe ich etwas im Code gegraben und die Links, also die <a href="...> um den Parameter rel="nofollow" erweitert. Das nofollow ist an die Notatation der META Information des Robot Exclusion Standards angelehnt und existiert seit 2005, als es von Google und Blogger.com angekündigt wurde und recht schnell Akzeptanz fand.

Die Sematik ist jedoch leider unterschiedlich:

<meta name="robots" content="nofollow">: damit wird ausgedrückt, dass Webspiders generell allen Hyperlinks auf dieser Seite nicht folgen sollen.
rel="nofollow": damit wird ausgedrückt, dass der Hyperlink keine Bewertung durch das Setzen des Links erhalten soll. Dies zielt auf den Bereich SEO und die Versuche von Spammern durch Setzen von Links zB. in Blogkommentaren das Ranking der Zielseite in der Suchmaschine zu verbessern.
Soweit ich das bisher beobachten konnte, führt es aber auch dazu, dass Webspiders diesen Links nicht folgen, was ja mein Ziel wäre.

Ich werde sehen was passiert

Was aber schon gehörig nervt ist, dass es sehr schwierig bis unmöglich ist Webspiders von bestimmen Bereichen auszuschliessen (nicht um es zu verstecken, sondern weil es für sie sinnlos ist). Dies betrifft zB. den Login-Link für den Administrator. Der ist (nicht nur) bei gallery2 so gestaltet, dass er die Information enthält, von welcher Seite aus der Login erfolgt ist, um den Benutzer - nach erfolgreicher Anmeldung - erst einmal wieder dorthin zurückzuschicken:

/g2/main.php?g2_view=core.UserAdmin&g2_subView=core.UserLogin&g2_fromNavId=x7170925e

Wie man unschwer erkennen kann, wird durch den Parameter g2_fromNavId dieser Link auf jeder Seite unterschiedlich, was dazu führt, dass ihn die Webspiders immer und immer wieder anlaufen. Die lässt sich auch mit Hilfe einer /robots.txt nicht wirklich verhindern, da diese nur Dateien oder Verzeichnisse spezifiziert, jedoch keine Scripts mit Parameterversorgung. Folgendes geht also (dokumentiert) nur bei Google:

User-Agent: * Disallow: /g2/main.php?g2_view=core.UserAdmin*

Was meiner Meinung nach dringend fehlt sind Möglichkeiten bestimmte Links und Bestandteile der Seite durch entsprechende Kennzeichnung auszuschliessen. Yahoo hat dazu 2007 mit class="robots-nocontent" einen Vorstoss gewagt, der aber keinen Anklang gefunden hat und wohl auch nur von Yahoo honoriert wird. Leider.
Einen Vorschlag für ein entsprechendes Microformat gibt es bereits seit 2005, passiert ist bisher nichts.

Aber auch die Programmierer sind hierbei gefragt, denn diese können durch entsprechende Gestaltung der URLs durchaus dazu beitragen, dass man bessere Kontrolle darüber erhält, was die Webspiders so abgrasen.

Comments

No comments