Spass mit Webspiders II

It's a maexotic world ...


FAIL-spider

Mit Hilfe der Datei robots.txt im Root-Verzeichnis eines Webservers (also zB. http://www.example.com/robots.txt) kann man Webspiders rudimentär steuern. Will man nicht, dass diese Crawlers einen bestimmten Bereich des Webservers ablaufen, schreibt man Einträge der Form:

User-Agent: *
Disallow: /g2/main.php/tag/

Schön wäre es nun, wenn sich die Crawlers auch daran halten würden. Manche tun das nämlich nicht, obwohl sie das /robots.txt abrufen:

20100128 16:18:22dotnetdotcom.orgGET200515/robots.txt
20100128 17:14:55dotnetdotcom.orgGET20020193/g2/main.php/tag/steckerlfisch
...
20100128 20:15:30dotnetdotcom.orgGET200515/robots.txt
20100128 21:06:41dotnetdotcom.orgGET20030934/g2/main.php/tag/brugmansia
20100128 21:06:45dotnetdotcom.orgGET20016502/g2/main.php/tag/butterfly
20100128 21:06:59dotnetdotcom.orgGET20016423/g2/main.php/tag/eucalyptus
20100128 21:07:25dotnetdotcom.orgGET20057129/g2/main.php/tag/wallersdorf
...
20100129 00:02:40dotnetdotcom.orgGET200515/robots.txt
20100129 00:51:20dotnetdotcom.orgGET20016484/g2/main.php/tag/24indigo
20100129 00:52:04dotnetdotcom.orgGET20025027/g2/main.php/tag/siegestor
...
20100129 03:43:11dotnetdotcom.orgGET200515/robots.txt
20100129 04:31:11dotnetdotcom.orgGET20016483/g2/main.php/tag/bambus
20100129 04:31:15dotnetdotcom.orgGET20016382/g2/main.php/tag/banana
20100129 04:31:19dotnetdotcom.orgGET20016413/g2/main.php/tag/buddha
20100129 04:31:23dotnetdotcom.orgGET20056972/g2/main.php/tag/canico
20100129 08:11:38dotnetdotcom.orgGET20055245/g2/main.php/tag/winter
...

[UPDATE] Mittlerweile habe ich Antwort erhalten. dotnetdotcom.org hält sich an den Robot Exclusion Standard. Das Problem liegt darin, dass ich mehrere Zeilen mit "User-Agent: *" in meinen robots.txt hatte. dotnetdotcom.org interpretiert das als Fehler. Ich habe es entsprechend abgeändert.
Weitere Recherche führte dann zu B.4.1 Search robots: The robots.txt file. Hier wird es genauer spezifiziert (was mir bisher neu war):

There must be exactly one "User-agent" field per record. The robot should be liberal in interpreting this field. A case-insensitive substring match of the name without version information is recommended.
If the value is "*", the record describes the default access policy for any robot that has not matched any of the other records. It is not allowed to have multiple such records in the "/robots.txt" file.

[/UPDATE]

In solchen Fällen empfiehlt sich dann ein Block in der Konfiguration des Webservers. Im Falle von

Mozilla/5.0 (compatible; DotBot/1.1; http://www.dotnetdotcom.org/, crawler@dotnetdotcom.org)

und eines apache Webservers wäre das dann ein Eintrag

# dotnetdotcom.org crawler
Deny from 208.115.111.240/28

Eine E-Mail an die Betreiber hat natürlich innerhalb von 36 Stunden weder eine Antwort noch eine Änderung gebracht. [UPDATE] Dafür aber kurz danach.[/UPDATE].




Comments