# Die robots.txt Datei ist nach einem bestimmten Schema aufgebaut. # Zuerst gibt man an, für welchen Crawler die Anweisungen gelten # und dann die einzelnen Anweisungen. # # robots.txt fuer http://www.cdn-automotive.com/ # User-agent: * # Disallow: /css/ # Die Dateien sind sehr kurzlebig # Disallow: /img/ # Bilder nicht downloaden # Disallow: /logs/ # Die ändern sich jeden Tag # Disallow: /swf/ # # Disallow: /news.html # Die news.html ändert sich täglich # # Mit User-agent: BeispielRobot bestimmt man, daß die Anweisungen # nur für den Crawler BeispielRobot gelten. # Mit den einzelnen Disallow Einträgen bestimmt man Dateien und Verzeichnisse # die nicht indexiert werden sollen. Alles, vor dem ein # steht, # gilt als Kommentar und wird von den Robots ignoriert. # # Wenn man mit einem Mal alle Crawler ausschließen will, benutzt man den sog. Wildchar *, also: # # Alle Robots ausschließen # User-agent: * # Disallow: /temp/ # # Wenn man nicht gleich alle Crawler, sondern nur ein paar bestimmte meint, kann man diese so angeben: # # Massendownloader vom CGI Verzeichnis fernhalten # User-agent: wget # User-agent: webzip # User-agent: webmirror # User-agent: webcopy # Disallow: /cgi-bin/ # # Um seine Site ganz von der Indexierung auszuschließen kann man folgendes benutzen: # # Ganze Site für alle Robots sperren # User-agent: * # Disallow: / # # Wenn man den Slash (/) wegläßt, gibt man Seine Site ganz für die Indexierung frei: # # Ganze Site freigeben # User-agent: * # Disallow: # # Bei den Disallow Einträgen ist die Groß- und Kleinschreibung egal. # Man sollte aber darauf achten, wo und ob man den Slash (/) setzt, denn der Eintrag # # User-agent: * # Disallow: /index # Disallow: /temp/ # # Würde dazu führen, daß alle Urls die mit /index anfangen nicht indexiert werden, # auch z.B. /index.html oder /indexed-files/datei.html statt einfach nur das # Verzeichnis /index/, wohingegen bei Disallow: /temp/ wirklich nur die Dateien im # Verzeichnis /temp/ ausgeschlossen werden. User-agent: * Disallow: /css/ # Die Dateien sind sehr kurzlebig Disallow: /img/ # Bilder nicht downloaden Disallow: /logs/ # Die ändern sich jeden Tag Disallow: /swf/