robots.txt

 

One.com Forum und Tutorial

Lösungen sind meist ganz einfach - wenn man sie kennt

 

 

Die robots.txt

 

 

Funktion und Sinn der robots.txt ergibt sich aus der Arbeit der Webcrawler. Also der Programme die ständig automatisiert die Webseiten nach Links durchsuchen und neue, noch unbekannte Links(Seiten) aufsuchen und für die jeweilige Suchmaschinen indizieren.

Um die Indizierung der Webseiten zu vereinfachen und zu beschleunigen, was ja auch im Sinn der Seitenbetreiber liegt, wurde eine Festlegung getroffen, das in einer Datei sitemap.xml alle Seiten eines Webprojektes aufgelistet werden, so das die Crawler nicht lange suchen müssen.

 

Die Erstellung der sitemap.xml erledigt heutzutage in der Regel der Provider, in unserem Fall also one.com automatisch immer wenn du dein Projekt veröffentlichst. Die Datei wird immer im Stammverzeichnis der jeweiligen Domain gespeichert.

 

Sollen Seiten nicht indiziert werden, wie zum Beispiel Seiten in einem passwortgeschützten Bereich, kann man diese Seiten von der Indizierung ausschliessen. Dazu dient die robots.txt, in welcher man den Crawlern (oder auch Bots genannt) mitteilt welche Seiten oder Verzeichnisse von der Indizierung auszuschließen sind. Ordentliche Crawler der Suchmaschinen berücksichtigen diese Angaben.

Auch die robots.txt wird im Stammverzeichnis der Domain abgelegt.

 

Erstellt wird diese in einem einfachen Texteditor (findest du in Windows unter Zubehör) oder auch in Word möglich. In word musst du aber darauf achten beim Speichern unten als Speicherformat "Nur txt" auszuwählen. Beachten musst du nur das diese am Ende tatsächlich robots.txt heisst.

 

Inhaltlich hier ein Beispiel aus der Selfhtml-Wiki:

 

# robots.txt zu http://www.example.org/

 

User-agent: UniversalRobot/1.0

User-agent: mein-Robot

Disallow: /quellen/dtd/

 

User-agent: *

Disallow: /fotos/

Disallow: /temp/

Disallow: /fotoalbum.html

 

Im ersten Datensatz wird den Robots UniversalRobot/1.0 und mein-Robot untersagt, Daten aus dem Verzeichnis /quellen/dtd/ und allen Unterverzeichnissen zu indizieren.

 

Im zweiten Datensatz wird allen Robots verboten, die beiden Unterverzeichnisse /fotos/ und /temp/ auszulesen. Zudem wird der Zugriff auf die Datei fotoalbum.html verboten.

Die erste Zeile ist lediglich eine Kommentarzeile. Kommentare werden durch ein Gatterzeichen # eingeleitet und können auch in der Zeile beginnen.

 

Befinden sich die Dateien in einem Unterverzeichnis muss dieses natürlich vorne ergänzt werden. Wichtig: nie den einleitenden Slash vergessen.

 

Hat man die robots.txt erstellt, muss man diese in das Stammverzeichnis der Domain laden. Dazu kannst du den Filemanager von one.com benutzen. den findest du auf der Startseite von one.com, wenn du dich bei one.com eingeloggt hast. Du bist automatisch dann im Stammverzeichnis deiner Domain. Also hochladen und fertig. Prüfe vor dem Hochladen ob die auszuschließenden Seiten auch im Stammverzeichnis liegen oder in einem Unterverzeichniss. Nötigenfalls musst du die Angaben in der robots.txt noch einmal anpassen.