Sperrschrift für Automaten

Gemeint ist damit hier nur die robots.txt — und diese kann es in sich haben, wenn man auch nur ein falsches Zeichen benutzt.

So kann man, wie ich gestern selbst erfahren habe, z. B. die Suchmaschinen-Robots unfreiwillig komplett aussperren.

Was habe ich dabei gelernt: Man kann keine Regeln erfassen, die das besuchen von Links mit Ankern (…/#anker-im-text) einschränkt. Denn das explizite Einschließen des “#” ist nicht möglich, da es für die robots.txt als Kommentarzeichen gilt. 

Warum wollte ich überhaupt Dokumenten-Anker ausschließen? Damit das Folgen von ohnehin meist nur redundanten Links wie “Weiterlesen”, “Read more” etc.  weiter minimiert wird. So ein Crawler einer Suchmaschine kann allein erheblichen Traffic verursachen (bzw. bei PHP-basierten Seiten mit Datenbank auch noch eine Menge Nutzlast auf CPU und RAM). Für den Index spielt es sehr wahrscheinlich kaum eine Rolle, da nur selten Links mit Ankern zu finden sind.

Bei Blogs steht der erste Link ja direkt als Überschrift, der eventuell zweite zum gleichen Inhalt ist dann oftmals mit einem #more-Anker versehen. Intelligente Spiders sollten hier sehen, dass es sich um ein und dieselbe Zielseite mit identischem Inhalt handelt.

Wie ich ja oben andeutete, war dies ein Versuch. Und mit einem für mich aufschlussreichen Ergebnis, aber eben mit dem, worauf ich fokussiert war.

Also zum Merken nochmals:

Eine Regel in der Form

Disallow: /*#more

niemals benutzen!!! Der Bot liest nämlich nur:

Disallow: /*

und ist damit gleichbedeutend wie “Alle Unterseiten sind gesperrt für dich!” (Der Stern wäre hierbei optional, unterstreicht die Regel aber umso deutlicher).

Wer seine Seite in den Google Webmaster Tools [] eingetragen hat, kann dort auch ganz leicht überprüfen, ob die robots.txt korrekt funktioniert. Sicher mag es auch noch andere Dienstleister geben, habe aber gestern keinen so auf die Schnelle gefunden.

VerteilerZentrum:
  • email
  • Twitter
  • Identi.ca
  • Facebook
  • Tumblr
  • MisterWong.DE
  • del.icio.us
  • StumbleUpon
  • LinkArena
  • Wikio
  • Digg
  • FriendFeed
  • Posterous
  • Print
  • PDF


Eine Reaktion:


  1. Hallo Chris,

    das ist wirklich ein doofer Fehler, den man schnell übersehen kann. Und dann bewirkt das Ganze auf einmal das Gegenteil – quasi ein AntiSEO.

    Danke für den Hinweis – werde meine robots.txts nochmal checken.

    Bis dahin
    Tobi

Kommentar verfassen

Alles geprüft und fertig? Dann absenden:


  • blog & craft!

    Das Bloggen als Handwerk verstehen.

    Auf blogcraft wird es um das Bloggen in all seinen Facetten gehen. Ein kleiner Schwerpunkt wird hierbei auch Wordpress mit seinen Plugins, Themes und Widgets sein. Weitere Infos auch unter "Seiten" hier in der Sidebar.


  • Sonstiges


    what blogcraft can be ...
    the first german craftblog about blogging in a private magazine style.

    was blogcraft sein kann ...
    das erste deutsche handwerksblog über das bloggen, im stile eines "privaten magazins".


  • Tellerrand