Milliarden von Webseiten kämpfen um einen Platz an der Sonne
Das Geheimnis der Suchmaschinenoptimierung
100.000 Millionen Internet Seiten im WEB - Wie wird Ihre Seite gefunden?
Die eigene Homepage ist fertig, Sie haben sie über einen Webhoster oder mit einem FTP-Server hochgeladen und warten darauf, daß alle vor Verzückung zu schreien beginnen, aber Ihr Besucherzähler bleibt bei null stehen.
Was ist passiert: Ihre Webseite wird noch nicht gefunden, sie ist noch nicht bekannt, keiner weiß, daß sie existiert. Kurz, Sie müssen Spuren im Internet hinterlassen. Spuren für die Suchmaschinen, welche jeden Tag das Internet auf der Suche nach neuen Webseiten und neuen Inhalten bereits bestehender Webseiten spidern. Suchmaschinenoptimierung bedeutet grob gesagt, die eigene Webseite auf ganz bestimmte, zum eigentlichen Inhalt und zum Thema der Webseite passende Ausdrücke, Suchbegriffe und Schlagwörter auszurichten, um in den wichtigen Suchmaschinen wie Google, Yahoo, MSN usw. die Sichtbarkeit so zu verbessern, daß als weitere Folge daraus die Plazierungen in den Suchmaschinen stetig steigen. Suchmaschinenoptimierung bedeutet aber auch, die HTML-Tags möglichst W3C-konform zu halten, auf das Einbinden bestimmter Techniken wie etwa Frames zu verzichten und trotz aller Suchmaschinenoptimierung: Webseiten werden für Menschen, also Besucher auf der Suche nach bestimmten Informationen gestaltet, nicht für Suchmaschinen. Zukünftige Webmaster sollten deshalb auf alle Fälle auch die Google Hinweise für Webmaster kennen, um beim eigenen Bestreben richtiger Suchmaschinenoptimierung auf dem Pfad der Tugend zu bleiben.
Ca. 80 - 90 % aller Besucher kommen von Suchmaschinen wie Google auf die Homepage, d.h. bereits der Titel der Webseite sollte so gewählt werden, daß bereits hier wichtige Keywörter enthalten sind.
Nichts ist schlimmer als den Besucher mit einem Flash-Intro zu empfangen, schließlich will er sich informieren und nicht mit wilden Flash- und Java-Kunstwerken zugedröhnt werden. Suchmaschinen brauchen Text als Futter und nicht laute Musik und grell-bunte Kreise.
Schreiben Sie auf jede Seite Text zum Seitenthema und zwar unterschiedlichen Text, Wiederholungen werden von Suchmaschinen erkannt und tlw. nicht aufgenommen oder, noch schlimmer, wieder verbannt. Ein weiterer Vorteil von viel Text ist, daß Besucher durch oft ganz absurde Suchtextkombinationen gerade auf Ihre Seite geleitet werden.
Der Head einer Homepage als Entree in die Welt der Spider. Hier sollte man wirklich darauf achten, Text, Text und nochmals Text zu verwenden und diesen am besten schön groß in h1, h2 oder h3 Überschriften, da dies von Suchmaschinen oftmals höher bewertet wird und weiterhin darauf achten, daß hier schon die wesentlichen Suchwörter enthalten sind. Will man dennoch Grafiken mit einbinden, bitte diese nur als Hintergrund verwenden. Aber bitte, versucht nicht mit aller Gewalt alle wichtigen Wörter jetzt in h1-Überschriften unterzubringen, nur damit dieser Punkt erfüllt ist, schließlich sollte sich eine Überschrift auch in den Kontext des Artikels einfügen, was nützt eine Überschrift mit fünf Keywords, wenn der folgende Absatz in völligem Missverhältnis dazu steht und überhaupt keinen Zusammenhang dazu bildet. Versucht vielmehr, in den ersten ca. 200 Wörtern Eurer Eingangsseite das Thema genau zu umreissen, welches sich hoffentlich wie ein roter Faden durch die gesamte Homepage ziehen wird.
Da aber kein Mensch genau weiß, was in den virtuellen Köpfen der Spider, Robots, Suchmaschinen und wie sie sonst noch bezeichnet werden, vorgeht, sollte man sich vielleicht den wirklich erstklassigen Artikel von Dan Larkin einmal durchlesen, auch ich sehe mittlerweile die ganze Thematik mit etwas anderen Augen. Unbestritten bleibt jedoch eines: Ganz solltet Ihr Euch den Tipps auf meiner Homepage nicht verschließen, denn ein bißchen Wahrheit steckt überall drin.
Wie sieht ein Spider eine Homepage ?
Ein Suchroboter sucht Futter in Form von Text, und so grast er auch eine Webseite ab, er sucht Text auf der Seite selbst, er soll Text in Meta-Tags finden und er wird Bilder nach alternativem Text, dem Alt-Tag, durchsuchen. Gab es früher noch die Möglichkeit, Unmengen an Text in den Quellcode zu stopfen oder den Text in versteckten Frames unterzubringen, weiße Schrift auf weißem Grund, funktioniert dies in den meisten Fällen heute durch sehr intelligente Spider nur noch in den seltensten Fällen, deshalb laßt es lieber, sorgt lieber für gute, maschinenlesbare Links auf Eurer Homepage. Eine Suchmaschine liest Links, sie arbeitet sich in der Website von Link zu Link, arbeitet sich so durch die Seite durch, findet weitere Links und indexiert somit die gefundenen Inhalte. Auf das Thema Backlinks komme ich aber noch im Menü Pagerank verbessern zu sprechen.
Was nicht überall geschrieben steht !
Wer kennt sie nicht, die kleine robots.txt-Datei. Wie, Ihr habt noch nie davon gehört ? Dann solltet Ihr weiterlesen !
Wie wir schon weiter oben gelesen haben, sind die Suchroboter diejenigen virtuellen Wesen, welche das Internet tagtäglich nach neuen Informationen durchwandern. Dies können Informationen bezüglich neuer Websites sein oder veränderte Inhalte schon bestehender Webseiten. Ein solcher Spider liest also diejenigen Verzeichnisse des Webprojektes aus, welche für ihn bestimmt sind. Normalerweise sind dies eigentlich alle Verzeichnisse, die sich auf dem Server befinden. Die meisten heutigen Crawler suchen zwar nach einer vorhandenen robots.txt-Datei, sind aber auch nicht "böse", wenn keine gefunden wird. Eine nicht-präsente robots.txt bedeutet dann ganz einfach, es bestehen keine Einschränkungen bzw. Verbote hinsichtlich der Indexierung des gesamten Domain-Inhaltes.
Normalerweise ist es ja selbstverständlich, nein sogar wünschenswert, daß möglichst viele Suchmaschinen die eigene Internetpräsenz finden und indexieren, schließlich steigert sich damit der Bekanntheitsgrad der eigenen Homepage. Und wer gefunden wird, der steigert auch seine Chancen, sich der Internetwelt mitzuteilen.
Aber wie überall im Leben gilt auch hier: Ausnahmen bestätigen die Regel !
Es gibt doch tatsächlich Fälle, da sollten wir uns vor den Robots verstecken. Ein erster Fall wäre hierbei, daß wir eine noch unfertige Website haben. Wir arbeiten im Moment noch mit Hochtouren an einer neuen Webseite, wollen aber erst das Gesamtergebnis bekannt geben. Oder wir haben private Dateien auf unserem Server liegen, die nicht für die Öffentlichkeit bestimmt sind. Und ein weiterer, ganz wichtiger Fall: Wir wollen bestimmte Crawler von der Indexierung aussperren.
Warum soll bestimmten Crawlern verboten werden, die eigene Domain zu besuchen ? Da gibt es zum einen die sogenannten "wilden Crawler". Diese Programme durchsuchen sehr aggressiv und in kurzen Zeitintervallen die Server und die darauf befindlichen Verzeichnisse. Dies kann dann durch das permanente Scannen zu einer Überlastung des Servers führen. Andere wiederum wurden einzig zum Zwecke programmiert, die Website auf Verletzungen von Lizenzrechten zu überprüfen. Und wieder welche sind dazu bestimmt, Email-Adressen zu sammeln. Ein vierter Fall sind die Bots, welche Teile der Website einfach für eigene Zwecke kopieren und dann in eigenen Seiten unterbringen. Diese Content Grabber bereichern sich an selbst erstellten Inhalten und verursachen somit Duplicate Content, also mehrfach gleiche Webseiteninhalte. Problematisch wird das Ganze dann, wenn die renommierten Suchmaschinen nicht mehr Original von Kopie unterscheiden können, es folgt im schlimmsten Fall eine Abwertung der eigenen Webseite.
Sinn und Zweck der robots.txt-Datei ist es also, solche unerwünschten Crawler auszusperren bzw. solange vom Spidern abzuhalten, wie es für notwendig empfunden wird. Wobei aber ganz klar gesagt werden muß, daß sich diese Art von Programmen durch eine simple Textdatei nicht vom Scannen abhalten lassen. Für diesen Fall sollte man in der sich auf dem Server befindlichen htaccess-Datei den Spidern den Zutritt verwehren. Und wer wichtige Informationen verbergen will, sollte sich unbedingt einen Paßwortschutz einrichten.
Kommen wir aber nun zur robots.txt-Datei. Diese Datei muß zwingend klein geschrieben werden, also robots.TXT ist ebenso ungültig wie Robots.txt, einzig und allein robots.txt wird von den Spidern berücksichtigt. Weiterhin handelt es sich hierbei um eine einfache Textdatei, welche somit auch nur mit einem Texteditor bearbeitet werden kann, bitte keine HTML-Editoren oder ähnliches benutzen, Notepad genügt vollkommen. Der wichtigste Punkt aber ist folgender: Um eine robots.txt überhaupt verwenden zu können, ist es unumgänglich, daß Ihr Zugang zu den Root-Verzeichnissen auf dem Server habt. Denn die robots.txt-Datei muß im Wurzelverzeichnis der Domain gespeichert werden, ich habe also in meinem Fall die Datei unter http://www.geldmaschine.at/robots.txt abgelegt. Wer keinen Zugang zu seinem Rootverzeichnis hat oder nur eine Subdomain hat, welche den Zugang zum Homepage-Verzeichnis erlaubt, der sollte sich mit dem noindex Meta-Tag helfen. Dieser Meta-Tag im Datei-Header sperrt auf Dateiebene die Robots vom Indexieren aus, während die robots.txt für eine ganze Internetpräsenz wesentlich effektiver genutzt werden kann. Für meine sehr umfangreiche robots.txt-Datei möchte ich mich ganz herzlich bei Gerald Mann und seinem Blogbeitrag http://gerald-mann.com/so-sieht-eine-gute-robotstxt-aus/ bedanken.
Die ganze Sache hat aber dann doch wieder einen Haken: Sobald ein externer Link auf die ausgeschlossene Seite einen Verweis setzt, kann wiederum von der verweisenden Seite die Adresse ausgelesen werden mit dem Resultat, daß die eigentlich nicht zu indexierende Seite wieder in den Suchmaschinen aufscheint.
Wie ist jetzt aber eine solche robots.txt-Datei aufgebaut ?
Das #-Zeichen dient lediglich als Einleitung für einen Kommentar, es wird immer von den Crawlern ignoriert.
Ansonsten besteht die Datei nur aus Datensätzen, welche aus dem Namen des Robots (User-agent) und dem dazugehörigen Verbot (Disallow) bestehen. Eine Anweisung
# Diese beiden Robots dürfen meine Bilder nicht sehen
User-agent: Böser Robot
User-agent: Sehr böser Robot
Disallow: /Meine Bilder
würde z.B. den beiden Crawlern mit den Namen "Böser Robot" und "Sehr böser Robot" verbieten, das Verzeichnis "Meine Bilder" auf dem Server zu durchsuchen.
Und für den Fall, daß keine Suchmaschine irgendetwas der eigenen Domain preisgeben soll, etwa weil diese gerade im Auf- oder Umbau ist, wäre folgende robots.txt-Datei hilfreich:
# Ich will von niemandem gefunden werden
User-agent: *
Disallow: /
Und wer sich jetzt eine eigene robots.txt-Datei zusammengebastelt hat, aber sich unsicher ist, ob die Syntax stimmt, kann dies ganz schnell mit folgendem
Werkzeug checken.
Home Geldverdienen ohne Homepage Eigene Homepage Kontakt Impressum Sitemap Partner
