Inhaltsverzeichnis
- 1. Was ist eine Sitemap.xml?
- 2. Aufbau einer Sitemap.xml
- 3. Sitemap-Index für große Websites
- 4. Was gehört NICHT in die Sitemap?
- 5. Sitemap einreichen und prüfen
- 6. Was ist die robots.txt?
- 7. Aufbau einer robots.txt
- 8. Häufige robots.txt Fehler
- 9. robots.txt prüfen
- 10. Sitemap und robots.txt zusammen einsetzen
- 11. Praxis: Typische Probleme bei Naumburger Websites
- 12. Häufige Fragen zu Sitemap und robots.txt
- 13. Fazit
In Naumburg sehen wir bei Audits regelmäßig denselben Fehler: kleine Welterbe-Hotel-, Winzer- oder Gastronomie-Websites blockieren – meist unbeabsichtigt – ihre wichtigsten Seiten in robots.txt oder schicken Google eine Sitemap mit längst gelöschten Saison-Aktionen. Sitemap.xml und robots.txt sind zwei der grundlegendsten technischen SEO-Dateien. Zusammen steuern sie, wie Google Ihre Website crawlt und welche Inhalte indexiert werden. Falsch konfiguriert, können sie Rankings komplett verhindern – das Aufdecken solcher Fehler gehört zur technischen SEO-Betreuung.
Was ist eine Sitemap.xml?
Eine Sitemap ist eine XML-Datei, die alle URLs Ihrer Website auflistet, die Google indexieren soll. Sie ist wie ein Inhaltsverzeichnis für den Googlebot.
Wozu brauche ich eine Sitemap?
- Neue Seiten werden schneller entdeckt und indexiert
- Google versteht, welche Seiten Sie für wichtig halten
- Hilft bei großen Websites mit vielen Seiten
- Notwendig wenn Ihre interne Verlinkung lueckenhaft ist
Brauchen kleine Websites eine Sitemap?
Technisch nicht zwingend — Google findet Seiten auch durch interne Links. Aber eine Sitemap schadet nie und beschleunigt die Indexierung. Empfehlung: immer erstellen.
Aufbau einer Sitemap.xml
Eine einfache Sitemap sieht so aus:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://seo-naumburg.de/</loc>
<lastmod>2026-03-01</lastmod>
<changefreq>monthly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://seo-naumburg.de/leistungen/</loc>
<lastmod>2026-02-15</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>https://seo-naumburg.de/blog/local-seo-guide/</loc>
<lastmod>2026-03-26</lastmod>
<changefreq>weekly</changefreq>
<priority>0.6</priority>
</url>
</urlset>
Die wichtigsten Felder:
| Feld | Bedeutung | Pflicht |
|---|---|---|
<loc> | Vollstaendige URL (absolut, mit https) | Ja |
<lastmod> | Datum der letzten Änderung (YYYY-MM-DD) | Nein, aber empfohlen |
<changefreq> | Wie oft sich die Seite ändert | Nein |
<priority> | Relative Wichtigkeit (0.0 bis 1.0) | Nein |
Wichtig zu wissen: Google verwendet <changefreq> und <priority> nur als Hinweis, nicht als Pflicht. Der eigentliche Crawl-Rhythmus wird von Googles internen Signalen bestimmt.
Sitemap-Index für große Websites
Bei mehr als 50.000 URLs oder 50 MB Dateigröße brauchen Sie mehrere Sitemaps, koordiniert durch einen Sitemap-Index:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://seo-naumburg.de/sitemap-seiten.xml</loc>
</sitemap>
<sitemap>
<loc>https://seo-naumburg.de/sitemap-blog.xml</loc>
</sitemap>
<sitemap>
<loc>https://seo-naumburg.de/sitemap-leistungen.xml</loc>
</sitemap>
</sitemapindex>
Was gehört NICHT in die Sitemap?
Niemals in die Sitemap aufnehmen:
- Seiten mit
noindex-Meta-Tag (Widerspruch — Google ignoriert das canonical) - Seiten mit
Disallowin robots.txt - 301-weiterleitende URLs (nur Ziel-URL aufnehmen)
- 404-Seiten
- Doppelte Inhalte (nur kanonische URL)
- Passwort-geschuetzte Seiten
- Thin Content / leere Kategorie-Seiten
Faustregel: In die Sitemap kommen nur Seiten, die Sie aktiv für das Ranking verwenden wollen.
Sitemap einreichen und prüfen
Google Search Console
- search.google.com/search-console aufrufen
- Links → Sitemaps
- URL der Sitemap eingeben (z.B.
seo-naumburg.de/sitemap-index.xml) - Einreichen
Die GSC zeigt dann:
- Anzahl der übermittelten URLs
- Anzahl der indexierten URLs
- Fehler (fehlende Seiten, Crawl-Fehler)
Häufiges Problem: Sitemap uebermittelt 120 URLs, aber Google hat nur 80 indexiert. Ursache: noindex auf manchen Seiten, oder Google bewertet diese Seiten als thin/doppelt. In der SEO-Analyse gleichen wir Sitemap, GSC-Report und Live-Crawl systematisch ab.
Was ist die robots.txt?
Die robots.txt ist eine Textdatei im Hauptverzeichnis Ihrer Website (ihre-domain.de/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Bereiche gecrawlt werden dürfen.
Wichtigster Unterschied zur Sitemap:
- Sitemap sagt: “Diese Seiten möchte ich indexiert haben”
- robots.txt sagt: “Diese Bereiche bitte nicht crawlen”
Aufbau einer robots.txt
# robots.txt für seo-naumburg.de
# Letzte Aktualisierung: 2026-03-26
User-agent: *
# Admin und private Bereiche ausschließen
Disallow: /admin/
Disallow: /intern/
Disallow: /api/
Disallow: /wp-admin/
# URL-Parameter blockieren (doppelte Inhalte vermeiden)
Disallow: /*?*sort=
Disallow: /*?*filter=
Disallow: /*?*session=
# Sitemap bekannt geben
Sitemap: https://seo-naumburg.de/sitemap-index.xml
Die wichtigsten Direktiven:
| Direktive | Bedeutung |
|---|---|
User-agent: * | Gilt für alle Crawler |
User-agent: Googlebot | Gilt nur für Google |
Disallow: /pfad/ | Dieser Bereich soll nicht gecrawlt werden |
Allow: /pfad/file.html | Ausnahme innerhalb eines Disallow-Bereichs |
Sitemap: URL | Zeigt auf die Sitemap-Datei |
Häufige robots.txt Fehler
Fehler 1: Versehentliches Disallow der gesamten Website
# GEFAEHRLICH — Blokkiert alles!
User-agent: *
Disallow: /
Passiert schnell bei Copy-Paste oder falsch konfiguriertem CMS. Folge: Ihre gesamte Website verschwindet aus Google. In der Google Search Console sofort sichtbar.
Fehler 2: CSS und JavaScript blockieren
# FALSCH — Google kann Ihre Seite nicht rendern
Disallow: /assets/
Disallow: /static/
Disallow: /css/
Disallow: /js/
Google muss CSS und JavaScript laden können, um Ihre Seite korrekt zu rendern. Wenn Google nicht rendern kann, werden Inhalte falsch indexiert oder gar nicht gefunden.
Fehler 3: robots.txt als Noindex verwenden
# Falsche Annahme!
User-agent: *
Disallow: /datenschutz/ # Das verhindert NICHT die Indexierung!
Disallow in robots.txt verhindert das Crawlen, aber NICHT die Indexierung. Wenn andere Seiten auf /datenschutz/ verlinken, kann Google diese URL trotzdem indexieren — nur ohne Inhalt. Für echten Ausschluss aus dem Index: <meta name="robots" content="noindex"> auf der Seite selbst.
Fehler 4: Vergessene Sitemap-Referenz
Ohne Sitemap-Eintrag in der robots.txt muss Google die Sitemap durch andere Wege finden. Immer angeben:
Sitemap: https://ihre-domain.de/sitemap.xml
robots.txt prüfen
Google Search Console: Einstellungen → robots.txt unter “Crawling” aufrufen und testen.
Manuell:
https://ihre-domain.de/robots.txt im Browser aufrufen.
Google robots.txt Tester: In der alten Search Console verfügbar, zeigt ob bestimmte URLs blockiert werden.
Sitemap und robots.txt zusammen einsetzen
Das Zusammenspiel korrekt konfigurieren:
robots.txt:
Disallow: /admin/
Sitemap: https://ihre-domain.de/sitemap.xml
sitemap.xml:
Nur öffentliche, indexierbare Seiten
Keine URLs die in robots.txt disallowed sind
Widersprueche vermeiden:
- URLs in der Sitemap sollten NICHT in robots.txt blockiert sein
- Seiten mit
noindexgehören NICHT in die Sitemap - Canonical-URLs in der Sitemap, nicht die Weiterleitung
Praxis: Typische Probleme bei Naumburger Websites
In über 15 Jahren Audits in der Welterbe-Stadt sehen wir wiederkehrende Muster, die echte Rankings kosten:
1. Welterbe-Hotels mit gelöschten Saison-Seiten in der Sitemap. Pensionen rund um den Naumburger Dom oder Bad Kösen löschen Welterbe-Festival-Aktionen, vergessen aber die Sitemap zu aktualisieren. Google versucht weiter, 404-Seiten zu crawlen – das verschwendet Crawl-Budget für die wirklich wichtigen Buchungs- und Anreise-Seiten.
2. Winzer-Sites blockieren versehentlich /weine/ oder /sortiment/.
Aus Migrationen (z. B. Joomla zu WordPress nach einem Relaunch) bleibt eine alte robots.txt mit Disallow: /weine/ aktiv – und plötzlich rankt das Saale-Unstrut-Weingut für seine Sorten gar nicht mehr. Symptom: GSC-Coverage-Bericht zeigt “Durch robots.txt blockiert” auf Hauptseiten.
3. Gastronomie und Hotellerie mit Disallow: / aus der Entwicklungsphase.
Pensionen und Restaurants in Naumburg, Bad Kösen oder Schönburg starten oft mit einer Staging-Site, deren robots.txt Google komplett aussperrt. Beim Live-Gang wird die Datei vergessen – die Site wird unsichtbar.
4. Doppelte Sitemaps nach Plugin-Wechsel. WordPress-Sites mit Yoast UND RankMath generieren zwei konkurrierende Sitemaps unter unterschiedlichen Pfaden. Google verwirrt – ein Plugin reicht.
Empfehlung für Naumburger Websites: Nach jeder Migration, jedem Plugin-Wechsel und vor jedem größeren Relaunch robots.txt und Sitemap manuell prüfen, dann in der Search Console testen.
Häufige Fragen zu Sitemap und robots.txt
Muss ich die Sitemap manuell aktualisieren?
Bei CMS-Systemen (WordPress, Shopify) und modernen Frameworks (Astro, Next.js) wird die Sitemap automatisch generiert und aktualisiert. Manuelle Pflege ist nur bei statischen HTML-Sites nötig.
Wie oft crawlt Google meine Sitemap?
Google crawlt Sitemaps unterschiedlich häufig — von täglich (bei aktiven, autoritaetsreichen Websites) bis woechentlich (bei kleinen, selten aktualisierten Seiten). Nach dem Einreichen in der GSC: schneller erster Crawl.
Kann eine falsche robots.txt meine Rankings zerstören?
Ja. Ein versehentliches Disallow: / blockiert alles. Änderungen an der robots.txt immer vor dem Upload im Google robots.txt Tester prüfen.
Fazit
Sitemap und robots.txt sind einfache Dateien mit großer Wirkung. Die Sitemap sagt Google: “Hier ist, was ich indexiert haben möchte.” Die robots.txt sagt: “Hier bitte nicht hinschauen.” Beide korrekt konfiguriert, gibt Ihrer Website eine klar lesbare Anweisung für Crawler — und vermeidet stille Fehler die Rankings kosten.
Möchten Sie Ihre Sitemap und robots.txt für die Naumburger Website professionell prüfen lassen? Wir schauen uns aus dem Wender-Media-Büro in Halle (Saale) Ihre technische SEO-Basis an – inklusive Crawl-Budget, Indexierungsstatus und Migrationsfehler. Kostenlose SEO-Analyse anfragen.