Der komplette Guide zur Google-Indexierung
Indexierung entscheidet, ob deine Seiten in Google erscheinen können — Ranking kommt erst danach. Dieser Guide nimmt die gesamte Kette auseinander: wie Google Seiten entdeckt, crawlt, bewertet und indexiert, was jeden Schritt blockiert, und wie du jeden Hebel aktiv steuerst.
Was Indexierung wirklich bedeutet — und was sie nicht ist
Drei Begriffe werden ständig durcheinandergeworfen: Crawling, Indexierung und Ranking. Sie beschreiben drei völlig verschiedene Prozesse, die nacheinander ablaufen — und an jedem kann etwas schiefgehen. Crawling bedeutet, dass Googlebot deine URL aufruft und den Seiteninhalt herunterlädt. Indexierung bedeutet, dass Google die gecrawlte Seite in seine Datenbank aufnimmt und sie für Suchanfragen in Betracht zieht. Ranking bedeutet, dass Google entscheidet, auf welcher Position diese Seite für eine bestimmte Suchanfrage erscheint. Eine gecrawlte Seite ist nicht automatisch indexiert. Eine indexierte Seite rankt nicht automatisch gut. Und keine indexierte Seite existiert für Google-Nutzer überhaupt nicht — selbst wenn der Inhalt perfekt wäre. Der Index selbst ist eine strukturierte Datenbank: Google speichert nicht das rohe HTML, sondern verarbeitete Signale — Tokens, Entitäten, Links, Schema-Daten, Rendering-Ergebnisse. Was in diesen Index kommt und was nicht, entscheidet ein Qualitätsfilter. Dein Ziel als Webmaster ist es, alle drei Stufen aktiv zu steuern: Discovery sicherstellen, Crawl-Bedingungen optimieren, und den Qualitätsfilter bestehen.
Discovery: Wie Google deine Seiten überhaupt findet
Bevor Googlebot eine URL crawlen kann, muss er sie kennen. Es gibt vier Haupt-Discovery-Kanäle. Erstens: interne Links. Wenn Googlebot eine bereits indexierte Seite deiner Domain crawlt und dort einen Link auf eine neue URL findet, wird diese neue URL in die Crawl-Warteschlange aufgenommen. Das ist der zuverlässigste und schnellste organische Entdeckungspfad. Seiten ohne interne Links — sogenannte „Orphan Pages" — können theoretisch ewig unentdeckt bleiben, selbst wenn sie in der Sitemap stehen. Zweitens: externe Backlinks. Wenn eine externe, bereits indexierte Seite auf deine neue URL verlinkt, folgt Googlebot diesem Link. Das ist gleichzeitig Discovery-Signal und Qualitätssignal — ein Link von einer relevanten, indexierten Seite beschleunigt die Entdeckung spürbar. Drittens: XML-Sitemaps. Eine Sitemap listet alle URLs, die du als indexierungswürdig betrachtest. Google liest Sitemaps regelmäßig, wenn sie in der Google Search Console eingereicht oder in der robots.txt deklariert sind. Wichtig: Die Sitemap ist ein Hinweis, keine Anweisung. Google kann URLs aus der Sitemap ignorieren oder Seiten indexieren, die nicht darin stehen. Viertens: direkte URL-Eingabe in GSC. Das URL-Prüftool in der Search Console ermöglicht es, eine einzelne URL zur sofortigen Beachtung einzureichen. Das funktioniert für Einzel-URLs, eignet sich aber nicht für Batch-Verarbeitung — Google limitiert manuelle Einreichungen auf wenige pro Tag pro Property. Was Discovery beschleunigt: starke interne Verlinkung aus bereits indexierten Seiten, aktuelle Sitemap in GSC eingereicht, externe Links von indexierten Seiten, regelmäßige Veröffentlichung auf einer Domain mit Crawl-Historie.
Crawling im Detail: Budget, Rendering und robots.txt
Nicht jede entdeckte URL wird sofort gecrawlt. Google priorisiert URLs nach Qualitätssignalen und Domain-Autorität in einer internen Warteschlange. Dieses Kontingent nennt man inoffiziell Crawl-Budget. Das Crawl-Budget ist keine feste Zahl — es ist das Ergebnis zweier Faktoren: Crawl-Rate-Limit (wie oft Google deine Server belasten darf, ohne sie zu überlasten) und Crawl-Demand (wie sehr Google deine Seiten für wertvoll hält, gemessen an PageRank, Aktualität und Nutzer-Interesse). Auf kleinen Domains mit wenigen Seiten ist Crawl-Budget kein relevantes Problem. Es wird kritisch, wenn du Tausende oder Zehntausende URLs hast, besonders wenn viele davon Low-Quality-Seiten sind: Parameter-URLs, leere Kategorieseiten, Paginierung über Tiefe, thin Content. Diese URLs „verbrauchen" Budget, das Google sonst für deine wichtigen Seiten einsetzen würde. robots.txt kontrolliert den Crawl-Zugang auf Pfad-Ebene. Eine Disallow-Direktive verhindert, dass Googlebot diese URL überhaupt lädt — die URL kann dann weder indexiert noch inhaltlich bewertet werden. Wichtige Nuance: robots.txt-Disallow verhindert das Crawlen, nicht das Indexieren. Google kann eine URL, die es über einen Link entdeckt hat, trotzdem im Index behalten (als leerer Eintrag ohne Inhalt), selbst wenn robots.txt den Crawl sperrt. Willst du garantiert ausschließen, brauchst du noindex im HTML — aber dafür muss Google die Seite crawlen dürfen. Rendering: Google crawlt in zwei Phasen. Zuerst wird das rohe HTML geladen. Dann — mit Verzögerung, oft Stunden bis Tage später — wird JavaScript ausgeführt (WRS: Web Rendering Service). Inhalte, die erst per JS geladen werden, sind für Google im ersten Crawl nicht sichtbar. Kritische Inhalt sollten deshalb immer im initialen HTML stehen oder per Server-Side-Rendering geliefert werden.
Die Index-Entscheidung: Qualität, Canonical und Duplikate
Nach dem Crawl fällt Google eine binäre Entscheidung: indexieren oder nicht. Diese Entscheidung basiert auf mehreren Signalen gleichzeitig. Qualitätsbewertung: Google prüft, ob die Seite einen eigenständigen, für Nutzer wertvollen Beitrag liefert. Thin Content — Seiten mit sehr wenig Text, ohne spezifische Information, mit reinem Boilerplate-Inhalt — wird systematisch ausgeschlossen. Das betrifft häufig automatisch generierte Seiten, leere Produktvarianten-Seiten, Kategorienseiten ohne eigene Beschreibung, und Pages, die hauptsächlich aus Formular oder Bild bestehen. Canonical-Logik: Google wählt für jede Gruppe inhaltlich ähnlicher URLs eine „kanonische" URL aus, die es im Index behält. Du kannst diese Wahl mit dem rel="canonical"-Tag beeinflussen. Wenn dein Canonical-Tag auf eine andere URL zeigt, behandelt Google deine Seite als Duplikat und indexiert sie nicht. Wenn der Canonical-Tag fehlt und doppelter Inhalt existiert (z. B. durch URL-Parameter, www vs. non-www, http vs. https), wählt Google selbst — und das Ergebnis entspricht nicht immer deinen Vorstellungen. Duplikate: Duplicate Content ist nicht per se ein Fehler, aber er zwingt Google zu einer Auswahl. Wer viele inhaltlich ähnliche Seiten betreibt (z. B. standortbasierte Landing Pages mit gleichem Text, Produktvarianten-URLs, SEO-Seitentypen auf Basis derselben Vorlage), muss aktiv mit Canonicals, 301-Redirects oder noindex steuern. Die Index-Entscheidung ist reversibel: Google crawlt Seiten mehrfach und kann seinen Status jederzeit ändern, wenn sich Qualitätssignale verändern.
Die 4 Voraussetzungen für sichere Indexierbarkeit
Eine Seite muss vier Bedingungen gleichzeitig erfülllen, damit Google sie indexieren kann und wird. Erste Voraussetzung — Crawlbar: Googlebot muss die URL aufrufen dürfen. Das bedeutet: kein Disallow in robots.txt für diesen Pfad, keine Login-Wall, kein Passwortschutz, keine Nofollow-Isolation, die verhindert, dass Links überhaupt zur Seite führen. Zweite Voraussetzung — Renderbar: Der relevante Inhalt muss nach dem Rendering sichtbar sein. Reines clientseitiges JavaScript, das Inhalte erst nach Nutzer-Interaktion lädt, wird von Googlebot nicht ausgeführt. Content muss im initialen HTML oder SSR-Output vorhanden sein. Dritte Voraussetzung — Indexierbar: Es darf keine Direktive geben, die die Indexierung explizit verbietet. Weder noindex im Meta-Robots-Tag noch noindex im X-Robots-Tag-HTTP-Header. Außerdem: Der self-referencing Canonical muss korrekt sein und auf die eigene URL zeigen, nicht auf eine andere. Vierte Voraussetzung — Qualitätsfilter bestehen: Die Seite muss aus Googles Sicht einen eigenständigen Informationswert haben. Das bedeutet nicht notwendigerweise ein Längen-Minimum — aber ausreichend unique Content, klar strukturiert, ohne massenhafte Duplikation auf der Domain. Alle vier Bedingungen müssen gleichzeitig erfüllt sein.
Häufige Indexierungs-Blocker und ihre Behebung
noindex-Tag gesetzt — Diagnose: Im Browser DevTools → Elements nach <meta name="robots" content="noindex"> suchen; zusätzlich mit curl -I die HTTP-Response-Header prüfen auf X-Robots-Tag: noindex. Häufige Ursache: CMS-Plugin hat Staging-Einstellung übernommen, Theme-Option war auf noindex gesetzt. Behebung: Tag entfernen, Seite per GSC neu einreichen. robots.txt-Disallow — Diagnose: ihredomain.de/robots.txt aufrufen, nach Disallow-Regeln für den relevanten Pfad suchen. Behebung: Disallow-Direktive entfernen oder präzisieren. Falscher Canonical — Diagnose: Quellcode der Seite nach <link rel="canonical"> durchsuchen. URL, auf die er zeigt, muss identisch mit der aktuellen URL sein. Behebung: Canonical auf korrekte, eigene URL setzen. Redirect-Ketten — Diagnose: URL durch ein Redirect-Checker-Tool laufen lassen; mehr als eine Redirect-Stufe kostet Crawl-Effizienz. Behebung: Direkte 301-Weiterleitung setzen. Thin Content — Diagnose: Seite kritisch lesen — liefert sie konkrete, eigenständige Information? Behebung: Inhalt substantiell ausbauen, unique Daten oder Expertise einbringen. Kein internes Linking — Diagnose: Orphan Pages (0 interne Links) werden selten gecrawlt. Behebung: Mindestens zwei bis drei thematisch passende interne Links aus bereits indexierten Seiten setzen. JavaScript-Inhalt nicht gerendert — Diagnose: GSC URL-Prüftool → „Gerenderte Seite anzeigen". Behebung: Kritischen Content in SSR-Output oder initiales HTML verlegen.
Indexierung prüfen: site:, GSC URL-Prüfung, Bulk-Status
Bevor du Maßnahmen einleitest, musst du wissen, was tatsächlich im Index ist. Es gibt drei Methoden auf verschiedenen Ebenen. site:-Operator: site:deinedomain.de in Google eingeben liefert einen Schätzwert für die Anzahl indexierter Seiten. Dieser Wert schwankt stark — er kann 30–50 % von den tatsächlichen Zahlen abweichen und eignet sich nicht für präzise Audits. GSC URL-Prüftool: Gibt für jede einzelne URL den genauen Status mit Begründung an. Die wichtigsten Status-Typen: „Indexiert" (im Index, kein Handlungsbedarf), „Gecrawlt – zur Zeit nicht indexiert" (Google hat gesehen, aber abgelehnt — meist Qualitätsproblem), „Gefunden – zur Zeit nicht indiziert" (in der Warteschlange, noch nicht gecrawlt — oft Crawl-Budget-Problem), „Seite wurde durch noindex-Tag ausgeschlossen" (technische Sperre, sofort behebbar), „Alternative Seite mit korrektem Canonical-Tag" (als Duplikat behandelt), „Nicht gecrawlt – robots.txt" (Crawl gesperrt). Das Tool ist der zuverlässigste Diagnosepfad für Einzel-URLs — aber es hat kein Batch-Interface. Bulk-Prüfung: Für größere URL-Listen benötigst du ein Tool, das den tatsächlichen Indexierungsstatus per API prüft. Der FastIndexing Index Checker prüft eine Liste von URLs auf ihren Google-Indexierungsstatus — 200 Credits gratis, kein Abo. Praxis-Workflow: Index Checker für Bulk-Bestandsaufnahme → GSC URL-Prüftool für Diagnose der auffälligen URLs → GSC Coverage-Bericht für Domänen-Überblick.
Indexierung beschleunigen: Signale, Kanäle und Grenzen
Beschleunigung bedeutet, Googlebot Gründe zu geben, deine Seite früher zu crawlen und die Index-Entscheidung zugunsten deiner URL zu fällen. Es gibt keinen offiziellen „Schnell-Kanal" bei Google. Was es gibt: eine Kombination von Signalen, die zusammenwirken. Interne Verlinkung ist der stärkste Einzelhebel: Eine neue Seite, die von einer bereits indexierten, verlinkten Seite deiner Domain aus intern verlinkt wird, landet deutlich schneller in Googles Crawl-Warteschlange als eine isolierte Seite. Setze diese Links sofort nach der Veröffentlichung — nicht Wochen später. Sitemap aktuell halten und einreichen: Immer wenn neue Inhalte erscheinen, sollte die Sitemap automatisch aktualisiert sein und in GSC eingereicht werden. GSC URL-Prüftool für Prioritäts-URLs: Das manuelle Tool hat ein Limit von etwa 10 Einreichungen pro Tag und Property. Sinnvoll für besonders wichtige Seiten — nicht sinnvoll für Batch-Szenarien. IndexNow für Bing und Yandex: IndexNow ist ein offenes Protokoll, das Suchmaschinen in Echtzeit über neue oder geänderte URLs informiert. Bing, Yandex und weitere Engines unterstützen es. Google ist nicht beigetreten. Indexing API (mit Einschränkungen): Die offizielle Google Indexing API ist für Seiten mit JobPosting- oder BroadcastEvent-Schema-Markup vorgesehen; das ist die einzige offiziell belegte Nutzungsweise. Das Limit liegt bei 200 Anfragen pro Tag. Technisch blockierte URLs — mit aktivem noindex, falschem Canonical oder Thin Content — werden durch keinen Beschleunigungsdienst indexiert; die technischen Voraussetzungen müssen zuerst erfüllt sein.
Plattform-Spezifika: WordPress, Shopify und andere CMS
Die technischen Grundprinzipien der Indexierung gelten plattformunabhängig. Aber jede Plattform hat eigene Fehlerquellen und Optimierungshebel. WordPress: Das größte Risiko bei WordPress ist das versehentliche noindex. In den Einstellungen (Einstellungen → Lesen) gibt es die Option „Suchmaschinen davon abhalten, diese Website zu indexieren" — diese Option wird bei Staging-Setups oft aktiviert und nach dem Launch vergessen. Zusätzlich können SEO-Plugins (Yoast, RankMath) noindex auf Seiten-, Kategorie- oder Tag-Ebene setzen. WordPress erzeugt standardmäßig viele Low-Quality-URLs: Tag-Archive, Autoren-Archive, Paginierungsseiten. Diese sollten per noindex oder robots.txt gesteuert werden. Vollständige Checklist im WordPress-Indexierungs-Guide. Shopify: Shopify erzeugt mehrere Canonical-Probleme durch seine URL-Struktur. Produkte erscheinen sowohl unter /products/[handle] als auch unter /collections/[collection]/products/[handle]. Shopify setzt dafür automatisch Canonicals, aber externe Links auf Collection-Pfade können Crawl-Budget verschwenden. Andere CMS und Frameworks: Headless-CMS und JavaScript-Frameworks (Next.js, Nuxt, Gatsby) bringen spezifische Rendering-Fragen mit. Server-Side Rendering (SSR) und Static Site Generation (SSG) sind indexierungsfreundlicher als reines Client-Side Rendering (CSR), weil der Inhalt im initialen HTML-Response sichtbar ist.
Monitoring und langfristige Indexierungs-Hygiene
Indexierung ist kein einmaliges Ereignis, sondern ein laufender Prozess. Google re-crawlt Seiten regelmäßig und kann seinen Status ändern. Was du regelmäßig prüfen solltest: GSC Coverage-Bericht mindestens einmal pro Woche — Trends bei „Ausgeschlossen"-URLs. Sprünge bei „Gecrawlt – zur Zeit nicht indexiert" deuten auf Content-Qualitätsprobleme hin. Sprünge bei „Gefunden – zur Zeit nicht indiziert" deuten auf Crawl-Budget-Engpässe hin. Crawl-Statistiken in GSC: Überwache die durchschnittliche Anzahl täglich gecrawlter Seiten. Ein plötzlicher Rückgang kann auf Serverprobleme oder robots.txt-Änderungen hinweisen. Nach Relaunch oder Migration: Nach einem Website-Relaunch — neue Domainnamen, URL-Strukturänderungen, HTTPS-Migration — muss der gesamte Indexierungsprozess neu aufgesetzt werden. Redirect-Maps prüfen, neue Sitemap einreichen, alte Canonical-Tags aktualisieren. Eine Migration ohne überwachten Re-Index ist ein häufiger Grund für plötzliche Sichtbarkeitsverluste. Indexierungs-Hygiene bedeutet auch: Low-Quality-Seiten aktiv steuern. Wer zu viele dünne Seiten im Index hat, riskiert, dass Google das Qualitätssignal der gesamten Domain abwertet. noindex für Seiten, die keine echte organische Suchintention bedienen, verbessert langfristig die Crawl-Effizienz für die wichtigen Seiten.
Verwandte Begriffe
Häufige Fragen
Was ist der Unterschied zwischen Crawling und Indexierung?
Crawling bedeutet, dass Googlebot deine Seite aufruft und herunterlädt — wie ein Browser, der die URL aufruft. Indexierung bedeutet, dass Google die gecrawlte Seite in seine Suchdatenbank aufnimmt und sie für Suchanfragen in Betracht zieht. Eine gecrawlte Seite ist nicht automatisch indexiert: Google kann nach dem Crawl entscheiden, die Seite wegen Qualitätsproblemen, Duplicate Content oder technischen Signalen aus dem Index auszuschließen. Der GSC-Status „Gecrawlt – zur Zeit nicht indexiert" zeigt genau diesen Fall: gecrawlt ja, indexiert nein.
Wie lange dauert es, bis Google eine neue Seite indexiert?
Es gibt keine Garantie und keine feste Zeitspanne. Auf etablierten Domains mit guter Crawl-Historie und starker interner Verlinkung werden neue Seiten oft innerhalb weniger Tage gecrawlt und indexiert. Auf neuen Domains oder Seiten ohne interne Links kann es Wochen oder Monate dauern. In eigenen Tests über mehrere Kundenprojekte wurden nach aktiver Einreichung ca. 60–75 % der URLs innerhalb von 14 Tagen indexiert — das ist ein Richtwert, keine Garantie. Google entscheidet autonom, und Content-Qualität sowie Domain-Autorität spielen immer eine Rolle.
Warum erscheint meine Seite nicht im Google-Index, obwohl sie gecrawlt wurde?
Wenn GSC den Status „Gecrawlt – zur Zeit nicht indexiert" zeigt, hat Google die Seite gesehen, aber eine Qualitätsentscheidung dagegen getroffen. Die häufigsten Ursachen: der Inhalt ist zu dünn oder zu ähnlich zu anderen Seiten der Domain (Thin Content / Duplicate Content), es gibt keinen eingehenden internen Link zur Seite (Orphan Page), oder ein Canonical-Tag zeigt auf eine andere URL. Prüfe zuerst das GSC URL-Prüftool für den genauen Ausschlussgrund, dann den Seiteninhalt kritisch.
Sollte ich die Google Indexing API verwenden, um Seiten zu indexieren?
Die Google Indexing API ist offiziell nur für Seiten mit JobPosting- oder BroadcastEvent-Schema-Markup vorgesehen. Das ist die einzige offiziell von Google belegte Nutzungsweise. Für allgemeine Seiten ist der Einsatz von Google nicht dokumentiert, und das Verhalten kann sich jederzeit ändern. Ein Limit von 200 Anfragen pro Tag gilt. Multi-Channel-Ansätze, die verschiedene Discovery-Signale kombinieren, sind für die breite Praxis zuverlässiger.
Was ist der Sitemap-Ping-Endpoint von Google — funktioniert er noch?
Nein. Der Google-Sitemap-Ping-Endpoint (google.com/ping?sitemap=...) ist seit Ende 2023 abgeschaltet. Anfragen an diesen Endpoint liefern nur noch Fehler. Für Bing ist der Bing-Sitemap-Ping-Endpoint weiterhin aktiv. Für Google ist die korrekte Methode: Sitemap in der Google Search Console einreichen (Sitemaps-Bericht) oder Sitemap-URL in der robots.txt mit „Sitemap:" deklarieren.
Was bedeuten die verschiedenen GSC-Indexierungs-Status?
„Indexiert": Seite ist im Index, kein Handlungsbedarf. „Gecrawlt – zur Zeit nicht indexiert": Google hat gesehen, aber Qualitätsentscheidung dagegen — Content und Canonical prüfen. „Gefunden – zur Zeit nicht indiziert": URL bekannt, aber noch nicht gecrawlt — oft Crawl-Budget-Problem. „Seite wurde durch noindex-Tag ausgeschlossen": technische Sperre, sofort behebbar. „Alternative Seite mit korrektem Canonical-Tag": als Duplikat behandelt — Canonical-Logik prüfen. „Nicht gecrawlt – robots.txt": robots.txt sperrt den Crawl — Direktive anpassen.