In diesem Artikel finden Sie eine Übersicht aller Web-Crawler, die wir auf unseren Webservern per Web Application Firewall (WAF) blockieren oder limitieren. Die Auswahl basiert auf einer sorgfältigen Analyse der Auswirkungen dieser Crawler auf Serverressourcen und Nutzererfahrung.
Auf Webservern kann übermäßiger Crawler-Traffic die Performance Ihrer Webseite spürbar beeinträchtigen. Durch das Limitieren oder Blockieren bestimmter Bots stellen wir sicher, dass die verfügbaren Ressourcen Ihren Besuchern zur Verfügung stehen.
📌 Sollte ein hier gelisteter Crawler für Ihre Domain wichtig sein – etwa Bingbot für die Sichtbarkeit in der Bing-Suche – können Sie die entsprechende Regel gezielt für Ihre Domain ausnehmen.
Eine ausführliche Anleitung dazu finden Sie HIER
Limitierte Crawler – 429 Too Many Requests
Folgende Crawler werden nicht vollständig blockiert, sondern bei zu hoher Anfragefrequenz mit dem HTTP-Statuscode 429 Too Many Requests ausgebremst.
Ein kontrollierter Zugriff bleibt damit weiterhin möglich.
| Crawler | Beschreibung | Mehr Infos |
|---|---|---|
| Bingbot | Webcrawler von Microsoft. Findet, indiziert und bewertet Webseiten für die Suchmaschine Bing. | bing.com |
| Meta-ExternalAds | Durchsucht das Web zur Verbesserung von Werbeanzeigen und anderen geschäftsbezogenen Produkten von Meta. | developers.facebook.com |
| Meta-WebIndexer | Sammelt Inhalte zur Verbesserung der Meta-AI-Suchergebnisse. | developers.facebook.com |
| Meta-ExternalAgent | Crawlt das Web zum Trainieren von KI-Modellen und zur direkten Indizierung von Inhalten. | developers.facebook.com |
| GPTBot | Sammelt Webinhalte für das Training der generativen KI-Grundmodelle von OpenAI. | developers.openai.com |
| ClaudeBot | Crawler von Anthropic. Sammelt Webinhalte, die für das Training der Claude-KI-Modelle verwendet werden können. | support.claude.com |
Blockierte Crawler – 403 Forbidden
Folgende Crawler erhalten den HTTP-Statuscode 403 Forbidden und werden grundsätzlich abgewiesen.
| Crawler | Beschreibung | Mehr Infos |
|---|---|---|
| AmazonProductDiscovery | Erfasst öffentlich zugängliche Produktdaten von Verkaufspartner-Webseiten zur Verwendung auf Amazon. | vendorcentral.amazon.com |
| AmazonBot | Verbessert Amazon-Produkte und -Dienstleistungen. Kann auch zum Training von Amazon-KI-Modellen verwendet werden. | developer.amazon.com |
| Bytespider | Webcrawler von ByteDance, dem Unternehmen hinter TikTok. | bytedance.com |
| SeekportBot | Suchmaschine und SEO-Dienstleister mit Sitz in Deutschland. | seekport.com |
| PetalBot | Crawler für Petal Search, Huaweis Alternative zu Google-Diensten außerhalb Chinas. | aspiegel.com |
| Sogou web spider | Crawler der chinesischen Suchmaschine Sogou. | sogou.com |
| VelenPublicWebCrawler | Analysiert monatlich Millionen öffentlicher Webseiten für maschinelles Lernen. | velen.io |
| SeznamBot | Crawler des tschechischen Internetportals und Suchmaschinenanbieters Seznam. | seznam.cz |
| netEstate | Bietet Webseiten-Analysen, Domain-Informationen und Marketing-Tools. | website-datenbank.de |
| coccocbot-web | Crawler des vietnamesischen Webbrowsers Cốc Cốc auf Chromium-Basis. | coccoc.com |
| Barkrowler | SEO-Analyse-Crawler von Babbar. Untersucht Linkstrukturen und SEO-Faktoren. | babbar.tech |
| MJ12bot | Spezialsuchmaschine von Majestic (UK) zur Erstellung unabhängiger Internet-Karten. | mj12bot.com |
| timpibot | Crawler von Timpi. Der erstellte Index kann zum Training großer Sprachmodelle (LLMs) verwendet werden. | timpi.io |
Crawler-Zugriffe auf Ihre Domain analysieren
Welche Crawler tatsächlich auf Ihre Domain zugreifen, sehen Sie im Audit-Log der WAF-Übersicht.
Eine umfassendere Auswertung aller Webserver-Zugriffe ist über GoAccess möglich. Eine Anleitung dazu finden Sie HIER
✅ Sie kennen nun die Liste der blockierten und limitierten Crawler!