Bots und Crawler auf Server Blocken

Bots und Crawler auf Server Blocken - Druckversion

+- GridTalk.de (https://www.gridtalk.de)
+-- Forum: Werkstatt (https://www.gridtalk.de/forumdisplay.php?fid=4)
+--- Forum: Technik (https://www.gridtalk.de/forumdisplay.php?fid=25)
+--- Thema: Bots und Crawler auf Server Blocken (/showthread.php?tid=4912)

Bots und Crawler auf Server Blocken - Manfred Aabye - 09.09.2024

Dies blockiert alle aufgeführten Bots und das Crawlen deines OpenSim Servers.
Erstelle einfach zwei Textdateien namens robots.txt und .htaccess in deinem Web Bereich und füge dann den folgenden Inhalt ein:

Liste von robots.txt Einträgen für Blockierungen:

Code:
User-agent: Googlebot

Disallow: /

User-agent: Bingbot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: SemrushBot

Disallow: /

User-agent: Majestic-12

Disallow: /

User-agent: Screaming Frog SEO Spider

Disallow: /

User-agent: BaiduSpider

Disallow: /

User-agent: YandexBot

Disallow: /

User-agent: Sogou

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: PetalBot

Disallow: /

.htaccess zum Blockieren von gängigen Bots:

Code:
<IfModule mod_rewrite.c>

    RewriteEngine On

    # Block Googlebot

    RewriteCond %{HTTP_USER_AGENT} Googlebot [NC,OR]

    # Block Bingbot

    RewriteCond %{HTTP_USER_AGENT} Bingbot [NC,OR]

    # Block AhrefsBot

    RewriteCond %{HTTP_USER_AGENT} AhrefsBot [NC,OR]

    # Block DotBot

    RewriteCond %{HTTP_USER_AGENT} DotBot [NC,OR]

    # Block SemrushBot

    RewriteCond %{HTTP_USER_AGENT} SemrushBot [NC,OR]

    # Block Majestic-12 Bot

    RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC,OR]

    # Block Screaming Frog SEO Spider

    RewriteCond %{HTTP_USER_AGENT} Screaming Frog SEO Spider [NC,OR]

    # Block BaiduSpider

    RewriteCond %{HTTP_USER_AGENT} BaiduSpider [NC,OR]

    # Block YandexBot

    RewriteCond %{HTTP_USER_AGENT} YandexBot [NC,OR]

    # Block Sogou Spider

    RewriteCond %{HTTP_USER_AGENT} Sogou [NC,OR]

    # Block MJ12bot (Majestic)

    RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC,OR]

    # Block PetalBot (Huawei)

    RewriteCond %{HTTP_USER_AGENT} PetalBot [NC]

    # Deny access for these bots

    RewriteRule .* - [F,L]

</IfModule>

Hier ist eine Liste gängiger Bots, die häufig Webseiten crawlen.
Diese Liste enthält sowohl nützliche Suchmaschinen-Crawler als auch einige Bots von SEO-Tools und anderen Diensten.

Gängige Suchmaschinen-Bots:

Googlebot – Wird von Google verwendet, um Websites für den Google-Suchindex zu durchsuchen.
Bingbot – Der Crawler von Microsoft Bing.
Slurp – Der Bot der Yahoo-Suchmaschine.
DuckDuckBot – Der Crawler von DuckDuckGo.
BaiduSpider – Der Crawler der chinesischen Suchmaschine Baidu.
YandexBot – Wird von der russischen Suchmaschine Yandex verwendet.
Sogou Spider – Der Crawler der chinesischen Suchmaschine Sogou.

SEO- und Marketing-Bots:

AhrefsBot – Wird von Ahrefs für Backlink- und SEO-Daten verwendet.
DotBot – Verwendet von Moz (Open Site Explorer) zur Analyse von Webseiten.
SemrushBot – Verwendet von Semrush zur Analyse von SEO-Daten.
Majestic-12 Bot – Wird von Majestic für die Analyse von Backlink-Daten verwendet.
Screaming Frog SEO Spider – Ein Desktop-SEO-Tool zum Crawlen von Webseiten.

Social Media-Bots:

Twitterbot – Verwendet von Twitter, um Inhalte zu indexieren, die auf Twitter geteilt werden.
facebookexternalhit – Wird von Facebook verwendet, um Inhalte zu crawlen, die auf Facebook geteilt werden.
LinkedInBot – Wird von LinkedIn verwendet, um Inhalte zu durchsuchen, die auf LinkedIn geteilt werden.

Weitere nützliche Bots:

Applebot – Der Crawler, den Apple für Siri und Spotlight verwendet.
Pinterestbot – Wird von Pinterest verwendet, um Inhalte für die Plattform zu indexieren.
WhatsApp – Verwendet von WhatsApp für das Preloading von Links, die in Nachrichten geteilt werden.

Weitere gängige Crawler:

MJ12bot – Ein Crawler von Majestic für das Erstellen eines Backlink-Indexes.
PetalBot – Der Crawler der Huawei-Suchmaschine Petal Search.
Exabot – Ein französischer Suchmaschinen-Bot, der von Exalead betrieben wird.
UptimeRobot – Verwendet zur Überwachung der Verfügbarkeit von Websites.

Nachdem Blockieren sollte euer Server wieder schneller laufen.

RE: Bots und Crawler auf Server Blocken - Manfred Aabye - 10.09.2024

Heute habe ich noch AmazonBot geblockt und habe durch die ganzen Blockierungen täglich 378 Millionen Server aufrufe weniger. Vergesst bitte nicht, eure fetten Logdateien zu löschen, dann den Server neu starten.

RE: Bots und Crawler auf Server Blocken - Manfred Aabye - 17.09.2024

Hier ist noch ein Bash Skript welches die Dateien auf einem Linux Server erstellt und die Rechte richtig setzt.

PHP-Code:
#!/bin/bash

# Verzeichnis setzen
DIRECTORY="/var/www/html"

# Datei robots.txt erstellen
cat <<EOL > $DIRECTORY/robots.txt
User-agent: GPTBot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: Googlebot
Disallow: /

User-agent: Bingbot
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: DotBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: Majestic-12
Disallow: /

User-agent: Screaming Frog SEO Spider
Disallow: /

User-agent: BaiduSpider
Disallow: /

User-agent: YandexBot
Disallow: /

User-agent: Sogou
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: PetalBot
Disallow: /
EOL

# Datei .htaccess erstellen
cat <<EOL > $DIRECTORY/.htaccess
<IfModule mod_rewrite.c>
    RewriteEngine On

    # Block GPTBot
    RewriteCond %{HTTP_USER_AGENT} GPTBot [NC,OR]

    # Block Amazonbot
    RewriteCond %{HTTP_USER_AGENT} Amazonbot [NC,OR]

    # Block Googlebot
    RewriteCond %{HTTP_USER_AGENT} Googlebot [NC,OR]

    # Block Bingbot
    RewriteCond %{HTTP_USER_AGENT} Bingbot [NC,OR]

    # Block AhrefsBot
    RewriteCond %{HTTP_USER_AGENT} AhrefsBot [NC,OR]

    # Block DotBot
    RewriteCond %{HTTP_USER_AGENT} DotBot [NC,OR]

    # Block SemrushBot
    RewriteCond %{HTTP_USER_AGENT} SemrushBot [NC,OR]

    # Block Majestic-12 Bot
    RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC,OR]

    # Block Screaming Frog SEO Spider
    RewriteCond %{HTTP_USER_AGENT} Screaming Frog SEO Spider [NC,OR]

    # Block BaiduSpider
    RewriteCond %{HTTP_USER_AGENT} BaiduSpider [NC,OR]

    # Block YandexBot
    RewriteCond %{HTTP_USER_AGENT} YandexBot [NC,OR]

    # Block Sogou Spider
    RewriteCond %{HTTP_USER_AGENT} Sogou [NC,OR]

    # Block MJ12bot (Majestic)
    RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC,OR]

    # Block PetalBot (Huawei)
    RewriteCond %{HTTP_USER_AGENT} PetalBot [NC]

    # Deny access for these bots
    RewriteRule .* - [F,L]
</IfModule>
EOL

# Leserechte setzen
chmod 644 $DIRECTORY/robots.txt
chmod 644 $DIRECTORY/.htaccess

echo "Die Dateien robots.txt und .htaccess wurden im Verzeichnis $DIRECTORY erstellt und die Leserechte wurden gesetzt."