Themabewertung:
  • 0 Bewertung(en) - 0 im Durchschnitt
  • 1
  • 2
  • 3
  • 4
  • 5
Bots und Crawler auf Server Blocken
#1
Dies blockiert alle aufgeführten Bots und das Crawlen deines OpenSim Servers.
Erstelle einfach zwei Textdateien namens robots.txt und .htaccess in deinem Web Bereich und füge dann den folgenden Inhalt ein:

Liste von robots.txt Einträgen für Blockierungen:
Code:
User-agent: Googlebot
Disallow: /

User-agent: Bingbot
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: DotBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: Majestic-12
Disallow: /

User-agent: Screaming Frog SEO Spider
Disallow: /

User-agent: BaiduSpider
Disallow: /

User-agent: YandexBot
Disallow: /

User-agent: Sogou
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: PetalBot
Disallow: /

.htaccess zum Blockieren von gängigen Bots:
Code:
<IfModule mod_rewrite.c>
    RewriteEngine On

    # Block Googlebot
    RewriteCond %{HTTP_USER_AGENT} Googlebot [NC,OR]
    
    # Block Bingbot
    RewriteCond %{HTTP_USER_AGENT} Bingbot [NC,OR]

    # Block AhrefsBot
    RewriteCond %{HTTP_USER_AGENT} AhrefsBot [NC,OR]

    # Block DotBot
    RewriteCond %{HTTP_USER_AGENT} DotBot [NC,OR]

    # Block SemrushBot
    RewriteCond %{HTTP_USER_AGENT} SemrushBot [NC,OR]

    # Block Majestic-12 Bot
    RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC,OR]

    # Block Screaming Frog SEO Spider
    RewriteCond %{HTTP_USER_AGENT} Screaming Frog SEO Spider [NC,OR]

    # Block BaiduSpider
    RewriteCond %{HTTP_USER_AGENT} BaiduSpider [NC,OR]

    # Block YandexBot
    RewriteCond %{HTTP_USER_AGENT} YandexBot [NC,OR]

    # Block Sogou Spider
    RewriteCond %{HTTP_USER_AGENT} Sogou [NC,OR]

    # Block MJ12bot (Majestic)
    RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC,OR]

    # Block PetalBot (Huawei)
    RewriteCond %{HTTP_USER_AGENT} PetalBot [NC]

    # Deny access for these bots
    RewriteRule .* - [F,L]
</IfModule>

Hier ist eine Liste gängiger Bots, die häufig Webseiten crawlen.
Diese Liste enthält sowohl nützliche Suchmaschinen-Crawler als auch einige Bots von SEO-Tools und anderen Diensten.

Gängige Suchmaschinen-Bots:

Googlebot – Wird von Google verwendet, um Websites für den Google-Suchindex zu durchsuchen.
Bingbot – Der Crawler von Microsoft Bing.
Slurp – Der Bot der Yahoo-Suchmaschine.
DuckDuckBot – Der Crawler von DuckDuckGo.
BaiduSpider – Der Crawler der chinesischen Suchmaschine Baidu.
YandexBot – Wird von der russischen Suchmaschine Yandex verwendet.
Sogou Spider – Der Crawler der chinesischen Suchmaschine Sogou.

SEO- und Marketing-Bots:

AhrefsBot – Wird von Ahrefs für Backlink- und SEO-Daten verwendet.
DotBot – Verwendet von Moz (Open Site Explorer) zur Analyse von Webseiten.
SemrushBot – Verwendet von Semrush zur Analyse von SEO-Daten.
Majestic-12 Bot – Wird von Majestic für die Analyse von Backlink-Daten verwendet.
Screaming Frog SEO Spider – Ein Desktop-SEO-Tool zum Crawlen von Webseiten.

Social Media-Bots:

Twitterbot – Verwendet von Twitter, um Inhalte zu indexieren, die auf Twitter geteilt werden.
facebookexternalhit – Wird von Facebook verwendet, um Inhalte zu crawlen, die auf Facebook geteilt werden.
LinkedInBot – Wird von LinkedIn verwendet, um Inhalte zu durchsuchen, die auf LinkedIn geteilt werden.

Weitere nützliche Bots:

Applebot – Der Crawler, den Apple für Siri und Spotlight verwendet.
Pinterestbot – Wird von Pinterest verwendet, um Inhalte für die Plattform zu indexieren.
WhatsApp – Verwendet von WhatsApp für das Preloading von Links, die in Nachrichten geteilt werden.

Weitere gängige Crawler:

MJ12bot – Ein Crawler von Majestic für das Erstellen eines Backlink-Indexes.
PetalBot – Der Crawler der Huawei-Suchmaschine Petal Search.
Exabot – Ein französischer Suchmaschinen-Bot, der von Exalead betrieben wird.
UptimeRobot – Verwendet zur Überwachung der Verfügbarkeit von Websites.

Nachdem Blockieren sollte euer Server wieder schneller laufen.
Ein Metaversum sind viele kleine Räume, die nahtlos aneinander passen,
sowie direkt sichtbar und begehbar sind, als wäre es aus einem Guss.



[-] The following 5 users say Thank You to Manfred Aabye for this post:
  • Anachron, Bogus Curry, Dorena Verne, Jupiter Rowland, Leora Jacobus
Zitieren
#2
Heute habe ich noch AmazonBot geblockt und habe durch die ganzen Blockierungen täglich 378 Millionen Server aufrufe weniger. Vergesst bitte nicht, eure fetten Logdateien zu löschen, dann den Server neu starten.
Ein Metaversum sind viele kleine Räume, die nahtlos aneinander passen,
sowie direkt sichtbar und begehbar sind, als wäre es aus einem Guss.



[-] The following 2 users say Thank You to Manfred Aabye for this post:
  • Anachron, Leora Jacobus
Zitieren
#3
Hier ist noch ein Bash Skript welches die Dateien auf einem Linux Server erstellt und die Rechte richtig setzt.

PHP-Code:
#!/bin/bash

# Verzeichnis setzen
DIRECTORY="/var/www/html"

# Datei robots.txt erstellen
cat <<EOL $DIRECTORY/robots.txt
User
-agentGPTBot
Disallow
: /

User-agentAmazonbot
Disallow
: /

User-agentGooglebot
Disallow
: /

User-agentBingbot
Disallow
: /

User-agentAhrefsBot
Disallow
: /

User-agentDotBot
Disallow
: /

User-agentSemrushBot
Disallow
: /

User-agentMajestic-12
Disallow
: /

User-agentScreaming Frog SEO Spider
Disallow
: /

User-agentBaiduSpider
Disallow
: /

User-agentYandexBot
Disallow
: /

User-agentSogou
Disallow
: /

User-agentMJ12bot
Disallow
: /

User-agentPetalBot
Disallow
: /
EOL

# Datei .htaccess erstellen
cat <<EOL $DIRECTORY/.htaccess
<IfModule mod_rewrite.c>
    
RewriteEngine On

    
# Block GPTBot
    
RewriteCond %{HTTP_USER_AGENTGPTBot [NC,OR]

    
# Block Amazonbot
    
RewriteCond %{HTTP_USER_AGENTAmazonbot [NC,OR]

    
# Block Googlebot
    
RewriteCond %{HTTP_USER_AGENTGooglebot [NC,OR]

    
# Block Bingbot
    
RewriteCond %{HTTP_USER_AGENTBingbot [NC,OR]

    
# Block AhrefsBot
    
RewriteCond %{HTTP_USER_AGENTAhrefsBot [NC,OR]

    
# Block DotBot
    
RewriteCond %{HTTP_USER_AGENTDotBot [NC,OR]

    
# Block SemrushBot
    
RewriteCond %{HTTP_USER_AGENTSemrushBot [NC,OR]

    
# Block Majestic-12 Bot
    
RewriteCond %{HTTP_USER_AGENTMJ12bot [NC,OR]

    
# Block Screaming Frog SEO Spider
    
RewriteCond %{HTTP_USER_AGENTScreaming Frog SEO Spider [NC,OR]

    
# Block BaiduSpider
    
RewriteCond %{HTTP_USER_AGENTBaiduSpider [NC,OR]

    
# Block YandexBot
    
RewriteCond %{HTTP_USER_AGENTYandexBot [NC,OR]

    
# Block Sogou Spider
    
RewriteCond %{HTTP_USER_AGENTSogou [NC,OR]

    
# Block MJ12bot (Majestic)
    
RewriteCond %{HTTP_USER_AGENTMJ12bot [NC,OR]

    
# Block PetalBot (Huawei)
    
RewriteCond %{HTTP_USER_AGENTPetalBot [NC]

    
# Deny access for these bots
    
RewriteRule .* - [F,L]
</
IfModule>
EOL

# Leserechte setzen
chmod 644 $DIRECTORY/robots.txt
chmod 644 $DIRECTORY
/.htaccess

echo "Die Dateien robots.txt und .htaccess wurden im Verzeichnis $DIRECTORY erstellt und die Leserechte wurden gesetzt." 
Ein Metaversum sind viele kleine Räume, die nahtlos aneinander passen,
sowie direkt sichtbar und begehbar sind, als wäre es aus einem Guss.



Zitieren


Möglicherweise verwandte Themen…
Thema Verfasser Antworten Ansichten Letzter Beitrag
  Anbindung eines Server an ein Bestehendes Grid Lindalou Ellisson 10 673 04.08.2024, 22:07
Letzter Beitrag: Jupiter Rowland
  Server-Tutorial: Linux und OpenSim Mareta Dagostino 39 80.931 11.05.2024, 23:11
Letzter Beitrag: Mareta Dagostino
  Opensim Server für jede Region separat starten Skimi 18 3.016 21.03.2024, 22:51
Letzter Beitrag: Manfred Aabye
  Freeswitch Server + Plugins Firestorm Freeswitch royalgrid 11 1.387 17.03.2024, 03:06
Letzter Beitrag: royalgrid
  Money Server - Classifieds Skimi 0 435 02.09.2023, 12:02
Letzter Beitrag: Skimi

Gehe zu:


Benutzer, die gerade dieses Thema anschauen: 4 Gast/Gäste