Bots und Crawler auf Server Blocken - Druckversion +- GridTalk.de (https://www.gridtalk.de) +-- Forum: Werkstatt (https://www.gridtalk.de/forumdisplay.php?fid=4) +--- Forum: Technik (https://www.gridtalk.de/forumdisplay.php?fid=25) +--- Thema: Bots und Crawler auf Server Blocken (/showthread.php?tid=4912) |
Bots und Crawler auf Server Blocken - Manfred Aabye - 09.09.2024 Dies blockiert alle aufgeführten Bots und das Crawlen deines OpenSim Servers. Erstelle einfach zwei Textdateien namens robots.txt und .htaccess in deinem Web Bereich und füge dann den folgenden Inhalt ein: Liste von robots.txt Einträgen für Blockierungen: Code: User-agent: Googlebot .htaccess zum Blockieren von gängigen Bots: Code: <IfModule mod_rewrite.c> Hier ist eine Liste gängiger Bots, die häufig Webseiten crawlen. Diese Liste enthält sowohl nützliche Suchmaschinen-Crawler als auch einige Bots von SEO-Tools und anderen Diensten. Gängige Suchmaschinen-Bots: Googlebot – Wird von Google verwendet, um Websites für den Google-Suchindex zu durchsuchen. Bingbot – Der Crawler von Microsoft Bing. Slurp – Der Bot der Yahoo-Suchmaschine. DuckDuckBot – Der Crawler von DuckDuckGo. BaiduSpider – Der Crawler der chinesischen Suchmaschine Baidu. YandexBot – Wird von der russischen Suchmaschine Yandex verwendet. Sogou Spider – Der Crawler der chinesischen Suchmaschine Sogou. SEO- und Marketing-Bots: AhrefsBot – Wird von Ahrefs für Backlink- und SEO-Daten verwendet. DotBot – Verwendet von Moz (Open Site Explorer) zur Analyse von Webseiten. SemrushBot – Verwendet von Semrush zur Analyse von SEO-Daten. Majestic-12 Bot – Wird von Majestic für die Analyse von Backlink-Daten verwendet. Screaming Frog SEO Spider – Ein Desktop-SEO-Tool zum Crawlen von Webseiten. Social Media-Bots: Twitterbot – Verwendet von Twitter, um Inhalte zu indexieren, die auf Twitter geteilt werden. facebookexternalhit – Wird von Facebook verwendet, um Inhalte zu crawlen, die auf Facebook geteilt werden. LinkedInBot – Wird von LinkedIn verwendet, um Inhalte zu durchsuchen, die auf LinkedIn geteilt werden. Weitere nützliche Bots: Applebot – Der Crawler, den Apple für Siri und Spotlight verwendet. Pinterestbot – Wird von Pinterest verwendet, um Inhalte für die Plattform zu indexieren. WhatsApp – Verwendet von WhatsApp für das Preloading von Links, die in Nachrichten geteilt werden. Weitere gängige Crawler: MJ12bot – Ein Crawler von Majestic für das Erstellen eines Backlink-Indexes. PetalBot – Der Crawler der Huawei-Suchmaschine Petal Search. Exabot – Ein französischer Suchmaschinen-Bot, der von Exalead betrieben wird. UptimeRobot – Verwendet zur Überwachung der Verfügbarkeit von Websites. Nachdem Blockieren sollte euer Server wieder schneller laufen. RE: Bots und Crawler auf Server Blocken - Manfred Aabye - 10.09.2024 Heute habe ich noch AmazonBot geblockt und habe durch die ganzen Blockierungen täglich 378 Millionen Server aufrufe weniger. Vergesst bitte nicht, eure fetten Logdateien zu löschen, dann den Server neu starten. RE: Bots und Crawler auf Server Blocken - Manfred Aabye - 17.09.2024 Hier ist noch ein Bash Skript welches die Dateien auf einem Linux Server erstellt und die Rechte richtig setzt. PHP-Code: #!/bin/bash |