Etwas technisches zu Websiten und Suchmaschinencrawlern : MJ12Bot.

Bei der Durchsicht meiner Logs ist mir der MJ12Bot ins Auge gesprungen. Fast 17% aller Besuche von einem Bot ? Das kann doch nicht ernstgemeint sein. Und dann noch auf URL’s die es unter meiner Domain nie gab, inklusive SQL Injections.. na danke.

Aussperren ?

Die schnelle Lösung, .htaccess Anpassen:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot/v1\.0\.8.*$
RewriteRule .* – [F]

Was ist Mj12 nun eigentlich ?

Problem erst einmal gelöst. Aber was ist MJ12 ? Hier handelt es sich um eine verteilt agierende Suchmaschine. Es wird sehr aggressiv gecrawlt, an die robots.txt hält man sich auch nicht, also viel mir die Entscheidung das ganze zu Blocken auch nicht weiter schwer.

Oft wird dieser Crawler als „Bad Robot“ bezeichnet. Dazu zählen im allgemeinen Crawler die sich nicht an den guten Ton halten, zu oft crawlen, wiederkehrend nicht existierende URL’s besuchen, die robots.txt ignorieren oder auch SQL Injections in ihren URL’s verwenden. Also all das was eine Suchemaschine eigentlich nicht tun sollte und eigentlich auch (für eine Suchmaschine) keinen Sinn macht.

Ich habe diesen User Agent mit dem oben angegebenen Statement über die .htaccess gesperrt. Aber sollte man das nun wirklich tun ? Gründe gibt es ja dafür…

Den Namen finde ich merkwürdig.. oder doch absichtlich gewählt ? Für alle denen Majestic 12 nicht sagt, es gibt hier einen recht ausführlichen Artikel bei Wikipedia : Majestic 12 bei Wikipedia

Majestic 12 bietet einen sogenannten Site Explorer an. Hier kann jeder zu Domains Informationen zu referenzierenden Domains und Backlinks einsehen. Das ganze aber nur gegen einen kostenpflichtigen Account. Das ist aber auch das einzige was man so auf den ersten Blick von dieser Suchmaschine sieht. Eine Suchmaschine im klassischen Sinne ist es zumindest einmal nicht.

Weitere Informationen dazu gibts hier (in englisch): http://blog.arithm.com/2008/01/16/mj12bot-virus-robot/


5 Kommentare

Markus Russ · 27. Oktober 2013 um 08:14

Servus Jens,

danke für die Info, die Bad Crawler werden ja täglich mehr.

Hier meine Rewrites, sehr hartnäckig war bei mir auch der BLEXBot:

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} (BLEXBot|Baiduspider|Baiduspider-video|Baiduspider-image) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (moget|ichiro|MJ12bot|AhrefsBot|Yandex|NaverBot|Yeti|YoudaoBot)
RewriteRule .* – [R=403,L]

Ciao Markus

Tilo Schönberg · 12. Februar 2014 um 10:49

Hallo Herr Fiedler,
Sie wurden gelinkt…

mfG
0815-Info.com

Peter Fischer · 6. September 2014 um 11:08

Interessanter Artikel, vielen Dank.

Grüße,
Peter

Tino Bellmann · 17. November 2020 um 07:42

Danke für Euren Beitrag, auch bei meiner Webseite sind die Bots sehr nervig und spidern im Sekundentakt, ohne dass man im Gegenzug irgendeinen Nutzen hat.

Nachdem IP-Sperren, robots.txt und redirects nichts gebracht haben, fange ich die „Bad Bots“ in einem Unterprogramm der Webseite ab und schicke ihnen megabytegroße, nutzlose Textdateien, die nach dem Zufallsprinzip zusammengebaut werden.

Wer Wind sät und Daten will, bekommt von mir einen Sturm, der ihm bei jedem Aufruf 7-10 MB Text ausliefert.

    Jens Fiedler · 9. Dezember 2020 um 15:49

    Die Lösung gefällt mir auch! Kann nur Potentiell zu Problemen führen wenn zu viele Botanfragen kommt und irgendwann ist der Server auch einmal am Limit der Bandbreite. Passiert nicht sofort, aber durchaus möglich !

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert