Majestic 12 Bot (MJ12Bot)

Etwas technisches zu Websiten und Suchmaschinencrawlern : MJ12Bot.

Bei der Durchsicht meiner Logs ist mir der MJ12Bot ins Auge gesprungen. Fast 17% aller Besuche von einem Bot ? Das kann doch nicht ernstgemeint sein. Und dann noch auf URL’s die es unter meiner Domain nie gab, inklusive SQL Injections.. na danke.

Aussperren ?

Die schnelle Lösung, .htaccess Anpassen:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot/v1\.0\.8.*$
RewriteRule .* – [F]

Was ist Mj12 nun eigentlich ?

Problem erst einmal gelöst. Aber was ist MJ12 ? Hier handelt es sich um eine verteilt agierende Suchmaschine. Es wird sehr aggressiv gecrawlt, an die robots.txt hält man sich auch nicht, also viel mir die Entscheidung das ganze zu Blocken auch nicht weiter schwer.

Oft wird dieser Crawler als „Bad Robot“ bezeichnet. Dazu zählen im allgemeinen Crawler die sich nicht an den guten Ton halten, zu oft crawlen, wiederkehrend nicht existierende URL’s besuchen, die robots.txt ignorieren oder auch SQL Injections in ihren URL’s verwenden. Also all das was eine Suchemaschine eigentlich nicht tun sollte und eigentlich auch (für eine Suchmaschine) keinen Sinn macht.

Ich habe diesen User Agent mit dem oben angegebenen Statement über die .htaccess gesperrt. Aber sollte man das nun wirklich tun ? Gründe gibt es ja dafür…

Den Namen finde ich merkwürdig.. oder doch absichtlich gewählt ? Für alle denen Majestic 12 nicht sagt, es gibt hier einen recht ausführlichen Artikel bei Wikipedia : Majestic 12 bei Wikipedia

Majestic 12 bietet einen sogenannten Site Explorer an. Hier kann jeder zu Domains Informationen zu referenzierenden Domains und Backlinks einsehen. Das ganze aber nur gegen einen kostenpflichtigen Account. Das ist aber auch das einzige was man so auf den ersten Blick von dieser Suchmaschine sieht. Eine Suchmaschine im klassischen Sinne ist es zumindest einmal nicht.

Weitere Informationen dazu gibts hier (in englisch): http://blog.arithm.com/2008/01/16/mj12bot-virus-robot/

3 Antworten auf “Majestic 12 Bot (MJ12Bot)”

  1. Servus Jens,

    danke für die Info, die Bad Crawler werden ja täglich mehr.

    Hier meine Rewrites, sehr hartnäckig war bei mir auch der BLEXBot:

    RewriteEngine On

    RewriteCond %{HTTP_USER_AGENT} (BLEXBot|Baiduspider|Baiduspider-video|Baiduspider-image) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (moget|ichiro|MJ12bot|AhrefsBot|Yandex|NaverBot|Yeti|YoudaoBot)
    RewriteRule .* – [R=403,L]

    Ciao Markus

    Antworten

  2. Hallo Herr Fiedler,
    Sie wurden gelinkt…

    mfG
    0815-Info.com

    Antworten

  3. Interessanter Artikel, vielen Dank.

    Grüße,
    Peter

    Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.